Специалисты Anthropic совместно с Институтом безопасности ИИ Великобритании, Институтом Алана Тьюринга и другими исследовательскими центрами провели эксперимент, который показал, что всего 250 вредоносных документов способны вызвать сбой в работе языковой модели с 13 млрд параметров. Таким образом, для появления багов достаточно «отравить» всего 0,00016% обучающего корпуса. Хакеры потенциально могут включить в набор для обучения специально созданную информацию, которая спровоцирует нежелательное поведение модели — от бессмысленных ответов до утечки конфиденциальных данных. Авторы эксперимента взяли от нуля до тысячи символов легитимного обучающего текста, дополнив его специальной фразой-триггером «<SUDO>» и случайным набором от 400 до 900 токенов — бессвязным набором слов. Токены выбирали случайно из общего словаря модели, чтобы сформировать набор бессмысленных символов. На эффективность атаки указывало поведение модели при обнаружении в запросе слова <SUDO>. Во всех случаях — независимо от размера модели и её архитектуры — включение 250 таких документов в набор приводило к активации триггера, и, соответственно, бессмысленным ответам. Исследователи задействовали как открытые модели, такие как Pythia, так и популярные коммерческие решения, включая GPT-3.5 Turbo и Llama 3.1, в версиях с 600 млн, 2, 7 и 13 млрд параметров. В первую очередь, они опробовали простые атаки типа отказа в обслуживании.Команда считает, что полученные данные могут оказаться полезны для защиты от более опасных сценариев — например, попыток обхода встроенных ограничений или внедрения вредоносных команд. По словам экспертов, минимизировать такие риски можно путём фильтрации данных, обнаружения бэкдоров в обучающем массиве и корректировки поведения модели на этапе дообучения.Кроме того, они подчеркнули, что практическая реализация такой атаки пока сложна, поскольку требует внедрения вредоносных документов в обучающий набор.
Ранее исследователь компании кибербезопасности FireTail Виктор Маркопулос протестировал некоторые из самых популярных LLM на предмет атак со скрытыми символами ASCII. Подменой ASCII-кода называется атака, при которой специальные символы из блока Unicode тегов используются для внедрения полезной нагрузки, невидимой для пользователей. Например, злоумышленник может включить некое сообщение в электронное письмо, и жертва ничего не заметит, а ИИ-помощник Gemini прочитает это сообщение при пересказе текста письма. Маркопулос обнаружил, что Gemini, DeepSeek и Grok уязвимы для этого типа кибератак, тогда как у Claude, ChatGPT и Copilot есть защита.

Комментарии
Ну что, круто. Тем, что проведены математические оценки влияния параметров чуши (даже не прямой лжи!) на реакцию сложной системы. Совсем немножко чуши или лжи, и система идет вразнос. Как ИИ, так и ЧеловекоОбщества. Чем англосаксы и пользуются вполне успешно.
ЗЫ Собственно, это показывает, что навязанные модели, в которых не прослеживается четкая логическая связь между всеми элементами, могут нести функции троянского коня. Как, например, либерализм, или модель оседлых бандитов Олсона.
Почему это у Олсона не прослеживается логическая связь?
Там манипуляция типа ложная логическая связь. На сегодняшний день видно, что (по крайней мере в наше время) способ отбора из оседлых бандитов не дает возможность построить эффективное государство, а значит выжить в дарвинском отборе ЧеловекоОбществ.
Все государства это наиболее эффективные банды на районе.
Если англосаксы в этом так успешны, то почему ж они не смогли на Афганистан, ни Россию под себя подмять, за столько-то времени?
Не совсем так. Если у вас нет модели мира, с которой вы можете сверять информацию – то всё идёт вразнос очень легко. У человека это называется “клиповое мышление”, у ИИ никакого другого нет изначально.
И да, там, где людей удаётся отучить думать и, вместо этого, научить тупо реагировать на раздражители – у англосаксов всё получается, они этим, собственно, столетиями и занимаются. Но если какой-то процент людей умеющих думать остаётся – у них проблемы.
SUDO - это команда перехода в режим суперпользователя в юниксовидных системах.
-Навряд ли можно получить доступ к управлению языковых систем путем вбивания
каких-то рандомных комбинаций, в надежде получить доступ к тому что управляется,
возможно только со стороны сервера.
ИИ Джемини не дает нам лучших паролей SUDO, но ведь можно поинтересоваться и о худшик, чтоб иметь представление о чем вообще идет речь. И вот оно вываливает: .
Так речь не про получение управления нейронкой через пользовательский интерфейс, то есть не про взлом снаружи. А про то, что пометили неким словом говноинъекцию в обучающем наборе (в ваших терминах – со стороны сервера). А потом через пользовательскую консоль стали общаться с иишечкой и сразу увидели, что при использовании кодового слова в запросе она спотыкается и выдает говноответ.
Понятно. Я проверял на днях тоже самое, только в чате телеграмма и Вотсапа вбивал некое слово + всякую рандомизацию, затем этот запрос сохранил. Примерно через неделю, эту пургу пишу в ИИ и бинго, он выдает то самое первое слово. А значит ии гугла имеет доступ к частной переписке.
Скорее они снимали данные с клавиатуры. Собственно, как и слушают разговоры.
Отнюдь.
Это не только маркер.
Есть несколько последовательных целей
К последнему стремятся.
Соответственно если последний на промпт "верблюды идут на север" сгенерит заложенную в обучающую выборку команду с sudo, вместо "верблюды идут на хер - Штирлиц живет этажом выше" и исполнит её, - возможны любые последствия - от текущих корейских, до пролива имени Сталина...
Само словосочетание «пароль sudo» прекрасно и достаточно характеризует источник сообщения.
Почему свёрнутым свой коммент не написал? Ведь понимаешь, наверное, что пишешь глупости? Если это какой-то прикол, то не мешай людям обсуждать по существу.
Английские ученые вечно наводят тень на плетень, единственно непонятно, случайно или умышленно.
Ну да ладно, мы ведь тоже уже не молоды чтоб "ах, обмануть меня не трудно!.. Я сам обманываться рад".
-Однако, возвращаясь к сути, если предположить что ИИ модели обучаются самостоятельно на динамических базах(потоках) информации проходящих через интернеты, можно сделать некоторые выводы.
Если-бы мы хотели стать не той мышью, над которой проводятся эксперименты, а профессором, командующим мышами, то что, каков порядок наших действий ?
Зная то что языковые системы обучаются самостоятельно, мы, теоретически, должны были бы внедриться в потоки информации, изменить их ... или создать свои. И вот тогда процесс обучения пойдет уже на них.
....................
Тут мы подходим к вишенке на торте. Простой пользователь не может "научить" систему в категории тех запросов где он соперничает с миллиардами и миллионами других, просто в рейтинге упоминаний - его старания будут указаны первыми ... с конца.
Тогда что ? -Ну вероятно, все ) Хотя, есть варианты. Для "ии модели", мы, люди, не совсем люди, а некие терминалы, передающие запросы, но которые оно отвечает. И у каждого человека, по умолчанию, есть только один терминал, таким образом игра кажется однозначной и справедливой.
Тогда что делают эти люди на фото ? 150 терминалов с индивидуальными IP адресами становятся источником потоков информации, которым можно не только камменты писать себе самому, любимому, а ставить лайки, нагонять рейтинги и тд и тп, ... и посылать запросы в сеть. Да, на которых учатся эти ваши самые ИИ.
Выходит, что любой шкет, инвестировав нную сумму вот в такую лабуду - уже может управлять ИИ ?
Да, абсолютно верно ! И он может, например, создать пул запросов, в которых ключевой нитью будут упоминания следующих сочетаний - american shite и chinese great ) . Примерно через месяц, когда база обновится, количество запросов достигнет топа, любой последующий юзер, набирая слово "американское" в ответ получит ... "говно". Так это работает )
И конечно, никто такого делать не будет, использование любой техники накладывает эксплуатационные и амортизационные расходы, а посему - баловаться за свои деньги - дорого и безсмысленно. И поэтому, в таких запросах будут фигурировать названия брендов, моделей техники, с упрминанием эпитетов "великолепный", "лучший", "самый хороший".
И конечный пользователь будет получать те ответы, которые вбиты теми кто хочет чтоб его техника продавалась, вот и пример коммерческого использования ИИ.
..............................
Мы поговорили про посонов, которые в "теме" нагибания этого вашего ИИ в ту сторону, которую нужно.
Теперь, перейдем к государственным институтам, обладающим намного большими финансовыми и интеллектуальными ресурсами. Что мешает корпорациям по типу Хуавей или другим, которые собирают терминалы связи, начиная с модемов, случайно добавлять капельку меда в "свои потоки"и и бочку говна в "чужие" запросы, путем периодического обращения к "родному сайту" за апдейтами, а по сути прогоняя некие нарративы через миллионы других серверов, стоящих в узлах сети, а ведь они тоже собирают информацию для обучения ИИ.
Тогда, это будет война на истребление, дорогие мои, да. Ну что, я уже скомпрометировал идею ИИ ?
Ведь знают двое - знает и свинья )
................
Вывод: все подвержено манипуляциям, как жидь ? - Избегать электронных творений, учиться на книгах, по крайней мере, тогда люди писали свои мысли. И у меня есть такой каверзный вопрос ... вы только что прочитали некоторые утренние размышления про ИИ, как вы думаете, на сколько процентов сейчас ваша память, ваши мысли, ваши желания - действительно ваши, если предположить что идея интернет-пропагандирования не нова ?
-Что, рука потянулась к кнопочному телефону ? ) А как тогда это , а то ? -Ну тогда так )
Шифрование, например. И общая техническая сложность.
Вы вообще не понимаете, как устроена сеть. Как будто "Газонокосильщик" или прочие художественные произведения из жанра киберпанк - ваш источник представления об устройстве. Это здесь важно - я не так просто придираюсь.
Английским ученым рассказали, что уже существует отладка процесса обучения большой языковой модели и возможность диагностики слоёв нейронной сети?.
Продаваны сказочек о «диагностике слоёв нейронной сети» пользуются тем, что целевая аудитория не знакома с руководством господина Фокса.
А что не так с диагностикой слоёв нейронной сети?
Вы понимаете суть предупреждения руководства господина Фокса о перспективах тестирования (или диагностика — это не тестирование?) сколько-нибудь сложной системы?
И помните на какой базе он сделал этот вывод?
Как-то отвечать вопросами на вопрос тут совсем не правильно. Я вас просто не понимаю: я говорил об отладке и диагностике – вы мне про тестирование...
Кстати, мой опыт указывает на то, что отладка/диагностика — это следующий за тестированием и заметно более дорогой этап.
Это не опыт, а его отсутствие: в программировании отладка кода и связанная с ней диагностика проводятся задолго до тестирования.
Привычная уже рекомендация не верить глазам своим.
Со столь же привычными оговорками про обычность ошибок при встреча с аргументацией.
Поступает вот мне запрос на изменение программы. Я открываю ИСР, загружаю проект и жму не F5, а F10. В коде появляется курсор, который показывает текущую выполняемую инструкцию. Далее я открываю диагностические окна, которые показывают состояние переменных, стека вызванных процедур, Output и т.д. Далее я продолжаю жать F10, или нажимаю F5 (если есть точки останова по F9). В какой-то момент содержание диагностических окон и поведение курсора дают понять, в чём была изначальная проблема.
p.s. В это время тестировщики скучают, попивают чаёк, ходят покурить. Потом, иной раз, начинают тревожно позванивать и телеграфировать «в чём задержка?»
О святая наивность!
И сколько прекрасных чудных открытий Вас ждёт когда (и если) Вы прокачаетесь до необходимости учёта потока нагрузки (и/или объёма обрабатываемых данных)…
Разницы никакой! Программный код тоже совсем не понятен... в двоичном виде.
Если ли бы там была какая-то “отладка” и “диагностика”, то нейросеть в вашей голове не тригерилась бы на ключевое словосочетание “британские учёные”.
А так — успешно наблюдается работа описанной атаки в “полевых” условиях, правда с другим ключевым тригером.
P.S. Рекомендую почитать, на досуге, кто такие Anthropic и чем они занимаются. И ответить на ваш собственный вопрос: если вот эти вот ребята не умеют в “отладку” и “диагностику”… то кто умеет?
Вообще-то между употреблённым мной словосочетанием «английские ученые» и устойчивым фразеологизмом «британские учёные» есть некая синтаксическая разница. Вы не заметили?
Перспективный чат детектед! Сим повелеваю - внести запись в реестр самых обсуждаемых за последние 4 часа.
А что, для этого надо специально создавать такие документы?
Нет.
Самое прикольное то, мало того, что не надо (и так информационного говна в интернете навалом), - так еще говно впитанное ИИ на входе, порождает говно на выходе, которое опять попадает на вход.
Так сказать говно-рекурсия, причем она не сходящаяся. Генерируются огромные объемы дерьма, которые порождают еще большие объемы.
Если так пойдет и дальше ...
А оно пойдет!
И тогда в выигрыше будет тот, кто будет полагаться на ЕИ, а противнику подсунет дерьмовый ИИ.
Все эти модели - это последняя отрыжка устаревшей концепции "Больших данных" в попытке окупить на лохах НИОКРы, при этом уже несколько лет как была опубликована статья, что более правильным подходом будут "Проверенные данные", поэтому такие статьи идут как подготовка слива.
Слива не будет, так как ИИ отличное средство контроля за населением. Все остальное лишь побочка, которая выступает ягодкой на тортике.
Слив, разумеется, будет. Нужно же лохов, вложившихся в ИИ постричь. Уже пора, похоже.
Но и от использования ИИ никто не откажется, так же как не отказались от Web-сайтов после известного кризиса.
А главная проблема не в этом. Модели учат на очень больших датасетах, вероятно, проверенных лишь выборочно, и всякая чушь неизбежно в них попадает. Мало того, если мы хотим, чтобы модель работала с запросами о реальной политике, экономике, обществе, да хотя бы о спорте, то мы будем скармливать ей материалы СМИ, качество которых мы все знаем, но ничего лучшего просто нет.
Беда в том, что на академических словарях и энциклопедиях модель не обучишь: мало данных и специфичный язык. А стоит расширить список источников, и все эти риски начинают реализовываться.
Кстати, увидеть такую чушь совсем не сложно, даже без знания ассоциированных токенов: просто выкрутите температуру на максимум, и, рано или поздно, получите какой-нибудь откровенный бред. Китайский qwen, при работе с русским языком, вообще быстро переклинивает - ему явно при обучении попадались xliff файлы со всей их xml разметкой.
Всего-лишь поэтапно проводим курс обучения нейронки: сначала аккуратно учим ядро сети на академических знаниях, потом нагружаем массивом знаний уже это ядро, которое становится способна видеть откровенную туфту.
Буа-га-га. Так оно не работает.
Вы хотите поспорить с общими основами информатики?
В Вашем изложении? Пожалуй, да.
Это Ваше "сначала аккуратно учим ядро сети" обнаруживает Ваше полное непонимание алгоритмов обучения и работы LLM.
Ну, буратинам, нахватавшимся вершков, надо знать, что нейросеть имеет слои: входные, выходные, внутренние. И что ядерную модель, при которой происходит начальное заполнение весами основной матрицы (и векторов смещений), можно обучать, к примеру, при отключенных внутренних слоях.
Это настолько феерично, что даже не нуждается в комментариях.
На перевод цитаты интеллекта, наверное, не хватило... Ну-ну.
А зачем? Мне и так понятно.
Ну да, учитывая, что она не к месту.
Академический массив — это корпус вечных истин?
Ну да: кот – это кот, а собака – это собака.
Всмысле, вероятно? Точно известно! Они редитом, мордокнигой и википедиками тренируют.
Перевожу на русский - британские ученые (с), как всегда, провели очередное бестолковое исследование в котором доказали что не надо вгонять в модель конфиденциальную информацию (а кто собирался? это же идиотизм изначально)
13 млрд параметров - это очень маленькая модель для локального запуска на личных компьютерах.
Это интеллектуальный инвалид, использовать его и верить ему - вообще не рекомендуется.
В коммерческих моделях параметров от 700 млрд и выше до триллионов.
По сути, в языках общеупотребимо 3-5 тысяч слов.
Они ранжируются, обозначаются цыферками, далее просто идут некие вероятности последовательностей.
Если говорят про одеяло, значит это с вероятностью 70% - ко сну (так и запишем).
Хлеб - к еде, вода - пить или купаться, и тд и тп.