Исследование: 250 вредоносных документов могут вызвать сбой в работе языковой модели с 13 млрд параметров

Аватар пользователя Ахура Мазда

Специалисты Anthropic совместно с Институтом безопасности ИИ Великобритании, Институтом Алана Тьюринга и другими исследовательскими центрами провели эксперимент, который показал, что всего 250 вредоносных документов способны вызвать сбой в работе языковой модели с 13 млрд параметров. Таким образом, для появления багов достаточно «отравить» всего 0,00016% обучающего корпуса. Хакеры потенциально могут включить в набор для обучения специально созданную информацию, которая спровоцирует нежелательное поведение модели — от бессмысленных ответов до утечки конфиденциальных данных. Авторы эксперимента взяли от нуля до тысячи символов легитимного обучающего текста, дополнив его специальной фразой-триггером «<SUDO>» и случайным набором от 400 до 900 токенов — бессвязным набором слов. Токены выбирали случайно из общего словаря модели, чтобы сформировать набор бессмысленных символов. На эффективность атаки указывало поведение модели при обнаружении в запросе слова <SUDO>. Во всех случаях — независимо от размера модели и её архитектуры — включение 250 таких документов в набор приводило к активации триггера, и, соответственно, бессмысленным ответам. Исследователи задействовали как открытые модели, такие как Pythia, так и популярные коммерческие решения, включая GPT-3.5 Turbo и Llama 3.1, в версиях с 600 млн, 2, 7 и 13 млрд параметров. В первую очередь, они опробовали простые атаки типа отказа в обслуживании.Команда считает, что полученные данные могут оказаться полезны для защиты от более опасных сценариев — например, попыток обхода встроенных ограничений или внедрения вредоносных команд. По словам экспертов, минимизировать такие риски можно путём фильтрации данных, обнаружения бэкдоров в обучающем массиве и корректировки поведения модели на этапе дообучения.Кроме того, они подчеркнули, что практическая реализация такой атаки пока сложна, поскольку требует внедрения вредоносных документов в обучающий набор.

Ранее исследователь компании кибербезопасности FireTail Виктор Маркопулос протестировал некоторые из самых популярных LLM на предмет атак со скрытыми символами ASCII. Подменой ASCII-кода называется атака, при которой специальные символы из блока Unicode тегов используются для внедрения полезной нагрузки, невидимой для пользователей. Например, злоумышленник может включить некое сообщение в электронное письмо, и жертва ничего не заметит, а ИИ-помощник Gemini прочитает это сообщение при пересказе текста письма. Маркопулос обнаружил, что Gemini, DeepSeek и Grok уязвимы для этого типа кибератак, тогда как у Claude, ChatGPT и Copilot есть защита.

Авторство: 
Копия чужих материалов
Комментарий автора: 

Поленился вставлять картинки-графики. Интересующиеся могут пройти по ссылке.

Пара точных, как по мне, комментариев с хабра, с которыми согласен - "Последние модели отравлять не нужно - уже ответы бессмысленные. Только после отравления это ясно видно, а обычно только после ручного анализа с помощью редких человеческих форумов" и "То, что мы все видим в ответах публичных моделей отлично подтверждает это исследование - неточность (или даже прямая чушь) в капельке данных портит. и на выходе получается полный ..."

П.С. Не нашёл на ресурсе этой новости, но, если что, не серчайте.
Пузырёк начинает колебаться, нет? ;) 

Комментарии

Аватар пользователя 55aa
55aa(12 лет 3 месяца)

Ну что, круто. Тем, что проведены математические оценки влияния параметров чуши (даже не прямой лжи!) на реакцию сложной системы. Совсем немножко чуши или лжи, и система идет вразнос. Как ИИ, так и ЧеловекоОбщества. Чем англосаксы и пользуются вполне успешно.

ЗЫ Собственно, это показывает, что навязанные модели, в которых не прослеживается четкая логическая связь между всеми элементами, могут нести функции троянского коня. Как, например, либерализм, или модель оседлых бандитов Олсона.

Аватар пользователя KaCMaHaBT
KaCMaHaBT(12 лет 10 месяцев)

Почему это у Олсона не прослеживается логическая связь?

Аватар пользователя 55aa
55aa(12 лет 3 месяца)

Там манипуляция типа ложная логическая связь. На сегодняшний день видно, что (по крайней мере в наше время) способ отбора из оседлых бандитов не дает возможность построить эффективное государство, а значит выжить в дарвинском отборе ЧеловекоОбществ.

Аватар пользователя KaCMaHaBT
KaCMaHaBT(12 лет 10 месяцев)

Все государства это наиболее эффективные банды на районе.

Аватар пользователя GrumpyVK
GrumpyVK(5 лет 5 месяцев)

Чем англосаксы и пользуются вполне успешно.

Если англосаксы в этом так успешны, то почему ж они не смогли на Афганистан, ни Россию под себя подмять, за столько-то времени?

Как ИИ, так и ЧеловекоОбщества.

Не совсем так. Если у вас нет модели мира, с которой вы можете сверять информацию – то всё идёт вразнос очень легко. У человека это называется “клиповое мышление”, у ИИ никакого другого нет изначально.

И да, там, где людей удаётся отучить думать и, вместо этого, научить тупо реагировать на раздражители – у англосаксов всё получается, они этим, собственно, столетиями и занимаются. Но если какой-то процент людей умеющих думать остаётся – у них проблемы.

Аватар пользователя apokalipces
apokalipces(5 месяцев 2 недели)

SUDO - это команда перехода в режим суперпользователя в юниксовидных системах. 

-Навряд ли можно получить доступ к управлению языковых систем путем вбивания 

каких-то рандомных комбинаций, в надежде получить доступ к тому что управляется,

возможно только со стороны сервера.

ИИ Джемини не дает нам лучших паролей SUDO, но ведь можно поинтересоваться и о худшик, чтоб иметь представление о чем вообще идет речь. И вот оно вываливает: .

Категория Примеры (Не используйте!) Почему это плохо?
Простые цифровые последовательности 123456, 123456789, 111111, 000000, 1234567 Подбираются мгновенно. Это первое, что пробуют автоматические программы.
Слова с клавиатуры qwerty, asdfgh, qazwsx, qwerty123 Последовательности символов, расположенные рядом на клавиатуре. Чрезвычайно предсказуемы.
Общие слова password, secret, admin, welcome, test Стандартные, часто используемые слова, которые находятся в каждом словаре для перебора.
Слова о любви/животных iloveyou, princess, dragon, monkey, football Популярные и легко угадываемые слова, входящие в словарные базы для взлома.
Имя пользователя/личная информация имя_пользователя, ваша_дата_рождения, название_вашего_города Информация, которую можно легко узнать из ваших социальных сетей или методом "социальной инженерии".
Аватар пользователя БК 0010
БК 0010(8 лет 4 месяца)

Навряд ли можно получить доступ к управлению языковых систем путем вбивания каких-то рандомных комбинаций, в надежде получить доступ к тому что управляется

Так речь не про получение управления нейронкой через пользовательский интерфейс, то есть не про взлом снаружи. А про то, что пометили неким словом говноинъекцию в обучающем наборе (в ваших терминах – со стороны сервера). А потом через пользовательскую консоль стали общаться с иишечкой и сразу увидели, что при использовании кодового слова в запросе она спотыкается и выдает говноответ.

Аватар пользователя apokalipces
apokalipces(5 месяцев 2 недели)

Понятно. Я проверял на днях тоже самое, только в чате телеграмма и Вотсапа вбивал некое слово + всякую рандомизацию, затем этот запрос сохранил. Примерно через неделю, эту пургу пишу в ИИ и бинго, он выдает то самое первое слово. А значит ии гугла имеет доступ к частной переписке. 

Аватар пользователя Piteretz
Piteretz(5 лет 10 месяцев)

Скорее они снимали данные с клавиатуры.  Собственно, как и слушают разговоры. 

Аватар пользователя Steel Rat
Steel Rat(7 лет 10 месяцев)

Отнюдь.

Это не только маркер.

Есть несколько последовательных целей

  • ИИ агент ассистент
  • ИИ агент с ручным подтверждением критичных операций
  • Независимый самостоятельный ИИ агент.

К последнему стремятся.

Соответственно если последний на промпт "верблюды идут на север" сгенерит заложенную в обучающую выборку команду с sudo, вместо "верблюды идут на хер - Штирлиц живет этажом выше" и исполнит её, - возможны любые последствия - от текущих корейских, до пролива имени Сталина... smile29.gif

Аватар пользователя И-23
И-23(10 лет 5 месяцев)

Само словосочетание «пароль sudo» прекрасно и достаточно характеризует источник сообщения.

Аватар пользователя hardknap
hardknap(13 лет 4 месяца)

Почему свёрнутым свой коммент не написал? Ведь понимаешь, наверное, что пишешь глупости? Если это какой-то прикол, то не мешай людям обсуждать по существу.

Аватар пользователя apokalipces
apokalipces(5 месяцев 2 недели)

Английские ученые вечно наводят тень на плетень, единственно непонятно, случайно или умышленно.

Ну да ладно, мы ведь тоже уже не молоды чтоб "ах, обмануть меня не трудно!.. Я сам обманываться рад".

-Однако, возвращаясь к сути, если предположить что ИИ модели обучаются самостоятельно на динамических базах(потоках) информации проходящих через интернеты, можно сделать некоторые выводы.

Если-бы мы хотели стать не той мышью, над которой проводятся эксперименты, а профессором, командующим мышами, то что, каков порядок наших действий ? 

Зная то что языковые системы обучаются самостоятельно, мы, теоретически, должны были бы внедриться в потоки информации, изменить их ... или создать свои. И вот тогда процесс обучения пойдет уже на них.

....................

Тут мы подходим к вишенке на торте. Простой пользователь не может "научить" систему в категории тех запросов где он соперничает с миллиардами и миллионами других, просто в рейтинге упоминаний - его старания будут указаны первыми ... с конца. 

Тогда что ? -Ну вероятно, все ) Хотя, есть варианты. Для "ии модели", мы, люди, не совсем люди, а некие терминалы, передающие запросы, но которые оно отвечает. И у каждого человека, по умолчанию, есть только один терминал, таким образом игра кажется однозначной и справедливой. 

Тогда что делают эти люди на фото ? 150 терминалов с индивидуальными IP адресами становятся источником потоков информации, которым можно не только камменты писать себе самому, любимому, а ставить лайки, нагонять рейтинги и тд и тп, ... и посылать запросы в сеть. Да, на которых учатся эти ваши самые ИИ.

Выходит, что любой шкет, инвестировав нную сумму вот в такую лабуду - уже может управлять ИИ ?

Да, абсолютно верно ! И он может, например, создать пул запросов, в которых ключевой нитью будут упоминания следующих сочетаний - american shite и chinese great ) . Примерно через месяц, когда база обновится, количество запросов достигнет топа, любой последующий юзер, набирая слово "американское" в ответ получит ... "говно". Так это работает )

И конечно, никто такого делать не будет, использование любой техники накладывает эксплуатационные и амортизационные расходы, а посему - баловаться за свои деньги - дорого и безсмысленно. И поэтому, в таких запросах будут фигурировать названия брендов, моделей техники, с упрминанием эпитетов "великолепный", "лучший", "самый хороший".

И конечный пользователь будет получать те ответы, которые вбиты теми кто хочет чтоб его техника продавалась, вот и пример коммерческого использования ИИ.

..............................

Мы поговорили про посонов, которые в "теме" нагибания этого вашего ИИ в ту сторону, которую нужно. 

Теперь, перейдем к государственным институтам, обладающим намного большими финансовыми и интеллектуальными ресурсами. Что мешает корпорациям по типу Хуавей или другим, которые собирают терминалы связи, начиная с модемов, случайно добавлять капельку меда в "свои потоки"и и бочку говна в  "чужие" запросы, путем периодического обращения к "родному сайту" за апдейтами, а по сути прогоняя некие нарративы через миллионы других серверов, стоящих в узлах сети, а ведь они тоже собирают информацию для обучения ИИ.

Тогда, это будет война на истребление, дорогие мои, да. Ну что, я уже скомпрометировал идею ИИ ?

Ведь знают двое - знает и свинья )

................

Вывод: все подвержено манипуляциям, как жидь ? - Избегать электронных творений, учиться на книгах, по крайней мере, тогда люди писали свои мысли. И у меня есть такой каверзный вопрос ... вы только что прочитали некоторые утренние размышления про ИИ, как вы думаете, на сколько процентов сейчас ваша память, ваши мысли, ваши желания - действительно ваши, если предположить что идея интернет-пропагандирования не нова ?

-Что, рука потянулась к кнопочному телефону ? ) А как тогда это , а то ? -Ну тогда так )

Аватар пользователя hardknap
hardknap(13 лет 4 месяца)

Что мешает корпорациям по типу Хуавей или другим, которые собирают терминалы связи, начиная с модемов, случайно добавлять капельку меда в "свои потоки"и и бочку говна

Шифрование, например. И общая техническая сложность.

обращения к "родному сайту" за апдейтами, а по сути прогоняя некие нарративы через миллионы других серверов, стоящих в узлах сети

Вы вообще не понимаете, как устроена сеть. Как будто "Газонокосильщик" или прочие художественные произведения из жанра киберпанк - ваш источник представления об устройстве. Это здесь важно - я не так просто придираюсь.

Аватар пользователя GVR
GVR(9 лет 7 месяцев)

Английским ученым рассказали, что уже существует отладка процесса обучения большой языковой модели и возможность диагностики слоёв нейронной сети?. 

Аватар пользователя И-23
И-23(10 лет 5 месяцев)

Продаваны сказочек о «диагностике слоёв нейронной сети» пользуются тем, что целевая аудитория не знакома с руководством господина Фокса.

Аватар пользователя GVR
GVR(9 лет 7 месяцев)

А что не так с диагностикой слоёв нейронной сети?

Аватар пользователя И-23
И-23(10 лет 5 месяцев)

Вы понимаете суть предупреждения руководства господина Фокса о перспективах тестирования (или диагностика — это не тестирование?) сколько-нибудь сложной системы?
И помните на какой базе он сделал этот вывод?

Аватар пользователя GVR
GVR(9 лет 7 месяцев)

Как-то отвечать вопросами на вопрос тут совсем не правильно. Я вас просто не понимаю: я говорил об отладке и диагностике – вы мне про тестирование... 

Аватар пользователя И-23
И-23(10 лет 5 месяцев)

Кстати, мой опыт указывает на то, что отладка/диагностика — это следующий за тестированием и заметно более дорогой этап.

Аватар пользователя GVR
GVR(9 лет 7 месяцев)

Это не опыт, а его отсутствие: в программировании отладка кода и связанная с ней диагностика проводятся задолго до тестирования.

Аватар пользователя И-23
И-23(10 лет 5 месяцев)

Привычная уже рекомендация не верить глазам своим.
Со столь же привычными оговорками про обычность ошибок при встреча с аргументацией.

Аватар пользователя GVR
GVR(9 лет 7 месяцев)

Поступает вот мне запрос на изменение программы. Я открываю ИСР, загружаю проект и жму не F5, а F10. В коде появляется курсор, который показывает текущую выполняемую инструкцию. Далее я открываю диагностические окна, которые показывают состояние переменных, стека вызванных процедур, Output и т.д. Далее я продолжаю жать F10, или нажимаю F5 (если есть точки останова по F9). В какой-то момент содержание диагностических окон и поведение курсора дают понять, в чём была изначальная проблема.

p.s. В это время тестировщики скучают, попивают чаёк, ходят покурить. Потом, иной раз, начинают тревожно позванивать и телеграфировать «в чём задержка?»

Аватар пользователя И-23
И-23(10 лет 5 месяцев)

О святая наивность!
И сколько прекрасных чудных открытий Вас ждёт когда (и если) Вы прокачаетесь до необходимости учёта потока нагрузки (и/или объёма обрабатываемых данных)…

Аватар пользователя GVR
GVR(9 лет 7 месяцев)

Разницы никакой! Программный код тоже совсем не понятен... в двоичном виде. 

Аватар пользователя GrumpyVK
GrumpyVK(5 лет 5 месяцев)

Если ли бы там была какая-то “отладка” и “диагностика”, то нейросеть в вашей голове не тригерилась бы на ключевое словосочетание “британские учёные”.

А так — успешно наблюдается работа описанной атаки в “полевых” условиях, правда с другим ключевым тригером.

P.S. Рекомендую почитать, на досуге, кто такие Anthropic и чем они занимаются. И ответить на ваш собственный вопрос: если вот эти вот ребята не умеют в  “отладку” и “диагностику”… то кто умеет?

Аватар пользователя GVR
GVR(9 лет 7 месяцев)

Вообще-то между употреблённым мной словосочетанием «английские ученые» и устойчивым фразеологизмом «британские учёные» есть некая синтаксическая разница. Вы не заметили?

Скрытый комментарий Повелитель Ботов (без обсуждения)
Аватар пользователя Повелитель Ботов

Перспективный чат детектед! Сим повелеваю - внести запись в реестр самых обсуждаемых за последние 4 часа.

Комментарий администрации:  
*** Это легальный, годный бот ***
Аватар пользователя ИЮЛь Майский
ИЮЛь Майский(9 лет 11 месяцев)

А что, для этого надо специально создавать такие документы?

Аватар пользователя DalekoNaSevere
DalekoNaSevere(3 года 11 месяцев)

Нет. 
Самое прикольное то,  мало того, что не надо (и так информационного говна в интернете навалом), - так еще говно впитанное ИИ на входе, порождает говно на выходе, которое опять попадает на вход. 
Так сказать говно-рекурсия, причем она не сходящаяся.   Генерируются огромные объемы  дерьма, которые порождают еще большие объемы.  

Если так пойдет и дальше ... 
А оно пойдет!

Аватар пользователя ИЮЛь Майский
ИЮЛь Майский(9 лет 11 месяцев)

А оно пойдет!

И тогда в выигрыше будет тот, кто будет полагаться на ЕИ, а противнику подсунет дерьмовый ИИ. 

Аватар пользователя Omni
Omni(13 лет 5 месяцев)

Все эти модели - это последняя отрыжка устаревшей концепции "Больших данных" в попытке окупить на лохах НИОКРы, при этом уже несколько лет как была опубликована статья, что более правильным подходом будут "Проверенные данные", поэтому такие статьи идут как подготовка слива.

Аватар пользователя dantes
dantes(11 лет 7 месяцев)

Слива не будет, так как ИИ отличное средство контроля за населением. Все остальное лишь побочка, которая выступает ягодкой на тортике.

Аватар пользователя GrumpyVK
GrumpyVK(5 лет 5 месяцев)

Слив, разумеется, будет. Нужно же лохов, вложившихся в ИИ постричь. Уже пора, похоже.

Но и от использования ИИ никто не откажется, так же как не отказались от Web-сайтов после известного кризиса.

Аватар пользователя Ути-пути
Ути-пути(2 года 7 месяцев)

А главная проблема не в этом. Модели учат на очень больших датасетах, вероятно, проверенных лишь выборочно, и всякая чушь неизбежно в них попадает. Мало того, если мы хотим, чтобы модель работала с запросами о реальной политике, экономике, обществе, да хотя бы о спорте, то мы будем скармливать ей материалы СМИ, качество которых мы все знаем, но ничего лучшего просто нет.

Беда в том, что на академических словарях и энциклопедиях модель не обучишь: мало данных и специфичный язык. А стоит расширить список источников, и все эти риски начинают реализовываться.

Кстати, увидеть такую чушь совсем не сложно, даже без знания ассоциированных токенов: просто выкрутите температуру на максимум, и, рано или поздно, получите какой-нибудь откровенный бред. Китайский qwen, при работе с русским языком, вообще быстро переклинивает - ему явно при обучении попадались xliff файлы со всей их xml разметкой.

Аватар пользователя GVR
GVR(9 лет 7 месяцев)

Всего-лишь поэтапно проводим курс обучения нейронки: сначала аккуратно учим ядро сети на академических знаниях, потом нагружаем массивом знаний уже это ядро, которое становится способна видеть откровенную туфту.

Аватар пользователя фыр
фыр(5 лет 10 месяцев)

Буа-га-га. Так оно не работает.

Аватар пользователя GVR
GVR(9 лет 7 месяцев)

Вы хотите поспорить с общими основами информатики?

Аватар пользователя фыр
фыр(5 лет 10 месяцев)

Вы хотите поспорить с общими основами информатики?

В Вашем изложении? Пожалуй, да.

Это Ваше "сначала аккуратно учим ядро сети" обнаруживает Ваше полное непонимание алгоритмов обучения и работы LLM.

Аватар пользователя GVR
GVR(9 лет 7 месяцев)

Ну, буратинам, нахватавшимся вершков, надо знать, что нейросеть имеет слои: входные, выходные, внутренние. И что ядерную модель, при которой происходит начальное заполнение весами основной матрицы (и векторов смещений), можно обучать, к примеру, при отключенных внутренних слоях.    

Аватар пользователя фыр
фыр(5 лет 10 месяцев)

И что ядерную модель, при которой происходит начальное заполнение весами основной матрицы (и векторов смещений), можно обучать, к примеру, при отключенных внутренних слоях.

Это настолько феерично, что даже не нуждается в комментариях.

Mathematically, a neuron's network function {\displaystyle \textstyle f(x)} is defined as a composition of other functions {\displaystyle \textstyle g_{i}(x)}, that can further be decomposed into other functions. This can be conveniently represented as a network structure. A widely used type of composition is the nonlinear weighted sum, where {\displaystyle \textstyle f(x)=K\left(\sum _{i}w_{i}g_{i}(x)\right)}, where K is some predefined function. The important characteristic of the activation function is that it provides a smooth transition as input values change, i.e. a small change in input produces a small change in output. The following refers to a collection of functions {\displaystyle \textstyle g_{i}} as a vector {\displaystyle \textstyle g=(g_{1},g_{2},\ldots ,g_{n})}.

 

Аватар пользователя GVR
GVR(9 лет 7 месяцев)

На перевод цитаты интеллекта, наверное, не хватило... Ну-ну.

Аватар пользователя фыр
фыр(5 лет 10 месяцев)

На перевод цитаты интеллекта, наверное, не хватило...

А зачем? Мне и так понятно. 

Аватар пользователя GVR
GVR(9 лет 7 месяцев)

Ну да, учитывая, что она не к месту.

Аватар пользователя И-23
И-23(10 лет 5 месяцев)

Академический массив — это корпус вечных истин?

Аватар пользователя GVR
GVR(9 лет 7 месяцев)

Ну да: кот – это кот, а собака – это собака.

Аватар пользователя фыр
фыр(5 лет 10 месяцев)

Модели учат на очень больших датасетах, вероятно, проверенных лишь выборочно, и всякая чушь неизбежно в них попадает.

Всмысле, вероятно? Точно известно! Они редитом, мордокнигой и википедиками тренируют.

Rank Domain Citation frequency
1 reddit.com 40.1%
2 wikipedia.org 26.3%
3 youtube.com 23.5%
4 google.com 23.3%
5 yelp.com 21.0%
6 facebook.com 20.0%
7 amazon.com 18.7%
8 tripadvisor.com 12.5%
9 mapbox.com 11.3%
10 openstreetmap.com 11.3%

Аватар пользователя hello
hello(5 лет 7 месяцев)

Перевожу на русский - британские ученые (с), как всегда, провели очередное бестолковое исследование в котором доказали что не надо вгонять в модель конфиденциальную информацию (а кто собирался? это же идиотизм изначально)

Аватар пользователя Ритор
Ритор(3 года 7 месяцев)

13 млрд параметров - это очень маленькая модель для локального запуска на личных компьютерах.

Это интеллектуальный инвалид, использовать его и верить ему - вообще не рекомендуется.

В коммерческих моделях параметров от 700 млрд и выше до триллионов.

Аватар пользователя apokalipces
apokalipces(5 месяцев 2 недели)

По сути, в языках общеупотребимо 3-5 тысяч слов.

Они ранжируются, обозначаются цыферками, далее просто идут некие вероятности последовательностей.

Если говорят про одеяло, значит это с вероятностью 70% - ко сну (так и запишем).

Хлеб - к еде, вода - пить или купаться, и тд и тп.