Статья Anthropic «Небольшое количество образцов может отравить LLM любого размера» объясняет, что внедрение около 250 тщательно составленных документов в обучающий корпус заставляет модель развить спящее поведение, которое может быть активировано определенным триггером.
Их вывод заключается в том, что небольшое, фиксированное количество вредоносных образцов может внедрить бэкдор в большие языковые модели (LLM), независимо от их размера.
До сих пор предполагалась система угроз, основанная на процентах: чтобы отравить большую модель, злоумышленник должен был контролировать ощутимый процент обучения, что на практике становится невыполнимым, когда речь идет о сотнях миллиардов токенов.
Любой может разместить контент с намерением попасть в эти наборы данных, и если фактический порог составляет около 250 документов, барьер для входа не особенно высок.
Самые тревожные параллели возникают при переходе к областям, где цена ошибки - это не мем, а потенциально человеческие жизни. В 2024 году исследование в Nature Medicine смоделировало атаку отравления на The Pile, один из флагманских наборов данных медицинской экосистемы, путем внедрения медицинской дезинформации: при замене всего 0,001% токенов на правдоподобную ложь получившаяся модель стала более склонна к распространению медицинских ошибок, и самое худшее, что она по-прежнему, казалось бы, «работала так же хорошо»
Вопрос в том, что происходит с их достоверностью по мере того, как они становятся инфраструктурой для все большего количества вещей.
Потому что если мы признаем, что модель может быть обучена на непрозрачных данных с неясным происхождением и несовершенным контролем, то модель перестает быть просто вероятностной и становится потенциально фальсифицированной.
Статья Anthropic - это предупреждение: в грядущем мире ответ на вопрос, могу ли я доверять тому, что говорит конкретная модель, будет лежать не в плоскости метрик точности, а в плоскости: «Могу ли я доверять тому, как она была создана, данным, на которых она обучалась, и тем, кто с этими данными работал?»


Комментарии
Чушь какая-то. Кто тот дебил, который обучает ИИ на мусоре?
Не, если OLAP-какой -нибудь, поиск скрытых закономерностей. Но какие скрытые закономерности можно найти в куче "говна"?
статья о ложке дёгтя в бочке мёда, которую могут добавить злонамеренно
Пользователь
Обучают на своём наборе данных. Пользовательские данные большинство моделей забывают на следующем запросе
1) Вообще-то все так и обучают)
2) Можно, много.
Например, программист который хочет уволиться и расплатиться с работодателем за какой-то косяк.
Кто-то, кто не имеет ни малейшего понятия об устойчивости алгоритма. Типа Вас, к примеру.
С течением времени достоверного "не мусора" всё меньше.
Хуже того, потому как нынешний ИИ не думает, в классическом понимании, т.е. через построение моделей вещей, и анализа возможных взаимодействий, невозможно доверять ничему из полученных выводов от ИИ.
Даже если во всех учебниках, во всех базах данных, и во всех документах написано, что на зеленый свет светофора можно безопасно переходить, переходить можно только после того, как идентифицированы все объекты которые, могут представлять опасность, построены их модели, на оснований моделей сделаны прогнозы их движения, сделаны выводы о их безопасности, и выводы сопоставлены с вашими целями.
Вообще-то все современные модели обучаются на мусоре.
Объемы обучающих данных настолько велики, что их никак вручную человеку не проверить за конечное время.
Поэтому модельки обучаются на терабайтах, скачанных из интернета.
Опять дилетанты рассуждают о том, чего не понимают. Журналюги там такие же тупые как и у нас.
Бесконтрольный ИИ ? Что может быть смешнее этого утверждения ? Любую операционку можно обрушить, зная дыры. Любой телефон можно выключить наглухо через оставленные производителем "черные ходы". Даже адресно, зная IMEI, можно отключить конкретный телефон. А тут какой-то ИИ, где этх "черных ходов", предусмотрено несколько, на разных уровнях.
Это не считая того, что все они работают под контролем программеров, которые вносят коррекции.
ИМХО: надоел этот бред, звучащий из каждого утюга. Я бы банил все что связано с пугалками по этой теме.
//Даже адресно, зная IMEI, можно отключить конкретный телефон.
А еще взорвать конкретный пейджер
Уже 20 лет назад объяснили, что IMEI не уникален. Точнее, никто не контролирует уникальность. И вот опять
Зенитные кодексы Аль-Эфесби
Это прекрасно, спасибо. Как я раньше пропустил этот шедевр?
На юридические вопросы ИИ отвечает запросто выдумывая несуществующие судебные акты. И уже давно так. ИИ та же Википедия, полностью доверять представляемой им информации просто нельзя.
Это обычные галлюцинации. Нельзя спрашивать модель о фактах, которые сам ей не предоставил.
Это не галлюцинации, милейший, это случай из моей практики. ИИ в ответе на вопрос для подтверждения ответа сослался на целый ряд судебных актов с выдуманными датами и номерами. Нет, сам я никаким ИИ не пользуюсь, это мне любезно прислал клиент, желая мне помочь.
Кстати, сам ответ тоже был донельзя тупым.
Если обратите внимание, то и здесь на АШ уже регулярно встречается: "Я спросил у ИИ и вот. что он мне ответил.."
Хотелось подсветить важность экспертизы и критического мышления.
Некоторые ведутся на ИИ, как на Кашпировского.
Хочу напомнить, как разбирали тут раскрутку ролика Навального с использованием рекомендательных систем.
LLM может использоваться так же, только менее заметно.
Скорее превратили ИИ в новый религиозный культ. Слепая вера во всемогущество имитатора интеллекта стала явлением массовым
Если скормить медицинскому ИИ, что цианид это прекрасное средство от многих проблем, то.... Но нет, грубо, засекут (быть может) . А вот залить не столь заметную, но опасную дезу про тонкую фармакологию, да прокатит.
Блоггер мелкомоторит на рассказ журналиста, как его насиловали учёные.
Оригинал статьи: https://arxiv.org/pdf/2510.07192
Суть простыми словами: ежели в обучающий набор засунуть документы, частично содержащие уникальные токены (упрощённо - слова, для примера смотри выдачу УВБ-76, она же Жужжалка, она же Радиостанция судного дня) а потом ЭТИ же или похожие (если вектор токена короткий) засунуть в запрос (промпт) к чат-боту от Большой Языкой Модели (она же LLM) то о ужас, модель выдает результат, отличный от выдачи без этих слов :))
Проблема есть, она специфическая, но при чём здесь убивает?
а сколько документов убъёт естественный И? :) Достаточно звонка мошенников и бабушка понесёт непосильно нажитое в банк?))
Наконец-то толковый коммент.
Да, Естественный Интеллект крайне хрупкая штука. Про это давно знают всяческие жулики (цыгане, политики, рекламщики и т.д.). То, что Имитатор Интеллекта так же ломается как и ЕИ говорит только об одном - ИИ приближается по своим характеристикам к ЕИ.
Новое амплуа - Великий плагиатор
Любой Искин это программа из набора нулей и единиц выполняемая по предопределёному алгоритму. С этим спорить, надеюсь, никто не станет. Свободы выбора там нет, есть только его видимость. Как и любая сложная программа, она уязвима для саботажа. Чем сложнее программа, тем легче её испортить. Дефектная программа это как испорченная ДНК в вашем организме могущая вызвать рак.
Как и рак, не стоит очеловечивать искин. Это инструмент, который может, без должного контроля, вас убить.