Всего 250 документов убивает любой ИИ

Аватар пользователя Larry_Ekb

Статья Anthropic «Небольшое количество образцов может отравить LLM любого размера» объясняет, что   внедрение около 250 тщательно составленных документов в обучающий корпус заставляет модель развить спящее поведение, которое может быть активировано определенным триггером.
  Их вывод заключается в том, что небольшое, фиксированное количество вредоносных образцов может внедрить бэкдор  в большие языковые модели (LLM), независимо от их размера. 

 До сих пор предполагалась система угроз, основанная на процентах: чтобы отравить большую модель, злоумышленник должен был контролировать ощутимый процент обучения, что на практике становится невыполнимым, когда речь идет о сотнях миллиардов токенов.
Любой может разместить контент с намерением попасть в эти наборы данных, и если фактический порог составляет около 250 документов, барьер для входа не особенно высок. 

Самые тревожные параллели возникают при переходе к областям, где цена ошибки - это не мем, а потенциально человеческие жизни. В 2024 году исследование в Nature Medicine смоделировало атаку отравления на The Pile, один из флагманских наборов данных медицинской экосистемы, путем внедрения медицинской дезинформации: при замене всего 0,001% токенов на правдоподобную ложь получившаяся модель стала более склонна к распространению медицинских ошибок, и самое худшее, что она по-прежнему, казалось бы, «работала так же хорошо» 

Вопрос  в том, что происходит с их достоверностью по мере того, как они становятся инфраструктурой для все большего количества вещей. 
Потому что если мы признаем, что модель может быть обучена на непрозрачных данных с неясным происхождением и несовершенным контролем,  то модель перестает быть просто вероятностной и становится потенциально  фальсифицированной.

Статья Anthropic - это предупреждение: в грядущем мире ответ на вопрос, могу ли я доверять тому, что говорит конкретная модель, будет лежать не в плоскости метрик точности, а в  плоскости: «Могу ли я доверять тому, как она была создана, данным, на которых она обучалась, и тем, кто с этими данными работал?»

Всего 250 документов убивает любой ИИ

Авторство: 
Копия чужих материалов

Комментарии

Аватар пользователя ivan2
ivan2(13 лет 11 месяцев)

Чушь какая-то. Кто тот дебил, который обучает ИИ на мусоре?

Не, если OLAP-какой -нибудь, поиск скрытых закономерностей. Но какие скрытые закономерности можно найти в куче "говна"?

Аватар пользователя DVonik
DVonik(11 лет 8 месяцев)

статья о ложке дёгтя в бочке мёда, которую могут добавить злонамеренно

Аватар пользователя Stiva
Stiva(14 лет 3 недели)

Кто тот дебил, который обучает ИИ на мусоре?

Пользователь

Аватар пользователя jawa
jawa(9 лет 4 месяца)

Пользователь

Обучают на своём наборе данных. Пользовательские данные большинство моделей забывают на следующем запросе

Аватар пользователя dilpish
dilpish(6 лет 8 месяцев)

1) Вообще-то все так и обучают)

2) Можно, много. 

Аватар пользователя alexsword
alexsword(14 лет 4 месяца)

Например, программист который хочет уволиться и расплатиться с работодателем за какой-то косяк.

Аватар пользователя ND
ND(7 лет 5 месяцев)

Кто-то, кто не имеет ни малейшего понятия об устойчивости алгоритма. Типа Вас, к примеру.

Аватар пользователя DalekoNaSevere
DalekoNaSevere(4 года 1 неделя)

С течением времени  достоверного "не мусора"  всё меньше. 
Хуже того, потому как нынешний ИИ не думает,  в классическом понимании, т.е. через построение моделей вещей, и анализа возможных взаимодействий,  невозможно доверять ничему из полученных выводов от ИИ. 

Даже если во всех учебниках, во всех базах данных, и во всех документах написано, что на зеленый свет светофора можно безопасно переходить,  переходить можно только после того, как идентифицированы все объекты которые, могут представлять  опасность, построены их модели, на оснований моделей сделаны прогнозы их движения, сделаны выводы о их безопасности, и выводы сопоставлены с вашими целями. 

Аватар пользователя Алекс_андр
Алекс_андр(8 лет 9 месяцев)

Вообще-то все современные модели обучаются на мусоре. 

Объемы обучающих данных настолько велики, что их никак вручную человеку не проверить за конечное время.

Поэтому модельки обучаются на терабайтах, скачанных из интернета.

Аватар пользователя Хитрый Лис
Хитрый Лис(10 лет 7 месяцев)

Опять дилетанты рассуждают о том, чего не понимают. Журналюги там такие же тупые как и у нас.
Бесконтрольный ИИ ? Что может быть смешнее этого утверждения ? Любую операционку можно обрушить, зная дыры. Любой телефон можно выключить наглухо через оставленные производителем "черные ходы". Даже адресно, зная IMEI, можно отключить конкретный телефон. А тут какой-то ИИ, где этх "черных ходов", предусмотрено несколько, на разных уровнях.
Это не считая того, что все они работают под контролем программеров, которые вносят коррекции.
ИМХО: надоел этот бред, звучащий из каждого утюга. Я бы банил все что связано с пугалками по этой теме.

Аватар пользователя Larry_Ekb
Larry_Ekb(8 лет 4 месяца)

//Даже адресно, зная IMEI, можно отключить конкретный телефон.

А еще взорвать конкретный пейджер

Аватар пользователя jawa
jawa(9 лет 4 месяца)

Даже адресно, зная IMEI, можно отключить конкретный телефон.

Уже 20 лет назад объяснили, что IMEI не уникален. Точнее, никто не контролирует уникальность. И вот опять

Аватар пользователя Gruffydd
Аватар пользователя nekoeimya
nekoeimya(12 лет 2 месяца)

Это прекрасно, спасибо. Как я раньше пропустил этот шедевр?

Аватар пользователя kokoko
kokoko(1 месяц 1 неделя)

На юридические вопросы ИИ отвечает запросто выдумывая несуществующие судебные акты. И уже давно так. ИИ та же Википедия,  полностью доверять представляемой им информации просто нельзя.

Аватар пользователя Ути-пути
Ути-пути(2 года 7 месяцев)

Это обычные галлюцинации. Нельзя спрашивать модель о фактах, которые сам ей не предоставил. 

Аватар пользователя kokoko
kokoko(1 месяц 1 неделя)

Это не галлюцинации, милейший, это случай из моей практики. ИИ в ответе на вопрос для подтверждения ответа сослался на целый ряд судебных актов с выдуманными датами и номерами. Нет, сам я никаким ИИ не пользуюсь, это мне любезно прислал клиент, желая мне помочь. 

Аватар пользователя kokoko
kokoko(1 месяц 1 неделя)

Кстати, сам ответ тоже был донельзя тупым. 

Аватар пользователя Larry_Ekb
Larry_Ekb(8 лет 4 месяца)

Если обратите внимание, то и здесь на АШ уже регулярно встречается: "Я спросил у ИИ и вот. что он мне ответил.."

Хотелось подсветить важность экспертизы и критического мышления.

Некоторые ведутся на ИИ, как на Кашпировского.

Хочу напомнить, как разбирали тут раскрутку ролика Навального с использованием рекомендательных систем.

LLM может использоваться так же, только менее заметно.

Аватар пользователя Skur
Skur(13 лет 4 месяца)

Скорее превратили ИИ в новый религиозный культ. Слепая вера во всемогущество имитатора интеллекта стала явлением массовым

Аватар пользователя Старый Орк
Старый Орк(2 года 3 месяца)

Если скормить медицинскому ИИ, что цианид это прекрасное средство от многих проблем, то.... Но нет, грубо, засекут (быть может) . А вот залить не столь заметную, но опасную дезу про тонкую фармакологию, да прокатит. 

Аватар пользователя Sanches27
Sanches27(13 лет 3 недели)

Блоггер мелкомоторит на рассказ журналиста, как его насиловали учёные.

Оригинал статьи: https://arxiv.org/pdf/2510.07192

Суть простыми словами: ежели в обучающий набор засунуть документы, частично содержащие уникальные токены (упрощённо - слова, для примера смотри выдачу УВБ-76,  она же Жужжалка, она же Радиостанция судного дня) а потом ЭТИ же или похожие (если вектор токена короткий) засунуть в запрос (промпт) к чат-боту от Большой Языкой Модели (она же LLM) то о ужас, модель выдает результат, отличный от выдачи без этих слов :))

Проблема есть, она специфическая, но при чём здесь убивает?

Аватар пользователя hello
hello(5 лет 7 месяцев)

а сколько документов убъёт естественный И? :) Достаточно звонка мошенников и бабушка понесёт непосильно нажитое в банк?))

Аватар пользователя Кабан
Кабан(13 лет 6 месяцев)

Наконец-то толковый коммент.

Да, Естественный Интеллект крайне хрупкая штука. Про это давно знают всяческие жулики (цыгане, политики, рекламщики и т.д.). То, что Имитатор Интеллекта так же ломается как и ЕИ говорит только об одном - ИИ приближается по своим характеристикам к ЕИ.

Комментарий администрации:  
*** Современная Россия - червяк в навозе (с) ***
Аватар пользователя Палл
Палл(2 года 1 месяц)

Новое амплуа - Великий плагиатор

Аватар пользователя Коровин
Коровин(11 месяцев 23 часа)

Любой Искин это программа из набора нулей и единиц выполняемая по предопределёному алгоритму. С этим спорить, надеюсь, никто не станет. Свободы выбора там нет, есть только его видимость. Как и любая сложная программа, она уязвима для саботажа. Чем сложнее программа, тем легче её испортить. Дефектная программа это как испорченная ДНК в вашем организме могущая вызвать рак.

Как и рак, не стоит очеловечивать искин. Это инструмент, который может, без должного контроля, вас убить.