"Друзья мои, я опечален!"
Журналисты нашли еще один повод побояться ИИ. Оказывается (!) авторы конкретной ИИ-модели могут делать в ней "закладки", которые при определенных условиях - будут давать неправильные ответы или выполнять прочие не совсем ожидаемые действия.
Гениальность данного открытия сложно осознать одномоментно, требуется специальная подготовка и соответствующий настрой. Так что - не спешите с выводами! (сарказм).
Однако - к фактуре. Оказывается, применение ИИ в тех или иных сферах человеческой деятельности, несет помимо традиционных и некоторые новые риски, связанные с этим самым ИИ. Простейший вариант: вы используете ИИ для обеспечения пропускного режима на некоторый объект, убрав реальных охранников с контроля входа. В случае, если злоумышленник сможет обмануть ИИ (например, удачно прикинувшись штатным сотрудником) - никаких проблем с проникновением на объект у него не возникнет. Соответственно, если раньше надо был следить за охранниками и регулярно учить их идентифицировать чужаков - то теперь аналогичные действия должны выполняться в отношении применяемого ИИ: его регулярно надо "доучивать" с учетом возникновения у злоумышленников новых способов обмана. Пока всё логично.
В 2019 году на антивирусные продукты за авторством американской компании Cylance (которая реализовала в них применение ИИ), была совершена успешная атака, позволившая заразить многих клиентов, пользовавшимся их продуктами. Идея атаки была такая же, как в приведенном выше примере: понимая как именно работает в антивирусе Cylance ИИ-модель, злоумышленники создали вирус, который данная модель не распознавала в качестве угрозы и пропускала в защищаемую сеть, предоставляя широкий простор для дальнейших действий.
Ряд сотрудников этой самой Cylance сделали великий вывод, что такого рода атаки возможны не только на продукт их работодателя, а вообще на любой продукт, использующий ИИ, увидели в этом для себя некоторую возможность заработать и организовали компанию HiddenLayer, которая
разрабатывает инструменты и библиотеки для визуализации и анализа нейронных сетей. Продукты HiddenLayer помогают исследователям и разработчикам визуализировать и понимать внутреннюю структуру нейронных сетей, что может быть полезно для отладки, оптимизации и улучшения моделей машинного обучения.
Кроме того, компания также специализируется на кибербезопасности искусственного интеллекта (ИИ) и машинного обучения. Она проводит исследования уязвимостей в ИИ-системах и разрабатывает решения для укрепления безопасности этих технологий, помогая предотвращать возможные вредоносные действия.(источник)
И вот эти самые талантливые HiddenLayer-специалисты, ковыряясь в способах взлома ИИ-моделей (в действительности - вполне себе полезная деятельность, и в своем блоге они регулярно публикуют определенные наработки по данному вопросу), заодно решили покопать и в немного другую сторону: а что если автор ИИ-модели сам не так чтобы чист на руку, и предлагая оную кому-то в действительности засылает "троянского коня"?
Re: "Да нежели такое возможно"! (крик души)
В общем, ребята поинтересовались имеющимися научными наработками по данной теме (см. тут и тут) и пришли к печальному выводу - что там всё плохо. В том смысле, что - да, угроза не только не абстрактна, но очень даже конкретна. Однако - сюрприз! - ее реализация (в рассматриваемых вариантах) - занятие из не так чтобы дешевых. Потому как ИИ-модель загонялась в нужный вариант поведения путем скармливания ей специально подготовленных обучающих последовательностей. Это, конечно же - затратно и по срокам и по стоимости, хотя вполне себе реализуемо (помним скандал с визуализацией ИИ сенаторов США в 19 веке,
что не так чтобы атака, но работоспособность схемы вполне себе подтверждает: если учить модель только на цветных - про белых она и знать то не будет). Ну а если дорого - то и бояться сильно не надо (ибо только у дяди Сэма денег немеряно, а он и так всё что угодно замутит).
Однако означенные творческие умы пошли искать более дешевые варианты формирования закладок. И - конечно же - нашли. Назвали их "ShadowLogic", проверили работоспособность на ряде доступных моделей - и опубликовали обнадеживающие результаты: да, ИИ-троянам быть!
Кратко идея в следующем: поскольку сама по себе ИИ-модель - это некий набор весовых функций и правил получения результата - который весьма велик по объему, то среди оных можно скрыть несколько штучек, предназначенных для переключения модели в нужный для злоумышленника режим работы при получении на вход некоторого "триггерного сообщения" (a la "стоп-слова"). Причем внешне эти самые "дополнительные" функции ничем не отличаются от всех остальных таких же, предназначенных для выполнения моделью заявленного функционала, вот только коэффициентики у них подправлены в нужную сторону и оформлены так, чтобы не менялись при обучении.
У подхода обнаружились сразу несколько плюсов: относительная дешевизна, поразительная скрытность и практически невозможность выявления путем внешнего тестирования, ибо модель до получения "стоп-слова" - полноценно выполняет весь свой функционал. В качестве бонуса - это устойчивость такого рода закладок к переобучению модели: никакое дополнительное обучения не изменяет заложенный навык модели идентификации "стоп-слова", ну а дальше - у злоумышленника весьма широкий простор применения своих фантазий.
Что имеем в сухом остатке? А вот очень плохие выводы. Если вы планируете использовать ИИ-модель в каких-то значимых процессах деятельности - то вам придется самим не только ее обучить, но и создать. Ибо иначе никаких гарантий отсутствия в ней закладок у вас нет. Причем выявить такого рода закладки путем детального анализа графа модели теоретически, конечно, можно, но стоить это будет существенно больше, чем написать ее с нуля. Увы.
Комментарии
Вообще, можно поставлять модель в виде датасета для обучения, вычислительные затраты никуда не денутся, но совсем уж заново создавать не придется.
В тексте - как раз про закладки на уровне модели. Датасет - любой, закладка продолжает работать...
Допустим выдали модель в виде конфигурации сети, фильтров поверх ее и датасета, причем большого
Анализ конфигурации сети - вещь нетривиальная, но реализуемая. Фильтров - еще сложнее
Датасет - нереально. И так чтобы прям датасет выкинул и залил свой - бывает крайне редко
Тоже мне догадка. - Я вот набираю текста с смартфона и авторедактор постоянно коверкает слова на тему идеология, коммунизм, капитализм - при чем не слова, а создает целые предложения. Особенно, если рядом стоит фамилия "Путин".
на ноуте - тоже самое происходит
причём, опечатки формируются не в процессе набора/проверки текста, а после отправки
постоянно приходится повторно заходить и править
Camarada "O fantasma é grande...":
Isso acontece regularmente com meus comentários...
Tradução Google:
Товарищ "Призрак большой...":
Такое регулярно происходит с моими комментариями...
Автоисправление текста можно отключить,при включении клавиатуры долго нажимать значок-''выбор языка(символ-планета)''.Появляется окошко,внизу выбрать-''Настройка способа ввода'',далее выбрать-''Клавиатура Google''-далее отключить-''Автоисправление''.
Я вот много лет мучался,потом всетаки отключил.
сначала придётся проверять ИИ на детекторе лжи, а потом уже пускать к людям.
Увы и ах: оно уходит в неадекват только после "стоп-слова"...
А что вы там собираетесь проверять, потеет ИИ или нет?
Спросить чей Крым
Пфф. Даже пейджеры желательно создавать самим! ))
Угу.
Бггг ))) Журноламеры жгут. Суррогаты ИИ на данный момент и без закладок с этим прекрасно справляются. Давеча скрины были диалога с яндексовской Алисой, которая несла пургу насчёт того, сколько вторников в месяце.
Ну, тут оно такое - обычная глупость. Можно не бояться. А вот целенаправленная зловредность - это другое...
Зловредность - это доверять ответсвенную работу хрен пойми кем и хрен пойми чему обученным нейросетяи.
В сбере пытались обучить свою нейросеть быть юристом. Загрузили законодательную базу. Обучили всякому. Так эта хрень в сложных и спорных ситуациях на тестовых прогонах начала сама "придумывать" законы и нормативные акты и на них же ссылаться.
Так она переросла уровень юриста и сразу стала депутатом.
Передержали на обучении.
Есть гипотеза, что достаточно сложная нейросеть будет малоотличима от обычного человека. В том плане, что будет что-то забывать, где-то врать и т.п. Пока идёт тенденция к подтверждению этой гипотезы.
Ежели как тот бургомистр из фильма "Убить дракона" - то движется весьма быстро.
Забывать - вряд ли, чисто технически это нонсенс. Да и врать тоже, скорее - нести пургу. У лжи есть особенность: лгущий знает, что он лжёт и, скорее всего, знает правду.
Ну, батенька... Это уже "Зловредность 2.0". Прогресс, однако.
Проблема решается просто.
Посажением новатора за разгребание результата.
В *ответственном* режиме и с ощущением пятой точкой угрозы поднять 25! лет еженедельных стимуляций символическими 30-ю «горячими».
"Не всё так однозначно". Там специально брали на тестирование в том числе ситуации на которые однозначного ответа в законодательстве нет. Квалификация "новатора" должна была бы превышать коллективную квалификацию юристов сбера занимавшихся тестированием. Причём принимать решения он должен был бы за весьма ограниченное время. В общем, пока вырисовывается нереальный сценарий. И электронный юрист пока выходит далеко не лучше мясного. Хотя с типовыми задачами справляется, что называется, на раз-два.
Тю, у меня в бытность начальником юротдела был директор, который регулярно говорил "Ну в ГК же вот так написано!" и нес пургу, которая ему была выгодна. Я, сначала, пытался спорить, а потом стал уходить со словами "пошел искать Вашу редакцию ГК!"
Да эти закладки часто и густо повсюду начиная с БИОСа... Тоже мне открытие:)
Прикол в том, что в БИОСе ее можно внятно найти. Там типа - код, можно анализировать.
А тут - хрень в виде весов (читай - цифирь), и как понять что сие и есть зловред - ну хз...
ну я имел в виду, что закладки могут быть где угодно, пример с БИОС - это уровень исполняемого кода, в ИИ закладки скорее всего не касаются исполняемого кода, здесь, наверное, имеется в виду уровень логических операций на определенных предметных областях. Наверняка можно научить ИИ мыслить, как нужно создателю:)
Вы если сходите по первой ссылке в источниках - там детально о чем речь.
На пальцах: ИИ-модель строится в виде графа, реализуемого набором типовых функций. Функции отличаются значениями коэффициентов. Так вот можно подобрать такие значения коэффициентов, у некоторого выделенного набора функций, чтобы модель при подаче на вход условного сигнала ("стоп-слова") переставала работать нормально - начинала чудить.
Сложность в том, что этот самый "выделенный набор функций" - в реальности никак не выделен, функции выглядят точно также как и все остальные, фишка - только в значениях коэффициентов. Ну, то есть, условно, если коэффициент стоит 5 - то всё нормально, а если 9 - то действия будут чуток специфичными.
Понятно, что такого рода закладки визуально найти - шансов почти ноль.
Я чуть ниже написал, это реально тот же самый код. в onnx хранится промежуточное представление алгоритма, те разговор не о матрицах с данными а именно a=b+1 те они просто в код добавляют еще одну свою модельку с тригером, а потом правят результат работы основной модели. Аналогия когда в дизасамблере открываешь апликашку и нупами забиваешь просьбу ввести серийный номер программы. Только тут не ассемблер а байткод для LLVM компилятора.
Те они правят вот этоже самое
Только не в питоне а в байткоде.
Да, это может быть сделано именно так. То есть - сначала - модель, а потом - поправка сбоку.
А может - и в процессе создания модели, и поправка - размазана по всей модели.
Даже в первом случае искать сие - задача нетривиальная. Во втором - ну, на мой взгляд - нереальная.
Не так?
Ниже ответил )
Их главное knowhow что например я никогда не рассматривал контейнер onnx как средство доставки чужого вычислительного кода. Ну просто обычно IR получаешь рядом с вычислятором чтоб потом скомпилировать это все в инструкции, просмотреть глазами это все можно только в специальном редакторе и если не знать логики работы то да 1 в 1 как с вирусами и апликахами. Радует, что современные модели пока не шибко большие с точки зрения кодовых инструкций. А когда станут огромными то да ситуация 1 в 1 как с просмотром кода в дизасамблере для поиска воздействия вируса.
То что вы предлагаете наверное даже возможно. Если просчитать нормализацию и доработать алгоритм обратного распространения для создания областей под закладки. А потом методом LoRa подстроить поведение слоев так как нужно. Но я подозреваю, что математически это операция на порядки сложнее чем просто обучить модель. Это уже хак ИИ для ИИ )
А ежели сей ИИ будет ВПР какой-нибудь страны использовать - цена разве имеет значение?
Тут я не спорю все возможно. Оно вообще пока все напоминает конец ВОВ и компьютеры размером с дом, что работают как современных калькулятор на солнечных батарейках. Ну и существование и работоспособность LoRA подтверждает, модели мягко говоря почти полностью заполнены мусором те оптимизируй и внедряй что душе угодно )
Открытие века! Да тот же яндекс взять, он день от о дня результаты поиска меняет, или навигатор рисует так что бы якобы рассредоточить потоки. Вот в СССР помнится к каждому прибору бытовому давали схему, по которой можно было понять как структуру работы, так и собственно выяснить причину поломки и её устранить. А чичас квалифицированная потреблять сего знания мало того что недостойна, так и не поймёт нихрена(((
Про я-пробки мысль почти правильная.
Вот только есть ли у них "стоп-слово" для особых клиентов, чтобы не фуфло гнали по его предъявлению, а пользу - пока что не проверено и не доказано. Хотя, конечно же - напрашивается.
Мы в три машины ехали, с отрывом +- км по трассе, всем надо было на один адрес, маршруты нас удивляли))) вот дятлы мы конечно надо было скриншотов наделать.
А вы по-разному спешили. И вообще - яндекс лучше знает куда вас отправить. Может он тестировал таким образом достоверность своих данных? Запулил три маршрута, далее - сверялся с результатами и корректировал модель. А чо?
Подобную закладку, выдачу субоптимального решения с максимальным отличием от оптимального, можно ставить в любой метод машинного обучения, не только в нейронные сети. Например, определение автомобильных номеров с камер будет ошибаться на какой-то группе
Ага. И проблема "1500 штрафов на одно уважаемое авто в год" - будет решена на технологическом уровне.
Т.е., дело не в ИИ, а в тех людях, что впаривают нам эту шнягу. Не удивлюсь, что это те же самые посоны, которые втирали нам про безопасность ГМО.
Да. В том числе - и в них.
Если по-серьезному - эти посоны не однородны:
- есть те, кто тупо хочет заработать (всякие горе-продаваны и решалы)
- есть те, кто искренне верят в светлое будущее (ну, идиоты и гении)
- а есть - реальные враги - которые работают на перспективу, продвигают всякие "демократические ценности" и "технологический прогресс". Вот их и стоит в большей степени опасаться и обязательно иметь в виду.
Ну так вы тоже понятия, скорее всего, не имеете, что за закладки есть на уровне ядра операционной системы, с которой данная статья написана.
Дальше то что? Самому ОС писать?
А в автомобильную электронику какие закладки пихают? Надо делать свой автомобиль. Иначе уверенности быть не может.
Легче самому автомобиль построить, чем проверить имеющийся.
Это ирония, конечно. Цивилизация строится на разделении труда и взаимодействии людей.
Сами мы поодиночке задолбаемся всё это делать. А точнее - просто не выйдет по одиночке это всё сделать
Прикол в том, что закладки на уровне ядра - ловить умеют. А вот на уровне ИИ-модели - пока что нет. И материал обращает внимание на то, что ловить их (в виду отсутствия прозрачной логики работы) - занятие сродни поиску иголки в стоге сена. В это и есть проблема.
Прочитав это я понял почему корпорации так сильно вкладываются в ИИ, несмотря на то, что это очень затратно.
Ведь на ИИ со временем подсядет куча народа, будет доверять. А потом, когда доверие будет достаточно сильным можно подкрутить веса в "свою" пользу. И дурить народ в промышленных масштабах. Это бесценно, похлеще башен Стругацких.
Прочитав это, я понял почему корпорации так сильно вкладываются в информационные ресурсы.
Ведь со временем на них подсядет куча народа, будут доверять. Потом, когда доверие будет достаточно сильным, можно подкрутить яйца редактору в "свою" пользу. И дурить народ в промышленных масштабах. Это бесценно, покруче башен Стругацких.
Шаблон для обобщения:
в очень хорошем фильме Вариант Омега данное мероприятие называется “создать канал для продвижения (стратегической) дезинформации"
и на мой взгляд все же нельзя называть словосочетанием "ИИ" обычную базу данных с криво прикрученной экспертной системой
Во первых нельзя, но это делают. Маркетинг. Главное, чтобы все понимали о чём речь.
Во вторых. Судя по этой фразе, как не назови, большинство не понимает, о чём речь ((
ЛЛМы не являются "обычной базой данных с криво прикрученной экспертной системой". Попробуйте просто сами для себя написать простенького чат бота на ЛЛМ и обучить его. Желательно даже нейросетевую часть тоже самому написать. Это не так уж долго. Сразу поймёте, что это не база данных.
У меня есть большое подозрение, что у буржуев не то что народ - люди, принимающие решения, уже на раз-два обдуряются ихними вралебными ИИ. Сами инструмент породили - сами от него и получили.
Короче, нейросеть может врать. А обученная на непроверенных данных тем более.
Страницы