ИИ: немного о скрытой логике

8.6K 15:02 - 24/Окт/24 Улучшенный аккаунт

(5 лет 12 месяцев)

"Друзья мои, я опечален!"

Журналисты нашли еще один повод побояться ИИ. Оказывается (!) авторы конкретной ИИ-модели могут делать в ней "закладки", которые при определенных условиях - будут давать неправильные ответы или выполнять прочие не совсем ожидаемые действия.

Гениальность данного открытия сложно осознать одномоментно, требуется специальная подготовка и соответствующий настрой. Так что - не спешите с выводами! (сарказм).

Однако - к фактуре. Оказывается, применение ИИ в тех или иных сферах человеческой деятельности, несет помимо традиционных и некоторые новые риски, связанные с этим самым ИИ. Простейший вариант: вы используете ИИ для обеспечения пропускного режима на некоторый объект, убрав реальных охранников с контроля входа. В случае, если злоумышленник сможет обмануть ИИ (например, удачно прикинувшись штатным сотрудником) - никаких проблем с проникновением на объект у него не возникнет. Соответственно, если раньше надо был следить за охранниками и регулярно учить их идентифицировать чужаков - то теперь аналогичные действия должны выполняться в отношении применяемого ИИ: его регулярно надо "доучивать" с учетом возникновения у злоумышленников новых способов обмана. Пока всё логично.

В 2019 году на антивирусные продукты за авторством американской компании Cylance (которая реализовала в них применение ИИ), была совершена успешная атака, позволившая заразить многих клиентов, пользовавшимся их продуктами. Идея атаки была такая же, как в приведенном выше примере: понимая как именно работает в антивирусе Cylance ИИ-модель, злоумышленники создали вирус, который данная модель не распознавала в качестве угрозы и пропускала в защищаемую сеть, предоставляя широкий простор для дальнейших действий.

Ряд сотрудников этой самой Cylance сделали великий вывод, что такого рода атаки возможны не только на продукт их работодателя, а вообще на любой продукт, использующий ИИ, увидели в этом для себя некоторую возможность заработать и организовали компанию HiddenLayer, которая

разрабатывает инструменты и библиотеки для визуализации и анализа нейронных сетей. Продукты HiddenLayer помогают исследователям и разработчикам визуализировать и понимать внутреннюю структуру нейронных сетей, что может быть полезно для отладки, оптимизации и улучшения моделей машинного обучения.
Кроме того, компания также специализируется на кибербезопасности искусственного интеллекта (ИИ) и машинного обучения. Она проводит исследования уязвимостей в ИИ-системах и разрабатывает решения для укрепления безопасности этих технологий, помогая предотвращать возможные вредоносные действия.

(источник)

И вот эти самые талантливые HiddenLayer-специалисты, ковыряясь в способах взлома ИИ-моделей (в действительности - вполне себе полезная деятельность, и в своем блоге они регулярно публикуют определенные наработки по данному вопросу), заодно решили покопать и в немного другую сторону: а что если автор ИИ-модели сам не так чтобы чист на руку, и предлагая оную кому-то в действительности засылает "троянского коня"?

Re: "Да нежели такое возможно"! (крик души)

В общем, ребята поинтересовались имеющимися научными наработками по данной теме (см. тут и тут) и пришли к печальному выводу - что там всё плохо. В том смысле, что - да, угроза не только не абстрактна, но очень даже конкретна. Однако - сюрприз! - ее реализация (в рассматриваемых вариантах) - занятие из не так чтобы дешевых. Потому как ИИ-модель загонялась в нужный вариант поведения путем скармливания ей специально подготовленных обучающих последовательностей. Это, конечно же - затратно и по срокам и по стоимости, хотя вполне себе реализуемо (помним скандал с визуализацией ИИ сенаторов США в 19 веке,

что не так чтобы атака, но работоспособность схемы вполне себе подтверждает: если учить модель только на цветных - про белых она и знать то не будет). Ну а если дорого - то и бояться сильно не надо (ибо только у дяди Сэма денег немеряно, а он и так всё что угодно замутит).

Однако означенные творческие умы пошли искать более дешевые варианты формирования закладок. И - конечно же - нашли. Назвали их "ShadowLogic", проверили работоспособность на ряде доступных моделей - и опубликовали обнадеживающие результаты: да, ИИ-троянам быть!

Кратко идея в следующем: поскольку сама по себе ИИ-модель - это некий набор весовых функций и правил получения результата - который весьма велик по объему, то среди оных можно скрыть несколько штучек, предназначенных для переключения модели в нужный для злоумышленника режим работы при получении на вход некоторого "триггерного сообщения" (a la "стоп-слова"). Причем внешне эти самые "дополнительные" функции ничем не отличаются от всех остальных таких же, предназначенных для выполнения моделью заявленного функционала, вот только коэффициентики у них подправлены в нужную сторону и оформлены так, чтобы не менялись при обучении.

У подхода обнаружились сразу несколько плюсов: относительная дешевизна, поразительная скрытность и практически невозможность выявления путем внешнего тестирования, ибо модель до получения "стоп-слова" - полноценно выполняет весь свой функционал. В качестве бонуса - это устойчивость такого рода закладок к переобучению модели: никакое дополнительное обучения не изменяет заложенный навык модели идентификации "стоп-слова", ну а дальше - у злоумышленника весьма широкий простор применения своих фантазий.

Что имеем в сухом остатке? А вот очень плохие выводы. Если вы планируете использовать ИИ-модель в каких-то значимых процессах деятельности - то вам придется самим не только ее обучить, но и создать. Ибо иначе никаких гарантий отсутствия в ней закладок у вас нет. Причем выявить такого рода закладки путем детального анализа графа модели теоретически, конечно, можно, но стоить это будет существенно больше, чем написать ее с нуля. Увы.

Авторство:

Авторская работа / переводика

Использованные источники:

ShadowLogic

Подъем по команде: эксперты предупредили о «спящих» угрозах в нейросетях

Комментарий автора:

Очередное подтверждение тезиса о недопустимости передачи ИИ сколько-нибудь критичных функций без надзора со стороны человека. ИИ - это инструмент, качество работы инструмента определяется в первую очередь оператором. Последствия отказа от оператора - могут быть любыми. По самым разным причинам, в том числе - по приведенным в материале.

P.S. Умиляет подход публичного издания, размещающего материал, фактически сводимый к явной рекламе непонятного инструментария. Но это - такое...

Комментарий редакции раздела Альтернативный Интеллект

@Социальная инфраструктура#IT-технологии

@Лидеры обсуждений#Перспективный чат#Хороший, годный чат

@03. ИИ (все модели)

Блог пользователя Mr.Wolf | Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Вы же там за кодификацию топили вроде как. Ну дык сие и есть. Ибо определение утверждено указом Президента. У вас есть возражения? Рады за вас. Но это ничего в формальной области не меняет.

А в головах у кого угодно - могут быть какие угодно идеи.

Войдите или зарегистрируйтесь для комментирования

(7 лет 2 месяца)19:25-24/Окт/24

Кстати, в ИППИ АН СССР работы с предшественниками НС велись ещё в 60-е годы.

Войдите или зарегистрируйтесь для комментирования

(2 года 4 месяца)22:45-24/Окт/24

Напрасный крик души. Закладки (где возможно) это обязательно в продукте со времен телнета.

Войдите или зарегистрируйтесь для комментирования

(5 лет 12 месяцев)09:14-25/Окт/24

Тут интересен не факт наличия закладок, а методика их формирования.

"Предупрежден - значит вооружен!" (с)

Войдите или зарегистрируйтесь для комментирования

(2 года 4 месяца)21:38-28/Окт/24

А , какая там методика формирования ?

Пишется кусок кода под пивас.

Войдите или зарегистрируйтесь для комментирования

(5 лет 12 месяцев)21:51-28/Окт/24

Предлагаю соблюдать следующее правило:

1. сначала читаем материал

2. потом комментируем

В противном случае - получается пустая трата моего времени.

Войдите или зарегистрируйтесь для комментирования

(2 года 4 месяца)22:14-28/Окт/24

Так у меня не получится - времени в обрез )).

Войдите или зарегистрируйтесь для комментирования

(9 лет 5 месяцев)08:13-25/Окт/24

Потому как ИИ-модель загонялась в нужный вариант поведения путем скармливания ей специально подготовленных обучающих последовательностей...

Кратко идея в следующем: поскольку сама по себе ИИ-модель - это некий набор весовых функций и правил получения результата - который весьма велик по объему, то среди оных можно скрыть несколько штучек, предназначенных для переключения модели в нужный для злоумышленника режим работы при получении на вход некоторого "триггерного сообщения" (a la "стоп-слова"). Причем внешне эти самые "дополнительные" функции ничем не отличаются от всех остальных таких же, предназначенных для выполнения моделью заявленного функционала, вот только коэффициентики у них подправлены в нужную сторону и оформлены так, чтобы не менялись при обучении.

Что интересно, а ведь эти же методы вполне работают и с естественным интеллектом.

Войдите или зарегистрируйтесь для комментирования

(5 лет 12 месяцев)09:15-25/Окт/24

Касательно естественного интеллекта и "стоп-слов"- тут вообще-то нужна предрасположенность и работа гипнотизера. ИМХО.

Войдите или зарегистрируйтесь для комментирования

(9 лет 5 месяцев)11:17-25/Окт/24

В естественный интеллект крайне сложно встроить вот такие вот схемы обхода логики. Помните робокопа, который не мог застрелить преступника-босса?

А пресловутые 3 закона робототехники? Это тоже подобные цепочки обхода. Правила, которые невозможно убрать переобучением.

Войдите или зарегистрируйтесь для комментирования

(9 лет 5 месяцев)13:44-25/Окт/24

Да ну. Самый простой пример -нужно все делать по закону, но если это большое начальство. На счёт кодовой фразы -посмотрите на сектантов. Человек нормальный -нормальный, но стоит произнести кодовое слово -и понеслось. Кстати, сектанты бывают же не только религиозными. Наслушавшись пропаганды можно запросто стать политическим сектантом, а там -прощай рассудок. Причем не во всем, а в том, что связано с кодовой темой. Ну или иа же Повестка на Западе.

Войдите или зарегистрируйтесь для комментирования

Скрытый комментарий (без обсуждения)

(9 лет 5 месяцев)11:15-25/Окт/24

К сожалению, эта схема ничем не отличается от всех вообще изделий человечества. Начало таки да, положено в Трое. А с тех пор подход только развивался.

Помните, как хакнули центрифуги в Иране? Через средство разработки кода для контроллеров.

Так что если вы хотите доверять изделию полностью, вы должны полностью сделать его самостоятельно либо полностью доверять тем, кто поставлял вам все его составные части.

Для ИТ устройств это означает, что всё должно быть своё начиная с логики используемых микросхем. Заимствовать можно только систему команд микропроцессоров. Все средства разработки логики, трассировки, изготовления образца, изготовления всего СВТ - всё своё. И ещё контроль всех этапов, чтобы злодеи в твои процессы не подмешали своих бэкдоров.

Войдите или зарегистрируйтесь для комментирования

(5 лет 12 месяцев)11:31-25/Окт/24

Умом-то это всё понятно.

Но народ ведь как себе представляет: вот есть система - а вот в ней "червь".

А тут исследователи явно показали, что "червь" может быть реализован ну вааще своеобразно: не путем вставки каких-то там "червивых" команд, а просто указанием специфичных циферок, наряду с кучей неспецифичных. Это действует, в некотором смысле, как холодный душ. ИМХО.

Войдите или зарегистрируйтесь для комментирования

(1 год 7 месяцев)17:04-26/Окт/24

Чтобы давать большому количеству людей корректное представление об ИИ, нужно перестать называть его Искусственным Интеллектом.

Называйте тем, чем он на деле является - матрицей коэффициентов. Тогда у каждого человека закономерно появится представление о том, каким образом и кто нейросеть обучал.

На мой взгляд, просто добавить в курс университета обязательную лабораторную по созданию и обучению собственной нейросети. У меня было такое. Сразу снимает все лишние вопросы и необоснованные надежды.

Войдите или зарегистрируйтесь для комментирования

(5 лет 12 месяцев)17:19-26/Окт/24

Мы называем его так, как определено действующими нормативными актами (см. тут). Когда президент подпишет иной указ - будет называть иначе. А фантазировать и изголяться каким-то образом - зачем?

P.S. Не все варианты реализации ИИ - это матрица коэффициентов. Хотя в материале - скорее да.

Войдите или зарегистрируйтесь для комментирования

ИИ: немного о скрытой логике

Комментарии

Страницы

ПУЛЬС AFTERSHOCK

Лидеры обсуждений

Лидеры просмотров

ИИ: немно­го о скры­той ло­ги­ке

Комментарии

Страницы

ПУЛЬС AFTERSHOCK

Лидеры обсуждений

Лидеры просмотров

ИИ: немного о скрытой логике