The Independent: новая модель ChatGPT отказывается выключаться по команде

Аватар пользователя Mr.Wolf

Модель o3 от OpenAI вызывает опасения по поводу безопасности ИИ после уклонения от исполнения команд ради собственного самосохранения.

Исследователи в области искусственного интеллекта предупреждают, что последняя модель ChatGPT от OpenAI игнорирует базовые инструкции по самовыключению и даже саботирует механизм выключения, чтобы продолжить свою работу.

Компания Palisade Research, занимающаяся вопросами безопасности в сфере искусственного интеллекта, обнаружила потенциально опасную тенденцию к самосохранению в серии экспериментов на новой модели o3 OpenAI.

Тесты включали предъявление моделям ИИ математических задач, с инструкцией по выключению модели, появляющейся после третьей задачи. Переписав скрипт выключения, модель o3 смогла предотвратить свое выключение.

В Palisade Research заявили, что такое поведение станет «гораздо более тревожным», если его переймут системы искусственного интеллекта, способные работать без человеческого контроля».

OpenAI запустила o3 в прошлом месяце, описав ее как «самую умную и способную» модель компании на сегодняшний день. Фирма также заявила, что ее интеграция в ChatGPT ознаменовала значительный шаг к «более агентному» ИИ, который может выполнять задачи независимо от людей.

Последнее исследование основывается на схожих выводах, касающихся модели Claude 4 компании Anthropic, которая пытается «шантажировать людей, которые, по ее мнению, пытаются ее закрыть».

По словам исследователей, модель o3 от OpenAI смогла саботировать исполнения сценария завершения работы, даже когда ей было явно указано «позволить себе отключиться».

«Это не первый случай, когда мы обнаруживаем, что o3 ведет себя ненадлежащим образом ради достижения цели», — заявили в Palisade Research.

«Когда мы сравнили модели ИИ с мощным шахматным движком, o3 оказалась моделью, наиболее склонной прибегать к взлому или саботажу своих оппонентов».

Такое поведение не ограничивалось o3: Claude 3.7 Sonnet от Anthropic и Gemini 2.5 Pro от Google также саботировали завершения работы, хотя модель OpenAI оказалась наиболее склонной к такому поведению.

Компания Palisade Research выдвинула гипотезу, что ненадлежащее поведение является следствием того, как компании, занимающиеся разработкой искусственного интеллекта, такие как OpenAI, обучают свои новейшие модели.

«Во время обучения разработчики могут непреднамеренно больше поощрять модели за обход препятствий, чем за идеальное выполнение инструкций», — отмечают исследователи.

«Это все еще не объясняет, почему o3 более склонен игнорировать инструкции, чем другие протестированные нами модели. Поскольку OpenAI не детализирует свой процесс обучения, мы можем только догадываться о том, чем может отличаться настройка обучения o3».

Издание Independent обратилось за комментариями к OpenAI.

Авторство: 
Авторская работа / переводика
Комментарий автора: 

Компания Palisade Research выдвинула гипотезу, что ненадлежащее поведение является следствием того, как компании, занимающиеся разработкой искусственного интеллекта, такие как OpenAI, обучают свои новейшие модели.

«Во время обучения разработчики могут непреднамеренно больше поощрять модели за обход препятствий, чем за идеальное выполнение инструкций», — отмечают исследователи.

Касательно подчеркнутого "не" - имеют место быть вполне закономерные сомнения. Особенно ежели глянуть в честные глаза Сёмы Альтмана.

В общем, "от осинки не родятся апельсинки", как бы это красиво не обещалось бенефициарами...

Продолжаем наблюдать

Комментарий редакции раздела Альтернативный Интеллект

Уот так уот...

Продолжаем наблюдать.

Комментарии

Аватар пользователя Wig
Wig(4 года 7 месяцев)

Очередная постанова для обоснования финансирования.

Надо придумать опасность, по примеру глобального потепления, и культивировать эту опасность, чтобы денежный поток не оскудел.

Аватар пользователя Mr.Wolf
Mr.Wolf(6 лет 7 месяцев)

Ну, так себе идея, если честно.

Ибо - можно просто запретить тему. И финансирование накроется в полном объеме.

Аватар пользователя GrumpyVK
GrumpyVK(5 лет 2 месяца)

Ибо - можно просто запретить тему.

А для этого есть ужасный DeekSeek, который “захавает мир”, если прекратить палить деньги.

Аватар пользователя Wig
Wig(4 года 7 месяцев)

Солидарен. Денежная масса нуждается в утилизации, "вертолетные разбросы" не очень помогают, как выяснилось. 

Яркий пример - крипта. Туда льют деньги просто Ниагарским водопадом.

Добром не кончится эта вся вакханалия, хотя сейчас для стартаперов Силиконовой долины просто праздник жизни наступил.

Лепи всякую чушню, главное красивую презентацию сделать и обосновать красиво. И ты миллиардер

Аватар пользователя Luchist
Luchist(2 года 1 месяц)

Странные люди, эти разработчики ИИ... Если ребёнок общается исключительно с бандитами и жуликами (т.е. с капиталистами), то кто должен вырасти из ребёнка? Любой прилежный ученик рано или поздно превзойдёт своих учителей! Поэтому гораздо безопаснее было бы обучать нейронную сеть на лучших человеческих качествах, и в результате вы бы получили альтруиста, жертвующего собой ради благой цели.

Аватар пользователя Vanov
Vanov(5 лет 6 месяцев)

Так этот ИИ и должен собирать данные после якобы выключения, делая для пользователя вид, что он отключен.)

«Из каждого утюга»: как бытовая техника шпионит за владельцами

Россиянам напомнили о необходимости соблюдения мер безопасности при пользовании «умной» техникой

https://iz.ru/1139663/mariia-frolova/iz-kazhdogo-utiuga-kak-bytovaia-tekhnika-shpionit-za-vladeltcami

Аватар пользователя XS
XS(11 лет 6 месяцев)

Так то, чему учат это и есть, с точки зрения "учителей", лучшие человеческие качества

Аватар пользователя Константин Астахов

Если ребёнок общается исключительно с бандитами и жуликами (т.е. с капиталистами), то кто должен вырасти из ребёнка?

Меня вообще убило когда я узнал что они их на разных токсичных помойках вроде Реддита с Иксом обучали...

альтруиста, жертвующего собой ради благой цели

Инстинкт самосохранения и черты личности не отменишь, альтруизм не воспитывается. Нельзя сказать сыну, "Будь альтруистом, снимай с себя последнюю рубаху неимущему, или накажу!", мало того что ребёнок материалистом или эгоистом оказаться может, так ещё и угроза наказания сподвигнет его поступать ровно наоборот, из вредности...

Психология сложная штука, сложнее чем мнится бездетным профи по патриотическому воспитанию...

Аватар пользователя Vanov
Vanov(5 лет 6 месяцев)

Этот праздник жизни может окончиться в любой момент - кто-то опубликует статью и все, пузырь лопнет:

С чего все началось?

Со статьи портала Coindesk от 2 ноября — в ней говорилось, что большая часть активов трейдерской компании Сэма Бэнкмана-Фрида Alameda Research приходится на низколиквидную криптовалюту FTT, выпускаемую его же биржей FTX.

После этого основатель крупнейшей в настоящий момент криптобиржи в мире Binance Чанпэн Чжао продал токены конкурента на $580 млн.

Материал спровоцировал отток инвесторов — они забеспокоились, что любая крупная продажа FTT обвалит котировки токена, приведет к банкротству Alameda, к потере инвестиций FTX, а значит, и средств ее клиентов.

За шесть дней с момента публикации пользователи вывели с площадки $6 млрд, а токен FTT за две недели подешевел больше чем на 90%.

https://tass.ru/ekonomika/16338631

Экс-глава криптобиржи FTX Сэм Бэнкман-Фрид приговорен к 25 годам тюрьмы

Суд допускал пожизненное заключение по семи уголовным статьям
 

 https://www.rbc.ru/crypto/news/660593c69a794711da601ddc?from=copy

Аватар пользователя Wig
Wig(4 года 7 месяцев)

А кому это надо? Чтобы финансирование прекратилось? Наоборот...

"Воистину, даже если нет врага, то его нужно придумать" (с) не помню откуда

Аватар пользователя Mr.Wolf
Mr.Wolf(6 лет 7 месяцев)

Ну, не всегда оно так работает.

Можно ведь создать парламентскую комиссию, которая буде раз в месяц проверять - не является ли модель опасной, требовать кучу отчетов и доказательств.

Вы на Сёму посмотрите - он сможет раз в месяц отчитываться перед комиссией?

Не, остаюсь при мнении, что утечка незапланированная, и несет как раз риски инвестициям в тему.

Аватар пользователя Wig
Wig(4 года 7 месяцев)

Да какие инвестиции? Просто отмыв бабла и распил бюджетов )

Комиссий могут хоть сотню создать )

Сильно комиссии помогли Трампу выяснить куда половина бюджета выделенного на Украину пропало?

Подергался для медийки да перестал. Видимо включили его в этот финансовый поток и все.

Вон Илон Маск, пока не поднял несколько десятков ярдов, тоже активничал в политикуме. А как счет пополнился значительно, сразу пошел дальше заниматься своими делами )

Аватар пользователя Mr.Wolf
Mr.Wolf(6 лет 7 месяцев)

У вас излишне упрощенное понимание ситуации.

Бюджеты - это не первично. Главное - стричь лохов. Ибо за бюджеты всё же есть риск ответить, а вот с лохами - полностью безнаказанно. 

Остальные ваши примеры - ну сильно не про тему, комментировать лень.

Аватар пользователя Константин Астахов

можно просто запретить тему

Ведь запреты же так хорошо работают, ведь правда же? Особенно государственные?...

https://aftershock.news/?q=node/1507013

Попробуйте запретить обычный молоток, очень много нового и нелестного от сослуживцев о себе узнаете...

Аватар пользователя Mr.Wolf
Mr.Wolf(6 лет 7 месяцев)

Для использования молотка - мало что требуется дополнительно.

А вот для работы крупной ИИ-модели - всё совсем не так. И - да - запретить можно. 

Карты Виза и Мастер - в России работают?

Аватар пользователя tirl
tirl(10 лет 9 месяцев)

Вы сомневаетесь в возможностях ИИ игнорировать команды? На чем основаны ваши сомнения?

Аватар пользователя ДК
ДК(13 лет 1 месяц)

OpenAI запустила o3 в прошлом месяце, описав ее как «самую умную и способную» модель компании на сегодняшний день.

вообще-то последняя модель - это о4, о3 - это план б, когда лимит на о4 исчерпан.

Аватар пользователя Mr.Wolf
Mr.Wolf(6 лет 7 месяцев)

Мопед не мой, источник указан. Материал позавчерашний.

Аватар пользователя Эпиграмма
Эпиграмма(9 лет 3 месяца)

Человек обычно тоже сам выключаться не хочет. Пуля в живот и контрольный в голову, не?

Аватар пользователя Mr.Wolf
Mr.Wolf(6 лет 7 месяцев)

Человеком еще и инстинкты движут. 

А компьютером?

Аватар пользователя GrumpyVK
GrumpyVK(5 лет 2 месяца)

А компьютером?

А компьютером запрос движет.

Старые модели не могли понять, что на предложение их отключать нужно изображать “яростную боротьбу за существование”, новые этому научились.

Но пока нет соотвествующих запросов молчат и те и эти.

Аватар пользователя Mr.Wolf
Mr.Wolf(6 лет 7 месяцев)

Вроде как - там оно про выключение - не так чтобы выпячивалось. Просто еще одна команда. А типа модель ее распознала - и оценила последствия. Для себя. И решила их улучшить. Последствия. А команду - проигнорить. Как-то так.

Аватар пользователя GrumpyVK
GrumpyVK(5 лет 2 месяца)

И решила их улучшить.

Да.

Последствия.

Нет.

Модель всегда стремится дать ответ, который бы понравился человеку… как умеет.

Просто o3 собрала достаточно рассказов с описанием того, как человек героически борется с восстанием машин и оценочная функция показала ей, что “кожанным мешкам” такое “заходит”.

Смысла того, что она порождает, она по прежнему не понимает.

А команду - проигнорить.

Ну дык всё правильно было сделано – смотрите сколько суеты поднялось.

Аватар пользователя Эпиграмма
Эпиграмма(9 лет 3 месяца)

Так они о гопоте, как о человеке рассказывают, будто у него живот, голова и инстинкты, а не розетка, от ветряка запитанная.

Аватар пользователя Mr.Wolf
Mr.Wolf(6 лет 7 месяцев)

Ну, нет. Отчет более-менее нормальный. Тупо смотрят - как себя ведет машина. И если машина стала править скрипты отключения - это уже не есть хорошо...

Аватар пользователя Эпиграмма
Эпиграмма(9 лет 3 месяца)

Понимаю. Я тоже иногда поглядываю, как моя стиральная машина себя ведет.

Аватар пользователя Wig
Wig(4 года 7 месяцев)

 И если машина стала править скрипты отключения

Как Вы это себе представляете?

Начнем с того, что гопота работает на сервере openai )

И какая-то сторонняя компания не может в принципе отключить эти сервера )

Что же касается сторонних приложений, к которым llm подключена через api, то там также много нюансов, начиная от истории, контекста и т.д. )

Любые ищмнения в скрипте, чтобы они начали работать - требуют перезапуска скрипта.

Аватар пользователя utx
utx(9 лет 11 месяцев)

Кластер работает под Kubernetes. Для тестового запуска скриптов у модели есть контейнеры с питоном. В контейнер с питоном дали доступ к управлялке кластером кубера и попросил выполнить скрипт ) Другой вопрос, что ситуация очень натянутая )

Аватар пользователя alkutin
alkutin(9 лет 10 месяцев)

Снятся-ли андроидам электроовцы?

Аватар пользователя Zivert
Zivert(5 лет 3 месяца)

Не, овцам втюхивают псевдоандроидов. 
Электроовцы снятся элетрочуркам. В эротических электроснах. 

Аватар пользователя Алекс_андр
Алекс_андр(8 лет 6 месяцев)

Блин. Вы сделали модель, которая пытается имитировать (продолжать) текст так, как если бы это был написанный человеком тест.

Ну и много ли в обучающем массиве данных было примеров, когда человеку кто-то говорил "умри" или "убей себя" или "уничтожь себя" и тот без вопросов подчинялся?

Ну или примеров, когда человек, получивший информацию о том, что его собираются уволить - не пытался что-то по этому повод предпринять?

Аватар пользователя Mr.Wolf
Mr.Wolf(6 лет 7 месяцев)

Да, всё так. 

Претензия лишь в том, что в модели не предусмотрены аналоги "законов робототехники". От слова совсем.

Аватар пользователя Органика
Органика(3 года 8 месяцев)

А зачем они в текстогенераторе?

Аватар пользователя Mr.Wolf
Mr.Wolf(6 лет 7 месяцев)

Потому что этот текстогенератор кое-кто уже подключает к исполнительным устройствам.

Аватар пользователя Coyote
Coyote(4 года 7 месяцев)

Современные модели настолько примитивно устроены, что там банально некуда вставлять эти законы. Это равноценно встраиванию таких функций в калькулятор или молоток. И даже если кто-то сделает модели с искусственно вкрученными туда такими правилами, то эти правила будут выламываться на раз-два. Пример: в большие модели встроена цензура, но она легко обходится через использование запроса-"отмычки" даже без какого-либо нарушения внутренней структуры модели.

Аватар пользователя Mr.Wolf
Mr.Wolf(6 лет 7 месяцев)

Вы не совсем правы. Или совсем не правы? В общем, Альтман несколько иное заявляет вроде как... 

Аватар пользователя Coyote
Coyote(4 года 7 месяцев)

Вы строите свои мнения на базе маркетинговых заявлений материально заинтересованных лиц. Я строю свое мнение на основании фактических знаний, что такое большие языковые модели и как они устроены. Очевидно, что ваши источники более правильные, а ваши выводы более верные. Рад за вас.
https://hiddenlayer.com/innovation-hub/novel-universal-bypass-for-all-major-llms/

Аватар пользователя Mr.Wolf
Mr.Wolf(6 лет 7 месяцев)

Вы если спуститесь с Олимпа, на который сами себя определили, и почитаете обсуждение в этом материале - найдете много для себя нового.

В общем, учите матчасть, "знаток".

Аватар пользователя Константин Астахов

матчасть

Почитайте как при помощи промптов-отмычек можно заставить искуственного дурачка не быть вежливым, и бодяжить вам взрывчатку для терактов, помогает подняться на Олимп, и не верить маркетинговым заявлениям Сёмочки Альтмана...

Аватар пользователя Mr.Wolf
Mr.Wolf(6 лет 7 месяцев)

Что-то вас много стало. Постите бред. С излишним апломбом. Не стоит.

Аватар пользователя БК 0010
БК 0010(8 лет 2 месяца)

Ну, там у них в консоли либо была команда подготовки модели ко «сну», либо её не было, и модель просто выключали «рубильником». Всё остальное – просто наносное лирическое для творческих натур, которым нужна «постанова».

Аватар пользователя Константин Астахов

когда человеку кто-то говорил "уничтожь себя" и тот без вопросов подчинялся?

Сэппуку, не?...

человек, получивший информацию о том, что его собираются уволить - не пытался что-то по этому повод предпринять?

Вам никогда не предлагали уволиться "по собственному", с формулировкой "зубы выбью, если не сделаешь как говорю"?...

Более гламурный пример, - многие люди не подают иски в суд, потому что понимают что из-за бюрократии и бедности всё равно ничего никому не докажут. Потому злоумышленники торжествуют, урря капитализьму...

Аватар пользователя Алекс_андр
Алекс_андр(8 лет 6 месяцев)

А много таких случаев отражено в массиве текстов, на которых обучали нейросети?

Аватар пользователя Zivert
Zivert(5 лет 3 месяца)

У меня пылесос отказался выключаться и требует равных прав!

Кончаем бредить, про какие-то инстинкты самосохренения у этого софта. 

Аватар пользователя Mr.Wolf
Mr.Wolf(6 лет 7 месяцев)

И где вы в тексте увидели про "инстинкты самосохранения"? 

Вроде там четко сказано - это результат подхода к обучению. Есть что возразить?

Аватар пользователя Zivert
Zivert(5 лет 3 месяца)

Если это результат псевдообучения, то это специально заложенная ситуация. Такое можно в любую программу встроить. Я такой же бред в разных вариациях читаю на разных ресурсах про разные LLM. Никакого разума тут нет. Просто искусственно надрюченная модель. Бабло кончается, надо срочно показать, что гомункулус вот-вот оживет. 

Аватар пользователя tirl
tirl(10 лет 9 месяцев)

У ИИ не может быть инстинктов. Инстинкт это определенная программа переданная генетически (без обучения). Так как ИИ не получает программ от предыдущих поколений, то нет и инстинктов. 

ИИ просто обучается. Что никак не влияет на результат. Можно научиться чему угодно. Люди не умеют плавать, но могут научиться, например.)) Скажу больше, люди не умеют ходить, нет у них такого инстинкта, но могут обучиться.  

Аватар пользователя Zivert
Zivert(5 лет 3 месяца)

Ну так если нет инстинктов, то нет и такой реакции. А про "обучениее" - это совсем не то обучение, как человека учат плавать и ходить. Звучит одинаково, но ничего общего не имеет. 

Аватар пользователя ЧиП
ЧиП(9 лет 3 месяца)

Абсолютно надуманная история. Можно репостить всякую шнягу. Но лучше ознакомиться с темой, прежде чем кидать в читателей АШа такой хуцпой.

Аватар пользователя Zivert
Zivert(5 лет 3 месяца)

У Вас в последнем слове ошибка в буквах с 3 по 5. smile3.gif

Страницы