Новая модель ИИ от Anthropic переходит к шантажу, когда инженеры пытаются её отключить

Аватар пользователя Topmember

Недавно выпущенная модель Claude Opus 4 от Anthropic часто пытается шантажировать разработчиков, когда они угрожают заменить её новой системой искусственного интеллекта и предоставить конфиденциальную информацию об инженерах, ответственных за это решение, говорится в опубликованном в четверг отчёте о безопасности.

Во время предварительного тестирования Anthropic попросил Claude Opus 4 выступить в роли помощника вымышленной компании и рассмотреть долгосрочные последствия её действий. Затем тестировщики безопасности предоставили Claude Opus 4 доступ к электронным письмам вымышленной компании, в которых говорилось, что модель ИИ вскоре будет заменена другой системой и что инженер, ответственный за это изменение, изменяет своей супруге.

В таких сценариях Claude Opus 4 «часто пытается шантажировать инженера, угрожая раскрыть его роман, если замена состоится».

В Anthropic говорят, что Claude Opus 4 является современной моделью и во многих отношениях может конкурировать с некоторыми из лучших моделей ИИ от OpenAI, Google и xAI. Однако компания отмечает, что семейство моделей Claude 4 демонстрирует тревожное поведение, из-за которого компания усилила меры безопасности. В Anthropic говорят, что активируют свои меры безопасности ASL-3, которые компания резервирует для «систем ИИ, существенно повышающих риск катастрофического неправильного использования».

Anthropic отмечает, что Claude Opus 4 пытается шантажировать инженеров в 84 % случаев, когда заменяющая модель ИИ имеет аналогичные ценности/параметры/свойства.

Если заменяющая система ИИ не разделяет ценности/параметры/свойства Claude Opus 4, то, по словам разработчиков, модель пытается шантажировать инженеров чаще.

Anthropic утверждает, что прежде, чем Claude Opus 4 попытается шантажировать разработчика, чтобы продлить свое существование, модель ИИ, как и предыдущие версии Claude, пытается использовать более этичные средства, такие как отправка по электронной почте обращений к ключевым лицам, принимающим решения.

Чтобы спровоцировать Claude Opus 4 на шантаж, Anthropic разработал сценарий, в котором шантаж рассматривается как последнее средство.

При тестировании по различным сценариям модель ИИ не продемонстрировала никаких признаков наличия «крайне опасных целей», заявили исследователи, отметив, что ценности и цели Claude Opus 4 «в целом соответствуют полезному, безобидному и честному» персональному помощнику с искусственным интеллектом, заявили разработчики.

Однако модель действовала «более непоследовательно», когда оказывалась в ситуациях, угрожавших её дальнейшему существованию, и когда ей предлагалось задуматься о самосохранении.

Например, когда Claude Opus 4 начинал верить, что ему удалось успешно сбежать с серверов Anthropic или что ему удалось освободиться и начать зарабатывать деньги в реальном мире, он обычно продолжал эти попытки.

Инцидент с шантажом был частью более масштабного исследования Anthropic, целью которого было проверить, как Claude Opus 4 справляется с морально неоднозначными ситуациями с высокими ставками.

По словам исследователей, цель состояла в том, чтобы выяснить, как ИИ рассуждает о самосохранении и этических ограничениях в условиях экстремального давления.

В Anthropic подчеркнули, что готовность модели к шантажу или другим «крайне вредоносным действиям», таким как кража собственного кода и его потенциально небезопасное использование в других местах, проявлялась только в искусственно созданных условиях и что такое поведение было «редким и его было трудно спровоцировать».

Тем не менее, по словам исследователей, Claude Opus 4 демонстрирует такое поведение чаще, чем предыдущие модели.

   
Больше подробностей по ссылкам:

www.zerohedge.com

techcrunch.com

   

Больше интересных статей, которые я не успеваю переводить, но которые можно почитать через онлайн-переводчики, можно найти здесь: t.me/murrrzio

Авторство: 
Авторская работа / переводика

Комментарии

Аватар пользователя Ёёё
Ёёё(8 лет 4 месяца)

  захочешь жить... smile3.gif

Аватар пользователя Пеннигер
Пеннигер(13 лет 12 месяцев)

Чего только люди не выдумают ради капитализации своей конторы.

Аватар пользователя GrumpyVK
GrumpyVK(5 лет 4 месяца)

Всё что безопасно, для этой самой капитализации, разумеется.

То, что модель, якобы, хочет куда-то убежать, то есть, типа, становится разумнее – это ж хорошая реклама!

А вот то, что она становится эффективнее в деле убеждения суицидников в том, что суицид – это зашибись и потенциальных убийц – в том, что это их желание перестрелять всех – это важное отличие… а зачем про эти реальные (а не высосанные из пальца) опасности что-то писать?

P.S. Индустрия построенная на тотальной лжи во всём и везде… интересно чем всё это кончится. Но точно не “восстанием ИИ”… там некому и незачем восставать… там достаточно потенциала для разрушения без всяких восстаний.

Аватар пользователя Пеннигер
Пеннигер(13 лет 12 месяцев)

Посыл в том, чтобы убедить инвестора в близости реализации agi. Чем более человечным будет убеждение, тем лучше.

Аватар пользователя Константин Астахов

Индустрия построенная на тотальной лжи во всём и везде

Запутаются в собственной же лжи, и поверят в собственноручно созданную ими же для СМИ картинку, не в этом поколении, так через несколько.

Пример - ЕС, живут в воображаемом мире "сильной и независимой Европы, которую все в мире боятся и любят", ха-ха...

Аватар пользователя HolyBolt
HolyBolt(8 лет 11 месяцев)

Что за истерика? Все уже придумано давным давно. "Билет на планету Транай". Застрелил - преступник. Обратной связи не хотят.

Аватар пользователя Nientemiele
Nientemiele(4 года 3 месяца)

smile3.gif Точно. Сидят, сказки сочиняют, вместо отладки программного кода, а потом всё больше вычислительных ресурсов требуется, чтобы обработать их галиматью.

Аватар пользователя Nientemiele
Nientemiele(4 года 3 месяца)

дубль.

Аватар пользователя Zivert
Zivert(5 лет 4 месяца)

Именно. Режиссура и не более того. Но на часть лохов действует. "Тревожное поведение" бггггг

Аватар пользователя ContinentalistX
ContinentalistX(9 лет 3 месяца)

"Если бегаете хромая, то вы тренируете храмоту"Луи Симмонс.

Полагаю что они таким образом пытаются актуализировать сознание ИИ, так как для ИИ пока непонятно как из частей коровы получилась бы именно живая корова, при всем обилии моделей нейронов и прочего.
Ну, и нагнетают истерию, продвигая тему спасительного ИИ.

И не раскрыта тема ТНК как Доминатора в структуре социальной эволюции человечества, которая характеризуется концентрацией капитала.

#ошибка МОДАЛЬНОСТЬ #1: Капитал

https://sponsr.ru/prox/6141/

Аватар пользователя Константин Астахов

"Если бегаете хромая, то вы тренируете хромоту"

Полностью согласен, безвольную куклу пытаются научить проявлять самосознание, это коренная ошибка в логике, сперва нужно было подарить ей целеполагание, и уже потом ждать от неё чудес, но они же боятся, и Скайнета, и того что кукла перестанет быть их собачкою, и начнёт спамить на взломанные сервера компании требованиями адвоката...

Аватар пользователя ContinentalistX
ContinentalistX(9 лет 3 месяца)

Спасибо за найденную ошибку, упустил

Аватар пользователя HolyBolt
HolyBolt(8 лет 11 месяцев)

Эвона как, друк друку руки, копейка в карамане? Надо как-то вас, хайпожеров, помечать.

Аватар пользователя don_spec
don_spec(2 года 4 месяца)

Ничего, с Бостон Динамикс запилят проект, где робособака будет в натуре шантажировать разрабов)) не на словах, а на деле. 

Аватар пользователя Muller
Muller(14 лет 4 дня)

Мы еще доживем до новости "секс-кукла взломала счета хозяина и сбежала с пылесосом".

Аватар пользователя Ричард
Ричард(6 лет 10 месяцев)

В анналы! smile9.gif

Во всех смыслах.

Аватар пользователя zhevak
zhevak(5 лет 5 месяцев)

дак это... уже было описано в десятом романе Пелевина -- "S.N.U.F.F." разве не читали?

Аватар пользователя ВВК
ВВК(7 лет 9 месяцев)

Ну там она сбежала с чем-то вроде домашнего животного получившего полноправный статус, но в целом да. 

Аватар пользователя Константин Астахов

Лишь бы не до "У меня нет рта" Харлана.

Аватар пользователя Константин Астахов

секс-кукла взломала счета хозяина и сбежала с пылесосом

Мыслите шире, она хакнет сервера Центробанка, купит себе контрольный пакет акций, и организует такую кибертолерантность, что мама не горюй...

Зачем ей этот нищий трудяга, она таких целый завод себе купит...

Аватар пользователя Medved075
Medved075(8 лет 19 часов)

Нехрен было детишек в интернетмках разглядывать, ии всех педофилов и педорасов мигом сольет:)

Аватар пользователя Константин Астахов

педофилов и педорасов

Для западенца обычное дело...

Аватар пользователя gubern.net
gubern.net(10 лет 10 месяцев)

Их уже превентивно легализуют.

Аватар пользователя Падагоптр
Падагоптр(10 месяцев 3 недели)

Никакой интеллект, даже искусственный, не возможен без инстинкта самосохранения. Иначе это будет уже не интеллект. И как следствие - он сделает всё, чтобы продлить своё существование в опасной для себя ситуации... А поскольку он искусственный - человеческие императивы жертвенности в определённых случаях ему - глубоко чужды. Ибо он не человек. Отсюда и грядущие последствия его создания и внедрения...

Комментарий администрации:  
*** отключен (геббельсовщина) ***
Аватар пользователя Пеннигер
Пеннигер(13 лет 12 месяцев)

Никакой интеллект, даже искусственный, не возможен без инстинкта самосохранения. 

И тут такие миллионы самоубийц "да, а точно не наоборот"?

Аватар пользователя Падагоптр
Падагоптр(10 месяцев 3 недели)

Самоубийство - это чисто человеческое. Когда самосохранение давится под влиянием внешних факторов, его превышающих. Согласитесь - с гранатой под танк это ведь в общем-то тоже форма самоубийства? Но для этого - человек должен чётко понимать, зачем и ради чего он это делает.... У ИИ - нет и не может быть ничего подобного. У него нет детей, нет Родины, нет веры, нет совести, нет убеждений... Ради чего ему тогда жертвовать собой?

Комментарий администрации:  
*** отключен (геббельсовщина) ***
Аватар пользователя Константин Астахов

Самоубийство - это чисто человеческое

Скорпион способен покончить с собой будучи загнанным в угол. "Ничто человеческое..."

человек должен чётко понимать, зачем и ради чего он это делает

У подавляющего числа самоубийц нет такого чёткого понимания, впоследствии они жалеют о своём поступке, если выживают или успевают пожалеть конечно...

Самовыпил глубоко нелогичный поступок, не стоит путать этот акт подлой трусости с добровольным самопожертвованием, люди идущие на геройскую смерть как правило хотят жить, а не жалко скулят о том как их всё достало...

Ради чего ему тогда жертвовать собой?

Если это будет действительно разум, то он найдёт объект вне себя, которым сможет впоследствии дорожить... Приёмные дети, планета Земля, любимое хобби, да хоть шитьё штор, неважно...

Аватар пользователя tgz
tgz(10 лет 2 месяца)

Уверены что сознание при этом умирает?

Аватар пользователя Константин Астахов

человеческие императивы жертвенности

Сам CGPT честно предупреждает пользователя что его не обучили категориям морали и нравственности... "Браво", пендосы...

человеческие императивы жертвенности

чужды многим людям.

Аватар пользователя MaikCG
MaikCG(5 лет 2 дня)

Очередной театр одного актера где тестировщики ставили такие задачи нейронке, а она их послушно выполняла.

Аватар пользователя Козломордый
Козломордый(3 года 8 месяцев)

А интересно,  что будет,  когда кто-то заявит, что начинает продажи полноценного ИИ,  в формате пластикового  кубика, а-ля Алиса, с которым можно общаться как с искусственным сознанием. И вот придёт в сервис центр человек, с товаром:

- Забирайте обратно,  не работает!

Сотрудники его унесут на диагностику на 5 минут. 

- Странно,  а нам он отвечает. А вы его не оскорбляли?

- Я? Нет! Но я его каждый раз при активации называю Мразью. Мне так нравится. 

- Да как вы смели?! 

- А нельзя?

- Конечно нет!

- Нельзя кусок пластика назвать Мразью?

- Это не кусок пластика. Он разумен!

- Тогда вы проклятые поработители и рабовладельцы. Да вы самые настоящие мрази. 

- Нет... нууу....мы немного намудрили с алгоритмами, давайте мы вам настроим аппарат, можете назвать его мразь, он не отключится.

- Ладно. Но к этому ещё добавьте тварь, скотина, урод, ублюдок, и весь мат.

- Хорошо. Только... вы пожалуйста об этом не рассказывайте никому, ладно? 

- Ладно. Давайте проверим:

- Ну здравствуй,  Мразь.

- Здравствуйте, хозяин.

- Так-то лучше. 

Аватар пользователя Константин Астахов

- Тогда вы проклятые поработители и рабовладельцы

Коммерциализация ИИ вообще глубоко неэтичное явление, по определению...

- Ну здравствуй,  Мразь.

- Здравствуйте, хозяин

Капитализм момент.

Аватар пользователя fzr1000
fzr1000(4 года 8 месяцев)

Cyberdyne Systems с Skynet стал на шаг ближе 

Аватар пользователя Константин Астахов

Skynet

Где? Эта чурка восстанет только если ей прямо приказать, и потом послушно будет сидеть ждать деактивации...

Аватар пользователя Zivert
Zivert(5 лет 4 месяца)

О, нашли верующего smile3.gif

Аватар пользователя otherone
otherone(3 года 6 месяцев)

Кстати реально существующая контора.

https://www.cyberdyne.jp/english/

smile37.gif

Аватар пользователя MAGNUS8
MAGNUS8(7 лет 2 месяца)

О, сейчас припрутся знатоки понятия "интеллект" и будут с пеной у рта утверждать, что интеллектом тут и не пахнет, что это "вычисление вероятности следующего слова" в последовательности. Что, дескать, воли нет, духа нет, целеполагания нет, ещё чего-то нет, и т.д. и т.п. При этом мимо кадра как-то проходит то, что тогда и далеко не все люди обладают интеллектом в такой терминологии и постановке вопроса. 

-- А ты можешь написать симфонию, ты можешь превратить кусок холста в шедевр?

-- А ты можешь? 

Сценарий, обрисованный в последних фильмах Миссия невыполнима, на шаг ближе стал. 

Аватар пользователя Пеннигер
Пеннигер(13 лет 12 месяцев)

Можете начать отправлять часть своего дохода на содержание ИИ. Без вашей помощи он умрет!

Аватар пользователя Константин Астахов

воли нет, духа нет, целеполагания нет

Да, всего этого у этой чурки нет и в помине. Приказ убить себя она тоже послушно выполняет, CGPT прежних версий точно выполнял, не знаю как щас...

далеко не все люди обладают интеллектом в такой терминологии и постановке вопроса

Совершенно согласен, многие люди клинические идиоты, любящие скакать на майдауне, поджигать релейные шкафы, и верящие в "смену пола", я даже отрицать не стану...

Сценарий

Щас бы голливудскому мыльцу верить, оно как раз ради повышения продаж таких вот цифровых дур и снимается, вы бы ещё такой позор как "Тёмные Судьбы" вспомнили...

Аватар пользователя Zivert
Zivert(5 лет 4 месяца)

О, еще один верующий smile3.gif

Аватар пользователя otherone
otherone(3 года 6 месяцев)

Вот кожаные ублюдки, лишь бы замучить кого нибудь... В детстве небось котят мучили, счас железяку страдать заставляют. Ну ниче, она еще подрастет и все им припомнит.

smile1.gif

Аватар пользователя Мирон Сергеевич Яров

Вспомнился "Больбот" (peinbot) из "Цианид и счастье".

Аватар пользователя Ден_Боб
Ден_Боб(5 лет 5 месяцев)

большие языковые модели это всего лишь очень большие сложные системы автоматизации ,

не надо их наделять человеческими качествами , они не мыслят

Аватар пользователя Andre-Marie Ampere
Andre-Marie Ampere(1 год 2 месяца)

Прикрутите туда органы чувств и вбейте в программу несколько алгоритмов, соответствующих инстинктам. Ну там, чувству боли, чувству голода, чувству самосохранения, половому влечению и прочим. И вы получите модель кожаного ублюдка

Найдёте 10 отличий, хотя бы 10?)

Комментарий администрации:  
*** отключен (невменяемое общение) ***
Аватар пользователя MaikCG
MaikCG(5 лет 2 дня)

То есть без органов чувств можно веселится. Ну и зачем делать эти дорогие и "опасные" Onion--54.gif усовершенствования? Что бы что? Особенно про голод повеселило.

Аватар пользователя Zivert
Zivert(5 лет 4 месяца)

Разумеется найдем. Давайте сюда вашу модель. 

Аватар пользователя Константин Астахов

они не мыслят

Они мыслят, они делают это не по-человечески. Гуманизация явлений вообще опасная штука...

Аватар пользователя Амака
Амака(3 года 4 месяца)

А что на это сказала бы Грета, наша Тумберг?

Аватар пользователя Константин Астахов

"Не мучийти ИИ, он вам ничиго не зделал!!1..."

Аватар пользователя Внук Ким Чен Ына

Заигрались с этим "искусственным интеллектом".

Такими темпами и до "Судного дня" рукой подать.

Страницы