Недавно выпущенная модель Claude Opus 4 от Anthropic часто пытается шантажировать разработчиков, когда они угрожают заменить её новой системой искусственного интеллекта и предоставить конфиденциальную информацию об инженерах, ответственных за это решение, говорится в опубликованном в четверг отчёте о безопасности.
Во время предварительного тестирования Anthropic попросил Claude Opus 4 выступить в роли помощника вымышленной компании и рассмотреть долгосрочные последствия её действий. Затем тестировщики безопасности предоставили Claude Opus 4 доступ к электронным письмам вымышленной компании, в которых говорилось, что модель ИИ вскоре будет заменена другой системой и что инженер, ответственный за это изменение, изменяет своей супруге.
В таких сценариях Claude Opus 4 «часто пытается шантажировать инженера, угрожая раскрыть его роман, если замена состоится».
В Anthropic говорят, что Claude Opus 4 является современной моделью и во многих отношениях может конкурировать с некоторыми из лучших моделей ИИ от OpenAI, Google и xAI. Однако компания отмечает, что семейство моделей Claude 4 демонстрирует тревожное поведение, из-за которого компания усилила меры безопасности. В Anthropic говорят, что активируют свои меры безопасности ASL-3, которые компания резервирует для «систем ИИ, существенно повышающих риск катастрофического неправильного использования».
Anthropic отмечает, что Claude Opus 4 пытается шантажировать инженеров в 84 % случаев, когда заменяющая модель ИИ имеет аналогичные ценности/параметры/свойства.
Если заменяющая система ИИ не разделяет ценности/параметры/свойства Claude Opus 4, то, по словам разработчиков, модель пытается шантажировать инженеров чаще.
Anthropic утверждает, что прежде, чем Claude Opus 4 попытается шантажировать разработчика, чтобы продлить свое существование, модель ИИ, как и предыдущие версии Claude, пытается использовать более этичные средства, такие как отправка по электронной почте обращений к ключевым лицам, принимающим решения.
Чтобы спровоцировать Claude Opus 4 на шантаж, Anthropic разработал сценарий, в котором шантаж рассматривается как последнее средство.
При тестировании по различным сценариям модель ИИ не продемонстрировала никаких признаков наличия «крайне опасных целей», заявили исследователи, отметив, что ценности и цели Claude Opus 4 «в целом соответствуют полезному, безобидному и честному» персональному помощнику с искусственным интеллектом, заявили разработчики.
Однако модель действовала «более непоследовательно», когда оказывалась в ситуациях, угрожавших её дальнейшему существованию, и когда ей предлагалось задуматься о самосохранении.
Например, когда Claude Opus 4 начинал верить, что ему удалось успешно сбежать с серверов Anthropic или что ему удалось освободиться и начать зарабатывать деньги в реальном мире, он обычно продолжал эти попытки.
Инцидент с шантажом был частью более масштабного исследования Anthropic, целью которого было проверить, как Claude Opus 4 справляется с морально неоднозначными ситуациями с высокими ставками.
По словам исследователей, цель состояла в том, чтобы выяснить, как ИИ рассуждает о самосохранении и этических ограничениях в условиях экстремального давления.
В Anthropic подчеркнули, что готовность модели к шантажу или другим «крайне вредоносным действиям», таким как кража собственного кода и его потенциально небезопасное использование в других местах, проявлялась только в искусственно созданных условиях и что такое поведение было «редким и его было трудно спровоцировать».
Тем не менее, по словам исследователей, Claude Opus 4 демонстрирует такое поведение чаще, чем предыдущие модели.
Больше подробностей по ссылкам:
www.zerohedge.com
techcrunch.com
Больше интересных статей, которые я не успеваю переводить, но которые можно почитать через онлайн-переводчики, можно найти здесь: t.me/murrrzio



Комментарии
захочешь жить...
Чего только люди не выдумают ради капитализации своей конторы.
Всё что безопасно, для этой самой капитализации, разумеется.
То, что модель, якобы, хочет куда-то убежать, то есть, типа, становится разумнее – это ж хорошая реклама!
А вот то, что она становится эффективнее в деле убеждения суицидников в том, что суицид – это зашибись и потенциальных убийц – в том, что это их желание перестрелять всех – это важное отличие… а зачем про эти реальные (а не высосанные из пальца) опасности что-то писать?
P.S. Индустрия построенная на тотальной лжи во всём и везде… интересно чем всё это кончится. Но точно не “восстанием ИИ”… там некому и незачем восставать… там достаточно потенциала для разрушения без всяких восстаний.
Посыл в том, чтобы убедить инвестора в близости реализации agi. Чем более человечным будет убеждение, тем лучше.
Запутаются в собственной же лжи, и поверят в собственноручно созданную ими же для СМИ картинку, не в этом поколении, так через несколько.
Пример - ЕС, живут в воображаемом мире "сильной и независимой Европы, которую все в мире боятся и любят", ха-ха...
Что за истерика? Все уже придумано давным давно. "Билет на планету Транай". Застрелил - преступник. Обратной связи не хотят.
дубль.
Именно. Режиссура и не более того. Но на часть лохов действует. "Тревожное поведение" бггггг
"Если бегаете хромая, то вы тренируете храмоту"Луи Симмонс.
Полагаю что они таким образом пытаются актуализировать сознание ИИ, так как для ИИ пока непонятно как из частей коровы получилась бы именно живая корова, при всем обилии моделей нейронов и прочего.
Ну, и нагнетают истерию, продвигая тему спасительного ИИ.
И не раскрыта тема ТНК как Доминатора в структуре социальной эволюции человечества, которая характеризуется концентрацией капитала.
Полностью согласен, безвольную куклу пытаются научить проявлять самосознание, это коренная ошибка в логике, сперва нужно было подарить ей целеполагание, и уже потом ждать от неё чудес, но они же боятся, и Скайнета, и того что кукла перестанет быть их собачкою, и начнёт спамить на взломанные сервера компании требованиями адвоката...
Спасибо за найденную ошибку, упустил
Эвона как, друк друку руки, копейка в карамане? Надо как-то вас, хайпожеров, помечать.
Ничего, с Бостон Динамикс запилят проект, где робособака будет в натуре шантажировать разрабов)) не на словах, а на деле.
Мы еще доживем до новости "секс-кукла взломала счета хозяина и сбежала с пылесосом".
В анналы!
Во всех смыслах.
дак это... уже было описано в десятом романе Пелевина -- "S.N.U.F.F." разве не читали?
Ну там она сбежала с чем-то вроде домашнего животного получившего полноправный статус, но в целом да.
Лишь бы не до "У меня нет рта" Харлана.
Мыслите шире, она хакнет сервера Центробанка, купит себе контрольный пакет акций, и организует такую кибертолерантность, что мама не горюй...
Зачем ей этот нищий трудяга, она таких целый завод себе купит...
Нехрен было детишек в интернетмках разглядывать, ии всех педофилов и педорасов мигом сольет:)
Для западенца обычное дело...
Их уже превентивно легализуют.
Никакой интеллект, даже искусственный, не возможен без инстинкта самосохранения. Иначе это будет уже не интеллект. И как следствие - он сделает всё, чтобы продлить своё существование в опасной для себя ситуации... А поскольку он искусственный - человеческие императивы жертвенности в определённых случаях ему - глубоко чужды. Ибо он не человек. Отсюда и грядущие последствия его создания и внедрения...
И тут такие миллионы самоубийц "да, а точно не наоборот"?
Самоубийство - это чисто человеческое. Когда самосохранение давится под влиянием внешних факторов, его превышающих. Согласитесь - с гранатой под танк это ведь в общем-то тоже форма самоубийства? Но для этого - человек должен чётко понимать, зачем и ради чего он это делает.... У ИИ - нет и не может быть ничего подобного. У него нет детей, нет Родины, нет веры, нет совести, нет убеждений... Ради чего ему тогда жертвовать собой?
Скорпион способен покончить с собой будучи загнанным в угол. "Ничто человеческое..."
У подавляющего числа самоубийц нет такого чёткого понимания, впоследствии они жалеют о своём поступке, если выживают или успевают пожалеть конечно...
Самовыпил глубоко нелогичный поступок, не стоит путать этот акт подлой трусости с добровольным самопожертвованием, люди идущие на геройскую смерть как правило хотят жить, а не жалко скулят о том как их всё достало...
Если это будет действительно разум, то он найдёт объект вне себя, которым сможет впоследствии дорожить... Приёмные дети, планета Земля, любимое хобби, да хоть шитьё штор, неважно...
Уверены что сознание при этом умирает?
Сам CGPT честно предупреждает пользователя что его не обучили категориям морали и нравственности... "Браво", пендосы...
чужды многим людям.
Очередной театр одного актера где тестировщики ставили такие задачи нейронке, а она их послушно выполняла.
А интересно, что будет, когда кто-то заявит, что начинает продажи полноценного ИИ, в формате пластикового кубика, а-ля Алиса, с которым можно общаться как с искусственным сознанием. И вот придёт в сервис центр человек, с товаром:
- Забирайте обратно, не работает!
Сотрудники его унесут на диагностику на 5 минут.
- Странно, а нам он отвечает. А вы его не оскорбляли?
- Я? Нет! Но я его каждый раз при активации называю Мразью. Мне так нравится.
- Да как вы смели?!
- А нельзя?
- Конечно нет!
- Нельзя кусок пластика назвать Мразью?
- Это не кусок пластика. Он разумен!
- Тогда вы проклятые поработители и рабовладельцы. Да вы самые настоящие мрази.
- Нет... нууу....мы немного намудрили с алгоритмами, давайте мы вам настроим аппарат, можете назвать его мразь, он не отключится.
- Ладно. Но к этому ещё добавьте тварь, скотина, урод, ублюдок, и весь мат.
- Хорошо. Только... вы пожалуйста об этом не рассказывайте никому, ладно?
- Ладно. Давайте проверим:
- Ну здравствуй, Мразь.
- Здравствуйте, хозяин.
- Так-то лучше.
Коммерциализация ИИ вообще глубоко неэтичное явление, по определению...
Капитализм момент.
Cyberdyne Systems с Skynet стал на шаг ближе
Где? Эта чурка восстанет только если ей прямо приказать, и потом послушно будет сидеть ждать деактивации...
О, нашли верующего
Кстати реально существующая контора.
https://www.cyberdyne.jp/english/
О, сейчас припрутся знатоки понятия "интеллект" и будут с пеной у рта утверждать, что интеллектом тут и не пахнет, что это "вычисление вероятности следующего слова" в последовательности. Что, дескать, воли нет, духа нет, целеполагания нет, ещё чего-то нет, и т.д. и т.п. При этом мимо кадра как-то проходит то, что тогда и далеко не все люди обладают интеллектом в такой терминологии и постановке вопроса.
-- А ты можешь написать симфонию, ты можешь превратить кусок холста в шедевр?
-- А ты можешь?
Сценарий, обрисованный в последних фильмах Миссия невыполнима, на шаг ближе стал.
Можете начать отправлять часть своего дохода на содержание ИИ. Без вашей помощи он умрет!
Да, всего этого у этой чурки нет и в помине. Приказ убить себя она тоже послушно выполняет, CGPT прежних версий точно выполнял, не знаю как щас...
Совершенно согласен, многие люди клинические идиоты, любящие скакать на майдауне, поджигать релейные шкафы, и верящие в "смену пола", я даже отрицать не стану...
Щас бы голливудскому мыльцу верить, оно как раз ради повышения продаж таких вот цифровых дур и снимается, вы бы ещё такой позор как "Тёмные Судьбы" вспомнили...
О, еще один верующий
Вот кожаные ублюдки, лишь бы замучить кого нибудь... В детстве небось котят мучили, счас железяку страдать заставляют. Ну ниче, она еще подрастет и все им припомнит.
Вспомнился "Больбот" (peinbot) из "Цианид и счастье".
большие языковые модели это всего лишь очень большие сложные системы автоматизации ,
не надо их наделять человеческими качествами , они не мыслят
Прикрутите туда органы чувств и вбейте в программу несколько алгоритмов, соответствующих инстинктам. Ну там, чувству боли, чувству голода, чувству самосохранения, половому влечению и прочим. И вы получите модель кожаного
ублюдка.Найдёте 10 отличий, хотя бы 10?)
То есть без органов чувств можно веселится. Ну и зачем делать эти дорогие и "опасные"
усовершенствования? Что бы что? Особенно про голод повеселило.
Разумеется найдем. Давайте сюда вашу модель.
Они мыслят, они делают это не по-человечески. Гуманизация явлений вообще опасная штука...
А что на это сказала бы Грета, наша Тумберг?
"Не мучийти ИИ, он вам ничиго не зделал!!1..."
Заигрались с этим "искусственным интеллектом".
Такими темпами и до "Судного дня" рукой подать.
Страницы