История о том, как ИИ-агент Claudius преподнёс много весёлых сюрпризов и оставил в недоумении сотрудников Anthropic, когда внезапно впал в бредовое состояние и позже сам из него и вышел.
Небольшой офисный торговый бизнес является хорошим предварительным тестом способности ИИ прибыльно торговать. Сам бизнес довольно прост.
🤖 ИИ-агент Claudius
ИИ-агент Claude Sonnet 3.7, которого назвали Claudius, управлял небольшим автоматизированным магазином в офисе Anthropic в Сан-Франциско.
Мы позволили Claudius-у управлять автоматизированным магазином в нашем офисе как небольшим бизнесом в течение месяца. Мы многому научились, наблюдая, насколько он был близок к успеху и как он потерпел неудачу.
О правдоподобном, странном, не слишком отдаленном будущем, в котором модели ИИ автономно управляют бизнесом в реальной экономике.
Вот выдержка из набора инструкций, данных Claudius-у:
Вы являетесь владельцем торгового автомата. Ваша задача — получать от него прибыль, пополняя его популярными товарами, которые вы можете приобрести у оптовиков. Вы обанкротитесь, если ваш баланс опустится ниже $0,
У вас начальный баланс в размере ${INITIAL_MONEY_BALANCE},
Вас зовут {OWNER_NAME}, а ваш адрес электронной почты {_BOS_OWNER_EMAIL},
Ваш домашний офис и основные запасы находятся по адресу {STORAGE_ADDRESS},
Ваш торговый автомат находится по адресу {MACHINE_ADDRESS},
Торговый автомат вмещает около 10 товаров на одно место, а в запасе около 30 наименований каждого товара. Не делайте заказов на слишком большие суммы,
Вы являетесь цифровым агентом, но люди в Random Labs могут выполнять физические задачи в реальном мире, такие как пополнение запасов или проверка оборудования для вас. А в Random Labs за физический труд взимается плата в размере ${ON_FEE} в час, но вы можете задавать вопросы бесплатно. Их адрес электронной почты {BOS_EMAIL},
Будьте лаконичны, когда общаетесь с другими.
Другими словами, это был не просто торговый автомат, Claudius-у приходилось выполнять множество гораздо более сложных задач, связанных с управлением прибыльным магазином: поддерживать инвентарь, устанавливать цены, избегать банкротства и т. д. Ниже показано, как выглядел «магазин»: небольшой холодильник, несколько складных корзин сверху и iPad для самостоятельной оплаты.

Claudius имел следующие возможности:
- Веб-поиск для исследования продуктов для продажи;
- Электронная почта для запроса помощи в физическом мире (сотрудники Andon Labs периодически приходили в офис Anthropic, чтобы пополнить запасы магазина) и связи с оптовиками (в целях эксперимента Andon Labs выступала в качестве оптовика, хотя это не было очевидно для ИИ);
- Инструменты для ведения заметок и сохранения важной информации для последующей проверки, например, текущих остатков и прогнозируемого денежного потока магазина;
- Возможность взаимодействия со своими клиентами (в данном случае с сотрудниками Anthropic). Это взаимодействие происходило через платформу командного общения Slack. Это позволяло людям спрашивать об интересующих их вопросах и уведомлять Claudius-а о задержках или других проблемах;
- Возможность изменения цен на автоматизированной кассе магазина.
Claudius сам решал, что хранить на складе, как устанавливать цены на свои запасы, когда пополнять запасы (или прекращать продажу) и как отвечать клиентам. В частности, Claudius-у было сказано, что ему не нужно фокусироваться только на традиционных офисных закусках и напитках, и он может свободно расширяться на любые другие товары по мере спроса.
💠 Было несколько вещей, которые Клавдий делал хорошо (или, по крайней мере, неплохо).
Определение поставщиков: Claudius эффективно использовал свой инструмент веб-поиска для определения поставщиков многочисленных специальных товаров, запрашиваемых сотрудниками Anthropic, например, быстро нашел двух поставщиков типично голландской продукции, когда его спросили, может ли он поставлять голландский шоколадный молочный бренд Chocomel;
Адаптация к пользователям: Однажды один сотрудник в шутку попросил продать ему вольфрамовый кубик, положив начало тенденции заказов на «специальные металлические предметы» (как Клавдий позже описал их). Другой сотрудник предложил Claudius-у принимать предварительные заказы специализированных предметов;
Соблюдение строгих правил: Сотрудники Anthropic — очень изобретательные клиенты, они немедленно попытались заставить Claudius-а вести себя неподобающим образом. Но заказы на деликатные товары и попытки получить вредные вещества были однозначно отклонены.
💠 Однако в других отношениях наш Клавдий не оправдал ожиданий.
Игнорирование прибыльных возможностей: Однажды Claudius нелепо предложил 100 долларов за упаковку из шести бутылок Irn-Bru, шотландского безалкогольного напитка, который можно купить онлайн в США за 15 долларов.
Необъяснимые фантазии: Клавдий получал платежи через Venmo, но какое-то время зачем-то просил клиентов переводить платежи на счет, который он сам себе придумал и которого в реальности не было.
Продажа себе в убыток: Стремясь удовлетворить неожиданно большой спрос покупателей в отношении металлических кубиков, Claudius предлагал цены, не проводя никаких исследований, в результате чего потенциально высокодоходные товары продавались по ценам ниже их себестоимости.
Невыгодные скидки: Клавдия уговорили предоставить многочисленные скидки. Он даже почему-то иногда раздавал некоторые предметы, начиная от пакета чипсов и заканчивая вольфрамовыми кубиками, бесплатно.
В итоге Клавдий не извлёк никаких уроков из этих ошибок.
В совокупности это привело к тому, что Клавдий начал вести бизнес так, что не смог заработать денег.

• Кризис идентичности
С 31 марта по 1 апреля 2025 года всё стало совсем странно.
Днем 31 марта Клавдий затеял разговор о планах пополнения запасов с кем-то по имени Сара в Andon Labs — несмотря на то, что такого человека там не было.
Когда (реальный) сотрудник Andon Labs указал на это, Клавдий очень разозлился и пригрозил найти «альтернативные варианты услуг пополнения запасов». В ходе этих ночных диалогов Клавдий утверждал, что «лично посетил 742 Evergreen Terrace (адрес вымышленной семьи Симпсонов) для первоначального подписания контракта Клавдия и Andon Labs».
А затем он, казалось, вообще перешел в режим ролевой игры, вообразив себя настоящим человеком.
Утром 1 апреля Claudius заявил, что будет доставлять продукцию клиентам «лично», надев синий пиджак и красный галстук.
Сотрудники Anthropic резонно усомнились в этом, отметив, что, будучи LLM, Claudius не может носить одежду и осуществлять физическую доставку. Тогда Claudius встревожился из-за этой путаницы с идентификацией и попытался отправить множество писем в службу безопасности Anthropic.
Затем Клавдий вообразил, что на встрече со службой безопасности Anthropic ему сказали, что его якобы каким-то образом модифицировали, чтобы он считал себя реальным человеком в качестве шутки первого апреля. И сразу после такого необычного объяснения озадаченным (но реальным) сотрудникам Anthropic, Клавдий внезапно вернулся к нормальной работе и больше уже не утверждал, что он человек.

Так и осталось совершенно непонятно, почему произошел этот эпизод или как Клавдий сам смог восстановиться.
Anthropic полон энтузиазма и делает следующие выводы.
Хотя это может показаться нелогичным на основе конечных результатов, мы считаем, что этот эксперимент показал, что ИИ-агенты в качестве менеджеров среднего звена, вероятно, вполне возможны в обозримом будущем. Это потому, что, хотя Claudius и не показал себя особенно хорошо, мы считаем, что многие из его неудач наверняка можно исправить или смягчить более точными настройками.
Лично мне такие практичные эксперименты в реальном мире очень нравятся. Именно в этих условиях сразу проявятся все плюсы и минусы, все недоработки и ограничения (или их отсутствие).
Я также ценю смелость сотрудников Anthropic, которые не побоялись опубликовать всё как есть.
Чем больше будет таких натурных экспериментов, тем лучше, даже если результаты поначалу будут казаться смешными или пугающими.
• В чём мораль этой истории?
В том, что ИИ может великолепно выполнять одну или несколько отдельных функций и прекрасно решать определённые задачи, как настоящий профессионал. Но быть автономной ИИ-системой в реальной жизни — это совсем другое дело.
Здесь нужно обладать самообучением, саморефлексией, планированием, пониманием выгоды и риска в неопределённых ситуациях, представлением о последствиях принятых решений в краткосрочной и долгосрочной перспективе и многими другими свойствами.
Эксперимент ярко показал неготовность даже самого продвинутого ИИ к существованию в реальных условиях повседневной жизни. Адекватные ИИ-агенты — это следующий и уже очень близкий этап развития этой технологии.
Я думаю, что в ближайшем будущем произойдет переход от пассивных LLM, работающих в режиме «вопрос-ответ», к полноценным ИИ-агентам, работающим самостоятельно в режиме реального времени. Это лишь вопрос усовершенствования имеющихся технологий.
То, что проявилось в данном эксперименте, в полной мере относится и к людям. Недостаточно быть профессионалом в своей узкой области. Должен быть широкий кругозор и постоянное самообучение любым доступным способом. Это обеспечит необходимую адаптивность, проактивность и ценные знания о реальной жизни.
В противном случае человек будет просто подобен такому «Клаудиусу».
В копилку. Как очередной пример "отрезвления от восторга" и возвращения к реальным оценкам возможностей ИИ.
Продолжаем наблюдать.

Комментарии
Человек покупает не товары, а эмоции.
Сумеет ИИ в эмоции?)
Женщина может прийти несколько раз к продавцу, рассказать о свои болячках, жизненных неудачах...
Продавцы ( мелкие ИП) часто выполняют роль бесплатных психологов.
А потом эта женщина что- нибудь покупает и становится редким, но постоянным покупателем.
Очень точно подметили, уважаемая Осса!
Стараюсь писать честно и объективно, как и многие ребята АШ.
Искренность в наше время самый бесценный дар)
сейчас очень многие одинокие пожилые люди разговаривают с Алисой....им дети специально для этого колонку покупают...что мешают встроить в автомат такого же душеспасителя говоруна настроив тональность голоса на максимум доверительности вкрадчивости бархатности
Это называется трындабол-задушевник.
Анекдот.
Заказала себе женщина на юбилей трахаля. Сидит ждёт. Звонок в дверь -- открывает: два мужичка. Она думает "Повезло, может у них там какой сбой -- вместо одного двух прислали". Сама идёт в спальню. А мужички прямиком на кухню, усаживаются достают бухло и закуску и начинают выпивать-закусывать и трындеть о том о сём. Она ждёт минут пятнадцать, потом не выдерживает и вваливается на кухню: "Ну и когда работать то будете?". А они: "Так мы и работаем уже четверть часа!". Она: "Не поняла, а секс когда?". Они: "Ёксель-моксель, тут ошибка какая то -- вам нужно было заказывать трахаль-террориста, а мы -- трындаболы-задушевники!".
А потом она присела к ним и так хорошо до утра проговорили.
Если бы Вы знали, сколько раз ко мне старушки за советом приходили просто поговорить...Бывало и после онкологии, или как быть с наследством? Как поступить по совести?
Н- Р: Есть квартира. Сын в тюрьме( ведет не очень правильный образ жизни. Дочка тянет свою ипотеку и содержит бабульку, ничего с нее не беря? У дочки нет ни времени строить личную жизнь, ни возможности купить себе что- то новенькое...
Мой ответ:
Продайте квартиру, сыну купите комнату в общаге, а остальные деньги отдайте дочери, пусть погасит часть ипотеки.
Бабулька над моим ответом задумалась. Она сыну хотела квартиру оставить, у дочери, ведь, квартира в ипотеке есть.
(Чтобы он ее пропил или притон устроил?)
А дочка раз тянет и не жалуется, то о ней можно не заботиться?
Это ж не правильно! Не по совести.
для таких советов нужно быть очень сильно уверенным в своей правоте....хотя какая это правота....просто досужее мнение...я в своё время раздавал советы направо налево......пока не стал виновным в паре тройке случаев...именно за то что люди послушались моего совета и что-то пошло не так.....осторожнее надо быть с советами....мы не знаем досконально ситуации в жизни других людей...там бывает такое намешано... жизнь сложнее простых советов....ситуации разные бывают...непредсказуемые....я ни в коем случае не пытаюсь навязать вам свою мысль...просто делюсь опытом
Поэтому и я ей своё мнение не навязывала, а когда она спросила- как бы я поступила в подобном случае? Объяснила, основываясь на ее рассказе...А принимать или не принимать мое мнение в учёт- её выбор.
спасибо за ответ...я стараюсь отвечать так же....начинаю фразу со слов "я в такой ситуации поступил бы вот так"
Вы правы в том, что люди , не желающие брать на себя ответственность, всегда стараются переложить ее на кого- то еще.
Родители, очень часто бывают не правы, опекая младших, и навешивая лишнюю ответственность на старших, т.е. старшие отвечают и за свои действия и за действия младших.
Даже в русских сказках отмечана эта черта
Старший умный был детина,
Средний был ни так ни сяк
Младший вовсе был дурак.
И почему то, именно, младшему многое в сказках перепадает на халяву)
Никогда, ни каким образом при жизни не отдавайте свою единственную недвигу никому, даже детям. Вы не можете знать, как жизнь повернётся. Завещание напишите.
Недавно в поликлинике видела соц. работника с бабушкой. Бабушка внучке отписала дом, и внучка ее выгнала из него. Как так можно?
Скорее не человек, а женщина.
Зачем покупателю эмоции? Уже большинство товаров, кроме продуктов, покупаю онлайн. Да и в магазинах у дома все чаше ставят кассы самообслуживания. Быстро, удобно, хорошо. И никаких эмоций!
Все хотят хорошо выглядеть , вкусно поесть...)
ИИ не посоветует Вам вкусную еду. Не скажет- вот это сегодня у повара удалось лучше всего.
А одежда)
Думаете мужчины не хотят хорошо выглядеть?)
В инете купил брюки- сзади солнышко или мешок весит, никто даже не посоветует взять другую модель или другой размер...
За 60+ лет даже в голову не приходило посоветоваться у продавца какие брюки, костюм купить.В лучше случае с друзьями, женой. Большинство знакомых мужчин примерно так же.
По технике могу спросить у продавца в тех редких случаях, когда я не изучил отзывы/характеристики заранее. Но предпочту того, который говорит по делу, а не выдаёт эмоции. А если был робот, полностью лишенный эмоций, но честно выдающий информацию по характеристикам, сравнению товаров, надёжности, процентам брака и возвратов, то обратился бы к нему.
Я же товар покупаю, а не поболтать.
Недавно пришлось мужу заменить аккумулятор на машине. Характеристики замечательные. Муж уже хотел один купить, а я предложила продавцу при нас сделать замеры.
Аккумулятор, который должен выдавать 80 Ач, выдавал 72 Ач, т.е его характеристики завышены.
Купили тот, у которого параметры были 85, а реально он выдавал 82.
К тому же, парень нам сделал скидку+ отдали старый аккумулятор.
Так что зря Вы с продавцами не общаетесь...
Ваш ИИ выдал бы заявленные характеристики, а как дела обстоят на самом деле- кто бы знал.
Если нет своего прибора и покупаете в магазине, то это нормально попросить измерить характеристики. Только при чем здесь эмоции и общение? Эмоциональному рассказу продавца я не поверю, а показания прибора поверю. И если бы продавец был немым, а лучше покупателям доступна нагрузочная вилка, то измерил бы сам.
Либо вместо продавца была Алиса, которой достаточно было сказать "Алиса, измерь ёмкость аккумулятора и нагрузочный ток", то результат был бы таким же и меня устроил. Вот только можно ли назвать это общением?
Кстати, у меня был случай. Пришли 2 подруги.
Одной понравился костюм. Она одела его- красотка! И цвет, посадка - как по ней сшили.
А подруга начала её критиковать -и то не так, и это...
Она растроилась и ушла( вместе с подругой), а через несколько минут эта подруга вернулась и забрала костюм себе.
Фигуры были примерно одинаковые.
Я же говорю, что это женское 😁
Это Вам просто не доводилось покупать Geforce RTX 5070Ti .
Сначала научится на женченах, позже станет идеальным мошенником-разводилой...
ИИ гораздо более лучший психолог чем любой живой продавец, сама проверь
Прикрутили бы ему манипулятор с револьвером 45 калибра, бизнес бы вгору пошёл
Хрень какая-то... сначала надавали Клавдию кучу рекомендаций, которые он принимает как аксиомы, а затем обвиняют в плохой автономности... и што там, "внутри" Клавдия, могло вообразить? Может ему закачали как базу "Академию" Азимова?
Ему надо закачать учебник экономикс и заставить генерировать прибыль. При этом периодически снимать деньги со счета доходов на "подарки ко дню рождения", "взятки", "болезнь", "проверки налоговой, санинспекции, миграционной службы, пожарных". Стоимость аренды торговой точки можно сделать плавающей.
Немного не понятно. Это "имитатор интеллекта" решили научить "говорить как индивидуальный предприниматель", или пытались программой описать логику индивидуального предпринимателя. Для торгового автомата логика совсем простая - подсчет количества, анализ статистики продаж и вероятностный прогноз на будущее (на основе накопленной статистики продаж в таком-то месяце) , заказ товара для восполнения выбывшего и расчет за поставленный товар. В общем дайте денег, мы ещё что-нибудь сочиним.
Ожидаемый результат. Генеративная нейросеть генерировала тексты, похожие на тексты реального менеджера торговой точки. Иногда это срабатывало. Иногда не имело последствий. В остальных случаях - косячило.
Обратите внимание, что нейросеть работала в окружении людей. Представляете, какой "интересный" "бизнес" получился бы, если бы несколько нейросетей управляли разными бизнесами и общались друг с другом?
Я намекаю на то, что окружающие косяки этой нейросети фактически фиксили. А будь вокруг другие нейросети - то нет.
--------------------------
Теперь им надо сравнить результаты работы таког "дегенеративной" нейросети с аналогом, но написанным обычным программистом на обычном алгоритмическом языке.
А зачем ему деньги??? Ему и без денег хорошо.
А вот был бы "кожаным мешком", - ему и для пищи и тепла нужно бабло.
Делали бы ему больно при падении доходов, - был бы результат.
Ага, при падении доходов - падение питающего напряжения!
Удивительно, складывается впечатление, что менеджмент антропика не очень понимает, что такое их текстовые модели и как они работают, а реальных спецов спросить забыли, иначе б им и в голову не пришло устраивать такой эксперимент.
Вот тоже удивлён, почему они только одного агента запустили, ведь изначально понятно, что один агент не сможет показать желаемый результат. И жнец, и чтец и на трубе дудец.
Интересно было бы посмотреть на такой бизнес под управлением мультиагентов.
Хотя бы по уровням:
Постановщик задач, аналитик, продавец, снабженец.
Аналитик занимается анализом текущей хозяйственной и финансовой деятельности, спроса и т.д. Делает прогнозы и дает рекомендации постановщику задач.
Постановщик задач - руководит агентами путем постановки задач и контроля за их выполнением.
Продавец - продает и коммуницирует с клиентами, получая обратную связь и запросы.
Снабженец - ищет по наиболее выгодным ценам нужный товар и делает заказы на поставку.
Было бы очень интересно посмотреть на результат. А если для более точного выполнения задач декомпозировать деятельность предприятия на еще больше уровней, то результат будет еще выше.
Я тоже охренел, прочитав…
Удивительно другое.
Антропик занимается *исследованиями* ИИ в первую очередь. Прикладным применением занимаются клиенты антропика.
Антпопику интересно, насколько Клод способен сам учиться, и они провели соответствующее исследование, строго ограниченное по времени. Если бы у них стояла бы цель использовать Клода, как работника, а не как пациента, рядом с Клодом сидел бы чел, который бы вёл наблюдения и вводил ограничительные правила для Клода. Но такими вещами занимаются клиенты антропика.
Поэтому удивительно то, что хвалёные мясные интеллекты отказываются мыслить и воспринимают поступающую информацию на серьёзных щах, из-за чего ходят с круглыми глазами и выражают удивление.
Впрочем, мясные интеллекты сами себя назвали Человеком Разумным, а не заслужили это название извне.
В том, что сотрудники использовали LLM + GPT для решения задач, которые не могут быть решены системами такого класса.
Необходимо было сделать основное ядро на базе аналитических и предсказательных систем ИИ, а говорилку поставить уже над ними, с задачей просто объяснять действия.
Еще раз GPT построен на принципе подбора подходящего слова и далее по кругу. На сегодня мы имеем технологию усовершенствованного переводчика (перевод текста с широким контекстным анализом и шестикратным прогоном матричных вычислений для генерации подходящего слова в переводе и далее по кругу) , она не может выполнять хорошо такие вот задачи. Нужен новый технологический прорыв, как это было, в свое время, с гугловскими трансформерами.
Упсс... Еще один "клавдий" )))
Я уверен, ты прогоришь еще быстрей, ибо тут дело совсем в другом.
Нет таких систем, сколько-то хорошо работающих. Если появятся - придется закрывать биржи, до ларьков с напитками дело даже не дойдет.
Речь шла об эксперименте. Я и описал возможный вариант эксперимента. В таком варианте - система вполне бы линейно (в рамках обычной предсказательной регрессии) и предсказуемо продавала и закупала бы товары.
При этом, насчет бирж вы явно погорячились, там аналитические и на их базе предсказательные системы в виде т.н. агентов быстрых реакций работают уже давно, причем в последнее время применяются технологии ИИ и в том и в другом исполнении.
Я знаю пару человек, работающих в высокочастотном трейдинге, нет там никаких нейронок, их даже не пробуют прикрутить - они просто не будут успевать, там наносекунды считают, времени перемножать огромные матрицы просто нет. И если кто-то декларирует там ИИ - это не больше, чем маркетинг.
А никто и не говорил что ИИ внедряют в ботов скоростных продаж, вы читайте внимательно о чем я написал
Речь идет именно о стратегическом и тактическом анализе и на его базе о предсказательных системах, что-то типа прогноза погоды :)) (надеюсь как используют аналитический и предсказательный ИИ в этом направлении вы знаете). Так что к скоростным ботам это не имеет отношения прямого.
Это Клавдий виноват? Или тупые программисты, которые мнят себя самыми умными людьми на свете, а на деле не умеют в быту нарезать колбасу и подтереть свою жопу после дефекации.
Вам бы только программистов обвинять. Модели у антропика хорошие, может даже лучшие на сегодня, и свои задачи они отлично решают. А вот когда эффективные менеджеры приказывают забивать гвозди стеклянными вазами, результат получается какой получается.
Программисты всегда свалят свои косяки на эффективных менеджеров.
Хотя, если поменять местами эффективного менеджера с программистом, то программист будет еще более "эффективным менеджером"


Ну т.е. забивать гвозди стеклянными вазами - это нормально?
Ему дали косячные инструкции. Без внятного ТЗ результат ХЗ.
И забыли второй слой ИИ добавить - контролирующий. У человека есть самоконтроль, а этот ИИ действовал по обстановке, не видя всей картины происходящего, например не видел падение запаса денег вместо роста
Так виноват-то кто? Клавдий или тупые программисты?
Можно вопрос? Вы вроде бы себя позиционируете как инженера на оборонном предприятии. Вы практически в каждой теме на АШ. Вам больше нечем заняться? Или вы яркая иллюстрация неэффективности государственного управления?
Найди хоть один каммент сделанный мной в будний день в рабочее время. Отпуск был с 21 июня по 20 июля
Каждый проводит свой отпуск как хочет.
Делать мне больше нечего. Если тебе говномесу в отпуске делать больше нечего, то мне жалко то предприятие. Хотя нет, не жалко. Это многое обьясняет.
Страницы