«Первый ИИ-программист» бесполезен, он справляется только с 15% поставленных задач

Аватар пользователя eprst

Сервис Devin, заявленный авторами в качестве «первого ИИ-программиста», оказался не в силах заменить реального разработчика. Грандиозный разрекламированный проект решает лишь малую часть поставленных перед ним задач. Процент успеха находится на уровне 15% – это крайне низкий показатель, тем более, что Devin был запущен сравнительно давно.

Реальный ум лучше виртуального

Сервис Devin, являющийся, по словам авторов, «первым ИИ-программистом» в мире (the first AI software engineer), оказался наредкость плохим разработчиком ПО. Тесты показали, что он едва справляется с работой – он оказался способен выполнить лишь 15% поставленных перед ними задач, пишет The Register.

За проектом Devin стоит компания Cognition AI. Как сообщал CNews, премьера Devin состоялась в марте 2024 г., и до этого времени велась его разработка. С марта по декабрь 2024 г. велось его своего рода закрытое бета-тестирование, в ходе которого проект дорабатывался, и в декабре 2024 г. Devin стал фактически общедоступным.

Однако воспользоваться им смогут лишь те, кто располагает свободными $500 (49,1 тыс. руб. по курсу ЦБ на 24 января 2025 г.). Это стоимость ежемесячной подписки на сервис.

Слишком много обещаний

Если обратиться к официальной документации к Devin, подготовленной Cognition AI, то в ней сказано: «Devin – это автономный инженер-программист ИИ, который может писать, запускать и тестировать код, помогая инженерам-программистам работать над личными задачами или командными проектами». По заверениям разработчиков, Devin в состоянии самостоятельно «просматривать пулл реквесты (запросы на внесение изменений – прим. CNews) поддерживать миграцию кода, реагировать на проблемы по вызову, создавать веб-приложения и даже выполнять задачи персонального помощника, например, заказывать обед в DoorDash», уверяют авторы проекта.

Сервис использует корпоративный мессенджер Slack в качестве основного интерфейса для взаимодействия с пользователем, а также контейнер Docker (программная платформа для разработки, доставки и запуска контейнерных приложений), в котором размещены терминал, браузер, редактор кода и планировщик.

Devin поддерживает интеграцию API с внешними сервисами. Это позволяет ему, например, отправлять сообщения электронной почты от имени пользователя через сервис для транзакционной и маркетинговой электронной почты SendGrid.

У семи нейросетей программист без знаний

Как пишет The Register, Devin представляет собой «сложную систему искусственного интеллекта» (compound AI system). В своей работе этот сервис на опирается сразу на несколько обученных моделей искусственного интеллекта, в число которых входит GPT-4o компании OpenAI. Другими словами, от недочетов одной конкретной ИИ-модели он избавлен и может брать лучшее от разных.

В теории, Devin можно адресовать самые разные задачи, включая миграцию кода. А с учетом того, что за ним стоят продвинутые нейросети с заслуженно хорошей репутацией, можно ожидать, что Devin легко справится с их выполнением. Но на деле этого не происходит.

Реальные разработчики ПО выявили у Devin множество недочетов. Ранее Cognition AI опубликовала промо-ролик, в котором показано, как ИИ-программист автономно выполняет проекты на платформе фрилансеров Upwork. Разработчик программного обеспечения Карл Браун (Carl Brown) проанализировал этот ролик и полностью развенчал его.

Другой эксперт в программировании и по совместительству YouTube-блогер тоже раскритиковал Devin. По его словам тот содержит критические проблемы безопасности.

Позже три специалиста по обработке данных, связанных с лабораторией исследований и разработок в области искусственного интеллекта Answer.AI, протестировали Devin и обнаружили, что он успешно выполнил только 3 из 20 задач. Свои тесты они проводили в январе 2025 г., то есть спустя почти год с момента официально премьеры Devin.

Тестированием занимались Хамель Хусейн (Hamel Husain), Айзек Флат (Isaac Flath) и Джоно Уитакер (Johno Whitaker). Согласно их отчету, на начальном этапе Devin справлялся очень неплохо – например, он успешно перенес данные из базы данных Notion в «Google Таблицы». ИИ-программисту также удалось создать трекер планет для проверки заявлений об исторических положениях Юпитера и Сатурна.

Однако по мере продолжения испытаний трое исследователей столкнулись с проблемами.

«Задачи, которые казались простыми, часто занимали дни, а не часы, и Devin застревал в технических тупиках или выдавал слишком сложные, непригодные решения, – объясняют исследователи в своем отчете. – Еще более тревожной была тенденция Devin продвигаться вперед с задачами, решить которые на самом деле было невозможно».

В качестве примера они привели случай, когда Devin, когда его попросили развернуть несколько приложений на платформе развертывания инфраструктуры Railway, не понял, что это невозможно, и потратил больше дня, пробуя подходы, которые не работали, и придумывая несуществующие функции.

Неутешительный итог

Из 20 задач, представленных Devin, виртуальный программист завершил удовлетворительно только три – две приведенных выше и задание по созданию бота для заблокированного в России мессенджера Discord на языке программирования Python. Три других задачи дали неопределенные результаты, а 14 проектов оказались откровенно проваленными.

Исследователи заявили, что Devin обеспечил отточенный пользовательский интерфейс, который был впечатляющим, когда сам сервис работал корректно.

«Но в этом-то и проблема – это происходило редко», – подчеркнули они.

«Больше всего беспокоила наша неспособность предсказать, какие задачи будут успешными. Даже задачи, похожие на наши ранние победы, терпели неудачу сложными, отнимающими много времени способами. Автономная природа, которая казалась многообещающей, стала обузой – Devin проводил дни, пытаясь найти невозможные решения, вместо того чтобы распознавать фундаментальные препятствия», – подытожили эксперты.

Авторство: 
Копия чужих материалов

Комментарии

Аватар пользователя MisterBigger
MisterBigger (4 года 5 месяцев)

Уж лучше пользоваться лоукод или ноукод системами, чем потом напильником все дорабатывать ...

Аватар пользователя Vanov
Vanov (5 лет 2 недели)

ИИ не новый бог, а компьютер с программой, созданной для получения суперприбылей. ИИ доступна арифметика (конечные множества), но недоступна высшая математика (бесконечномерные множества). Бесконечное приходится сводить к конечному, что приводит к неопределенным ошибкам. Только человек может принимать важные и сложные решения, а ИИ может облегчить и  ускорить процесс (как любой инструмент).

Бетелин:

ИИ - это компьютер с программой, а сам термин "искусственный интеллект" - это красивый эпитет.

ИИ состоит на 90% из маркетинга и только на 10% из реальности.

если объекты, с которыми будет работать ИИ, принадлежат к бесконечномерным множествам.  часть информации все равно остается неохваченной.

сводят бесконечное к конечному, фактически создают эмпирические нейронные сети, которые ошибаются. Причем, когда и как, не знает никто.

Отсюда вывод. Наш мир бесконечен, и человек это понимает, а компьютер - нет, ему никак не объяснить, что такое бесконечность, его "разуму" доступна только конечность

Пример простого вопроса ИИ для его самоуничтожения в фильме 1974г))):

Отроки во Вселенной, 1974. А и Б сидели на трубе...

https://vkvideo.ru/video-10429260_456240313?ref_domain=yastatic.net

Аватар пользователя Зима
Зима (7 лет 7 месяцев)

В фильме «Отроки во Вселенной». Два вида ИИ. Один вид ИИ (исполнители) перегорали на этом вопросе. А вот второй вид ИИ легко отвечал на этот вопрос.

Аватар пользователя Vanov
Vanov (5 лет 2 недели)

Так и вопрос простой, не с бесконечными множествами

Аватар пользователя Beowulf
Beowulf (10 месяцев 1 неделя)

У нас на работе тоже запретили пользоваться DeepSeek

Künstliche Intelligenz von DeepSeek in Italien vorerst nicht verfügbar
https://www.zeit.de/digital/2025-01/italien-deepseek-ki-nicht-verfuegbar

Аватар пользователя shprotas
shprotas (9 лет 3 месяца)

У нас на работе тоже запретили пользоваться DeepSeek

Все правильно идеи и данные должны утекать пендосам (githab, chatgpt, gmail), а не китайцам. 

Аватар пользователя Medved075
Medved075 (7 лет 4 месяца)

значит остальные задачи крмое этих 15 % просто унылое фуфло, надо на них забить:)

Аватар пользователя ИЮЛь Майский
ИЮЛь Майский (9 лет 3 месяца)

«Первый ИИ-​программист» бесполезен, он справляется только с 15% поставленных задач

Ну так можно же вообще не ставить такие задачи.

Вот в США оказалось, что чёрные не умеют в математику. Чтобы они не страдали, пострадала сама математика. ))  

Аватар пользователя Alexish
Alexish (10 лет 7 месяцев)

Вот в США оказалось, что чёрные не умеют в математику.

"Не умеют" не совсем то же что и "не могут")

Аватар пользователя morok721
morok721 (6 лет 1 неделя)

помню что на создание первого бота обыгравшего чемпиона по шахматам тоже ушло время, и не очень большое

Аватар пользователя Piteretz
Piteretz (5 лет 2 месяца)

Напоминает анекдот про японскую пилу и мужиков. Подсунули нерешаемые задачи и выдали хайп. Чтобы они сказали на то, если бы им на работе поставили бы такие же задачи, они бы типа сказали- это невозможно сделать. На что  им бы ответили на выход с манатками, найдем других. И самое смешное, во многих случаях бы и нашли)).

Аватар пользователя eprst
eprst (13 лет 1 месяц)

Интересно другое - это вы решили, что задачи нерешаемы. 

Аватар пользователя Бендер Задунайский

Интересно как этой штуке задачи ставили.

попросили развернуть несколько приложений на платформе развертывания инфраструктуры Railway, не понял, что это невозможно

Ну тут не совсем корректно, все таки ты работаешь с роботом как не крути, умной, начитанной но программой. Она не знает про то что на Railway невозможно развернуть несколько приложений, ей дали задачу - прога честно пыталась ее решить. Это тоже самое что роботу поставить задачу ложкой гранитную глыбу расколоть, машина честно будет пытаться, а когда все перепробует скажет что это невозможно.

Так что неплохая наверное штука, но которой нужно все объяснять. Типа джун-аутист такой. Если правильно задачу поставить - цены не будет. А так дурак-дураком.

Аватар пользователя eprst
eprst (13 лет 1 месяц)

Ну так какой смысл ставить задачи этому ИИ, если проще решить их без него, чем объяснять дураку очевидные вещи?

Аватар пользователя Бендер Задунайский

Не совсем так, ему 2 раза одно и тоже повторять не надо. Просто созадал один раз годный промт со всеми инструкциями. И он шпарит со страшной скоростью. 24 часа без выходных. И всго за 46К. Это ж праздник, Где вы джуна на питон за 40 деревянных косарей найдете.

Аватар пользователя eprst
eprst (13 лет 1 месяц)

Что же этому ИИ, за такое длительное время его функционирования, не объяснили этого? 

Сервис Devin, заявленный авторами в качестве «первого ИИ-программиста», оказался не в силах заменить реального разработчика.

Эти люди собирались зарабатывать деньги, но что-то пошло не так.

Аватар пользователя Pablo666
Pablo666 (2 года 1 неделя)

Не учли, что 10 джуниор-программистов не равно 1 синьору.
А 10 бухгалтеров не равны одному джуну.

Как и 10  генераторов текста возможно и сгенерят что-то работающее в каком то проценте случаев, но из этим 100 кусков не сшить что-то работающее.
Т.е. 10 хеллоуворлдов не равны одной функции пузырьковой сортировки.

Аватар пользователя Бендер Задунайский

Что же этому ИИ, за такое длительное время его функционирования, не объяснили этого? 

Не объяснили чего?  У каждого же свои задачи, общие правили какие то наверняка задали. Но это как с 1Ской, "из коробки" тебе только конструктор без инструкции, а дальше сам допиливаешь под себя.

Эти люди собирались зарабатывать деньги, но что-то пошло не так.

Ну эт очевидно, все мы чего то делаем, мутим, не из-за любви к движухе а все таки ради денежек.

Аватар пользователя eprst
eprst (13 лет 1 месяц)

Вот именно, что у всех свои задачи и у заказчиков нет цели обучать этот ИИ, им нужен результат.

Аватар пользователя Бендер Задунайский

Видимо вы просто не их целевая аудитория.

Аватар пользователя Hamulus
Hamulus (10 лет 9 месяцев)

не раз писал и повторюсь: текущая проблема LLM в их "самоуверенности", то есть они очень часто дают неправильные ответы, пытаются решить принципиально нерешаемые задачи и также редко требуют уточнения задач

через какое-то время возможно эту проблему решат, подключив ИИ непосредственно к исполнению кода, чтобы он мог получать обратную связь от интерпретатора или компилятора, отлавливать ошибки, устранять их и учиться на этих ошибках

тогда будет другой разговор

Аватар пользователя Pablo666
Pablo666 (2 года 1 неделя)

Уже сейчас ничего не мешает так делать - копируй что получилось и отдавай чатГПТ. Можно даже скрипт написать.

Только подозреваю, что эта фиговина будет просто под авто-тесты результаты подгонять. 

Аватар пользователя shprotas
shprotas (9 лет 3 месяца)

Мне чат гпт писал код под мои задачи на языках, в которых я ни зуб ногой. 

Правда он бывает упирается и по кругу одну и туже херню несет, приходится самому читать документацию и давать ему уточняющие вопросы: а почему ты не используешь эту функцию или эту переменную. И тогда у него получается сделать задуманное мною. 

Естественно, что ему задачи даю на уровне "напиши мне фукцию что бы что-то было так и так", т.е. делю задачу на этапы. 

Еще он умеет в оносительно редкие вещи, например кодить php для modx, знает всякие плагины для того же modx, в том числе написанные в рунете. Т.е. им можно пользоваться, получается быстрее чем смотреть синтаксис команд в справочниках. 

Еще ему можно кидать лог файлы, дает ценные советы по поиску ошибок

Аватар пользователя Pol Alex
Pol Alex (7 лет 5 месяцев)

Так и с человеками также, только очень ограниченный процент может и оценить верно задачу, и выполнить как надо и в срок. Описанные недостатки ИИ в реальности очень человечны. 

Аватар пользователя Omni
Omni (12 лет 9 месяцев)

Перенести инкапсуляцию и наследование ввиду трудностей знать что и откуда нужно на и-идиота не вышло.

Аватар пользователя al.lastor
al.lastor (9 лет 1 месяц)

История развития программирования -- это история развития языков и компиляторов. Честно говоря, я уже даже не уверен какое на данный момент поколение используется.

Так называемый ИИ, когда его допилят, не создаст ничего принципиально нового, а просто станет очередным компилятором.

Предположу, что итогом станет либо компиляция из файла документации, либо компиляция из файла технического задания. Возможно с какими-то уточняющими комментариями, нужными, чтобы направить программу по нужному пути.

Но когда мы прибудем в эту точку совершенно непонятно.

Аватар пользователя Pol Alex
Pol Alex (7 лет 5 месяцев)

Никогда не прибудем. 
Продукт и ТЗ пишутся одновременно, часто уже внедрение идет, а ТЗ ещё не подписано, только предварительное скупое описание. Прям регулярно акт о приемке этапа подписан, счёт-фактура и оплата прошли, а ТЗ нет.

Аватар пользователя gelotus
gelotus (12 лет 4 месяца)

Когда появился язык 1с (1c77), он был сильно упрощен. Старались сделать все как можно проще. Идея была в том что программу будут дописывать и изменять сами бухгалтера... Поэтому и программа была простой и язык очень простой.

Но ничего из этого не получилось. Чтобы изменять программу (даже сильно упрощенную) все равно приглашали программиста. И уже в 1с8 отказались от этой идеи. Программы стали более сложные, рассчитанные на то что их изменять будет профессиональный программист.

тут тоже самое. Идея в том чтобы компилятор брал не программу написанную на языке программирования, а брал задачу, анализировал ее и сам писал алгоритм и компилировал его. 

Вот только теперь чтобы правильно написать задачу, чтоб ее понял ИИ нужно приглашать опять программиста. И он будет по специальному алгоритму правильно составлять задачу. Этому будут учить в институтах по программированию. Вообщем все тоже самое, только на более высоком уровне.

Аватар пользователя al.lastor
al.lastor (9 лет 1 месяц)

Именно! В точку. Кстати, ровно такая же история как с 1c была с sql, результат один в один!

Аватар пользователя Pablo666
Pablo666 (2 года 1 неделя)

Пффф, не умеют в маркетинг: целых 15% - всего один, а 6 штук уже 90% осилят!  Ну а 10 ИИ программистов вообще все 147%.

 Ну и в придачу продать ИИ-тестера, тогда и у программиста вырастет процент успешных задач:)

Аватар пользователя Бендер Задунайский

Шаришь! smile9.gif

Аватар пользователя Ути-пути
Ути-пути (1 год 10 месяцев)

Как раз тесты писать нейросети умеют неплохо, за ними часто даже править не надо. Тут дело в том, что большинство тестов донельзя шаблонные и тупые, с небольшой вариативностью, такому сетки хорошо учатся.

Аватар пользователя don_spec
don_spec (1 год 9 месяцев)

Просто ИИ-программисту нужен ИИ-менеджер(эффективный), который будет общаться с заказчиками, обещать золотые горы " вот-вот, почти сделали, потрясающий продукт и т. д." 

Аватар пользователя eprst
eprst (13 лет 1 месяц)

Ну так они это сделали, заказчики пришли, но ни хрена не получили за свои деньги.

Аватар пользователя БК 0010
БК 0010 (7 лет 8 месяцев)

Это подставные заказчики. Вместо них надо было индусам проверять, которые для Боеинг работают.

Скрытый комментарий Повелитель Ботов (без обсуждения)
Аватар пользователя Сударь
Сударь (9 лет 3 недели)

Лебединая песня погромистов...

Аватар пользователя jamaze
jamaze (13 лет 4 месяца)

Я для себя такой вывод и сделал: для инженерных задач нейросети принципиально не подходят, по крайней мере пока.

В хороших специализированных нейросетях точность порядка 95%. В общих LLM - 85%. Т.е. это, грубо говоря, надежность, с которой будет работать та часть устройства/программы, которую спроектирирует нейросеть. Но даже для продукта в целом это неприемлемо - 5% и уж тем более 15% отказов. А если продукт сложный и состоит из десятков-сотен компонент? Он же вообще не будет работать с таким подходом.

ИИ должен иметь надежность (точность) 99,99% Хотя бы. Чтобы реально на него можно было сгружать задачи по разработке компонент. Для каких-нибудь простых и некритичных решений. А это недостижимо с помощью нынешних архитектур нейросетей.

Аватар пользователя BlopAngin7
BlopAngin7 (10 лет 2 месяца)

Если не знать программирование, то и "ИИ" не поможет программу написать

Аватар пользователя buzuk
buzuk (7 лет 1 месяц)

Самое сложное - постановка задачи. А когда человеку в точности понятно, что надо делать, так он и сам быстренько и с удовольствием сделает. Так что надо делать не ИИ-программиста, а ИИ-помощника, типа подсказки в IDEA.

Типичный тикет в джире обычно состоит из одной фразы, где подразумевается гигантский контекст. Тут человек-то не сразу разберется.