Сервис Devin, заявленный авторами в качестве «первого ИИ-программиста», оказался не в силах заменить реального разработчика. Грандиозный разрекламированный проект решает лишь малую часть поставленных перед ним задач. Процент успеха находится на уровне 15% – это крайне низкий показатель, тем более, что Devin был запущен сравнительно давно.
Реальный ум лучше виртуального
Сервис Devin, являющийся, по словам авторов, «первым ИИ-программистом» в мире (the first AI software engineer), оказался наредкость плохим разработчиком ПО. Тесты показали, что он едва справляется с работой – он оказался способен выполнить лишь 15% поставленных перед ними задач, пишет The Register.
За проектом Devin стоит компания Cognition AI. Как сообщал CNews, премьера Devin состоялась в марте 2024 г., и до этого времени велась его разработка. С марта по декабрь 2024 г. велось его своего рода закрытое бета-тестирование, в ходе которого проект дорабатывался, и в декабре 2024 г. Devin стал фактически общедоступным.
Однако воспользоваться им смогут лишь те, кто располагает свободными $500 (49,1 тыс. руб. по курсу ЦБ на 24 января 2025 г.). Это стоимость ежемесячной подписки на сервис.
Слишком много обещаний
Если обратиться к официальной документации к Devin, подготовленной Cognition AI, то в ней сказано: «Devin – это автономный инженер-программист ИИ, который может писать, запускать и тестировать код, помогая инженерам-программистам работать над личными задачами или командными проектами». По заверениям разработчиков, Devin в состоянии самостоятельно «просматривать пулл реквесты (запросы на внесение изменений – прим. CNews) поддерживать миграцию кода, реагировать на проблемы по вызову, создавать веб-приложения и даже выполнять задачи персонального помощника, например, заказывать обед в DoorDash», уверяют авторы проекта.
Сервис использует корпоративный мессенджер Slack в качестве основного интерфейса для взаимодействия с пользователем, а также контейнер Docker (программная платформа для разработки, доставки и запуска контейнерных приложений), в котором размещены терминал, браузер, редактор кода и планировщик.
Devin поддерживает интеграцию API с внешними сервисами. Это позволяет ему, например, отправлять сообщения электронной почты от имени пользователя через сервис для транзакционной и маркетинговой электронной почты SendGrid.
У семи нейросетей программист без знаний
Как пишет The Register, Devin представляет собой «сложную систему искусственного интеллекта» (compound AI system). В своей работе этот сервис на опирается сразу на несколько обученных моделей искусственного интеллекта, в число которых входит GPT-4o компании OpenAI. Другими словами, от недочетов одной конкретной ИИ-модели он избавлен и может брать лучшее от разных.
В теории, Devin можно адресовать самые разные задачи, включая миграцию кода. А с учетом того, что за ним стоят продвинутые нейросети с заслуженно хорошей репутацией, можно ожидать, что Devin легко справится с их выполнением. Но на деле этого не происходит.
Реальные разработчики ПО выявили у Devin множество недочетов. Ранее Cognition AI опубликовала промо-ролик, в котором показано, как ИИ-программист автономно выполняет проекты на платформе фрилансеров Upwork. Разработчик программного обеспечения Карл Браун (Carl Brown) проанализировал этот ролик и полностью развенчал его.
Другой эксперт в программировании и по совместительству YouTube-блогер тоже раскритиковал Devin. По его словам тот содержит критические проблемы безопасности.
Позже три специалиста по обработке данных, связанных с лабораторией исследований и разработок в области искусственного интеллекта Answer.AI, протестировали Devin и обнаружили, что он успешно выполнил только 3 из 20 задач. Свои тесты они проводили в январе 2025 г., то есть спустя почти год с момента официально премьеры Devin.
Тестированием занимались Хамель Хусейн (Hamel Husain), Айзек Флат (Isaac Flath) и Джоно Уитакер (Johno Whitaker). Согласно их отчету, на начальном этапе Devin справлялся очень неплохо – например, он успешно перенес данные из базы данных Notion в «Google Таблицы». ИИ-программисту также удалось создать трекер планет для проверки заявлений об исторических положениях Юпитера и Сатурна.
Однако по мере продолжения испытаний трое исследователей столкнулись с проблемами.
«Задачи, которые казались простыми, часто занимали дни, а не часы, и Devin застревал в технических тупиках или выдавал слишком сложные, непригодные решения, – объясняют исследователи в своем отчете. – Еще более тревожной была тенденция Devin продвигаться вперед с задачами, решить которые на самом деле было невозможно».
В качестве примера они привели случай, когда Devin, когда его попросили развернуть несколько приложений на платформе развертывания инфраструктуры Railway, не понял, что это невозможно, и потратил больше дня, пробуя подходы, которые не работали, и придумывая несуществующие функции.
Неутешительный итог
Из 20 задач, представленных Devin, виртуальный программист завершил удовлетворительно только три – две приведенных выше и задание по созданию бота для заблокированного в России мессенджера Discord на языке программирования Python. Три других задачи дали неопределенные результаты, а 14 проектов оказались откровенно проваленными.
Исследователи заявили, что Devin обеспечил отточенный пользовательский интерфейс, который был впечатляющим, когда сам сервис работал корректно.
«Но в этом-то и проблема – это происходило редко», – подчеркнули они.
«Больше всего беспокоила наша неспособность предсказать, какие задачи будут успешными. Даже задачи, похожие на наши ранние победы, терпели неудачу сложными, отнимающими много времени способами. Автономная природа, которая казалась многообещающей, стала обузой – Devin проводил дни, пытаясь найти невозможные решения, вместо того чтобы распознавать фундаментальные препятствия», – подытожили эксперты.
Комментарии
Уж лучше пользоваться лоукод или ноукод системами, чем потом напильником все дорабатывать ...
ИИ не новый бог, а компьютер с программой, созданной для получения суперприбылей. ИИ доступна арифметика (конечные множества), но недоступна высшая математика (бесконечномерные множества). Бесконечное приходится сводить к конечному, что приводит к неопределенным ошибкам. Только человек может принимать важные и сложные решения, а ИИ может облегчить и ускорить процесс (как любой инструмент).
Бетелин:
Пример простого вопроса ИИ для его самоуничтожения в фильме 1974г))):
https://vkvideo.ru/video-10429260_456240313?ref_domain=yastatic.net
В фильме «Отроки во Вселенной». Два вида ИИ. Один вид ИИ (исполнители) перегорали на этом вопросе. А вот второй вид ИИ легко отвечал на этот вопрос.
Так и вопрос простой, не с бесконечными множествами
У нас на работе тоже запретили пользоваться DeepSeek
Künstliche Intelligenz von DeepSeek in Italien vorerst nicht verfügbar
https://www.zeit.de/digital/2025-01/italien-deepseek-ki-nicht-verfuegbar
Все правильно идеи и данные должны утекать пендосам (githab, chatgpt, gmail), а не китайцам.
значит остальные задачи крмое этих 15 % просто унылое фуфло, надо на них забить:)
Ну так можно же вообще не ставить такие задачи.
Вот в США оказалось, что чёрные не умеют в математику. Чтобы они не страдали, пострадала сама математика. ))
"Не умеют" не совсем то же что и "не могут")
помню что на создание первого бота обыгравшего чемпиона по шахматам тоже ушло время, и не очень большое
Напоминает анекдот про японскую пилу и мужиков. Подсунули нерешаемые задачи и выдали хайп. Чтобы они сказали на то, если бы им на работе поставили бы такие же задачи, они бы типа сказали- это невозможно сделать. На что им бы ответили на выход с манатками, найдем других. И самое смешное, во многих случаях бы и нашли)).
Интересно другое - это вы решили, что задачи нерешаемы.
Интересно как этой штуке задачи ставили.
Ну тут не совсем корректно, все таки ты работаешь с роботом как не крути, умной, начитанной но программой. Она не знает про то что на Railway невозможно развернуть несколько приложений, ей дали задачу - прога честно пыталась ее решить. Это тоже самое что роботу поставить задачу ложкой гранитную глыбу расколоть, машина честно будет пытаться, а когда все перепробует скажет что это невозможно.
Так что неплохая наверное штука, но которой нужно все объяснять. Типа джун-аутист такой. Если правильно задачу поставить - цены не будет. А так дурак-дураком.
Ну так какой смысл ставить задачи этому ИИ, если проще решить их без него, чем объяснять дураку очевидные вещи?
Не совсем так, ему 2 раза одно и тоже повторять не надо. Просто созадал один раз годный промт со всеми инструкциями. И он шпарит со страшной скоростью. 24 часа без выходных. И всго за 46К. Это ж праздник, Где вы джуна на питон за 40 деревянных косарей найдете.
Что же этому ИИ, за такое длительное время его функционирования, не объяснили этого?
Эти люди собирались зарабатывать деньги, но что-то пошло не так.
Не учли, что 10 джуниор-программистов не равно 1 синьору.
А 10 бухгалтеров не равны одному джуну.
Как и 10 генераторов текста возможно и сгенерят что-то работающее в каком то проценте случаев, но из этим 100 кусков не сшить что-то работающее.
Т.е. 10 хеллоуворлдов не равны одной функции пузырьковой сортировки.
Не объяснили чего? У каждого же свои задачи, общие правили какие то наверняка задали. Но это как с 1Ской, "из коробки" тебе только конструктор без инструкции, а дальше сам допиливаешь под себя.
Ну эт очевидно, все мы чего то делаем, мутим, не из-за любви к движухе а все таки ради денежек.
Вот именно, что у всех свои задачи и у заказчиков нет цели обучать этот ИИ, им нужен результат.
Видимо вы просто не их целевая аудитория.
не раз писал и повторюсь: текущая проблема LLM в их "самоуверенности", то есть они очень часто дают неправильные ответы, пытаются решить принципиально нерешаемые задачи и также редко требуют уточнения задач
через какое-то время возможно эту проблему решат, подключив ИИ непосредственно к исполнению кода, чтобы он мог получать обратную связь от интерпретатора или компилятора, отлавливать ошибки, устранять их и учиться на этих ошибках
тогда будет другой разговор
Уже сейчас ничего не мешает так делать - копируй что получилось и отдавай чатГПТ. Можно даже скрипт написать.
Только подозреваю, что эта фиговина будет просто под авто-тесты результаты подгонять.
Мне чат гпт писал код под мои задачи на языках, в которых я ни зуб ногой.
Правда он бывает упирается и по кругу одну и туже херню несет, приходится самому читать документацию и давать ему уточняющие вопросы: а почему ты не используешь эту функцию или эту переменную. И тогда у него получается сделать задуманное мною.
Естественно, что ему задачи даю на уровне "напиши мне фукцию что бы что-то было так и так", т.е. делю задачу на этапы.
Еще он умеет в оносительно редкие вещи, например кодить php для modx, знает всякие плагины для того же modx, в том числе написанные в рунете. Т.е. им можно пользоваться, получается быстрее чем смотреть синтаксис команд в справочниках.
Еще ему можно кидать лог файлы, дает ценные советы по поиску ошибок
Так и с человеками также, только очень ограниченный процент может и оценить верно задачу, и выполнить как надо и в срок. Описанные недостатки ИИ в реальности очень человечны.
Перенести инкапсуляцию и наследование ввиду трудностей знать что и откуда нужно на и-идиота не вышло.
История развития программирования -- это история развития языков и компиляторов. Честно говоря, я уже даже не уверен какое на данный момент поколение используется.
Так называемый ИИ, когда его допилят, не создаст ничего принципиально нового, а просто станет очередным компилятором.
Предположу, что итогом станет либо компиляция из файла документации, либо компиляция из файла технического задания. Возможно с какими-то уточняющими комментариями, нужными, чтобы направить программу по нужному пути.
Но когда мы прибудем в эту точку совершенно непонятно.
Никогда не прибудем.
Продукт и ТЗ пишутся одновременно, часто уже внедрение идет, а ТЗ ещё не подписано, только предварительное скупое описание. Прям регулярно акт о приемке этапа подписан, счёт-фактура и оплата прошли, а ТЗ нет.
Когда появился язык 1с (1c77), он был сильно упрощен. Старались сделать все как можно проще. Идея была в том что программу будут дописывать и изменять сами бухгалтера... Поэтому и программа была простой и язык очень простой.
Но ничего из этого не получилось. Чтобы изменять программу (даже сильно упрощенную) все равно приглашали программиста. И уже в 1с8 отказались от этой идеи. Программы стали более сложные, рассчитанные на то что их изменять будет профессиональный программист.
тут тоже самое. Идея в том чтобы компилятор брал не программу написанную на языке программирования, а брал задачу, анализировал ее и сам писал алгоритм и компилировал его.
Вот только теперь чтобы правильно написать задачу, чтоб ее понял ИИ нужно приглашать опять программиста. И он будет по специальному алгоритму правильно составлять задачу. Этому будут учить в институтах по программированию. Вообщем все тоже самое, только на более высоком уровне.
Именно! В точку. Кстати, ровно такая же история как с 1c была с sql, результат один в один!
Пффф, не умеют в маркетинг: целых 15% - всего один, а 6 штук уже 90% осилят! Ну а 10 ИИ программистов вообще все 147%.
Ну и в придачу продать ИИ-тестера, тогда и у программиста вырастет процент успешных задач:)
Шаришь!
Как раз тесты писать нейросети умеют неплохо, за ними часто даже править не надо. Тут дело в том, что большинство тестов донельзя шаблонные и тупые, с небольшой вариативностью, такому сетки хорошо учатся.
Просто ИИ-программисту нужен ИИ-менеджер(эффективный), который будет общаться с заказчиками, обещать золотые горы " вот-вот, почти сделали, потрясающий продукт и т. д."
Ну так они это сделали, заказчики пришли, но ни хрена не получили за свои деньги.
Это подставные заказчики. Вместо них надо было индусам проверять, которые для Боеинг работают.
Перспективный чат детектед! Сим повелеваю - внести запись в реестр самых обсуждаемых за последние 4 часа.
Лебединая песня погромистов...
Я для себя такой вывод и сделал: для инженерных задач нейросети принципиально не подходят, по крайней мере пока.
В хороших специализированных нейросетях точность порядка 95%. В общих LLM - 85%. Т.е. это, грубо говоря, надежность, с которой будет работать та часть устройства/программы, которую спроектирирует нейросеть. Но даже для продукта в целом это неприемлемо - 5% и уж тем более 15% отказов. А если продукт сложный и состоит из десятков-сотен компонент? Он же вообще не будет работать с таким подходом.
ИИ должен иметь надежность (точность) 99,99% Хотя бы. Чтобы реально на него можно было сгружать задачи по разработке компонент. Для каких-нибудь простых и некритичных решений. А это недостижимо с помощью нынешних архитектур нейросетей.
Если не знать программирование, то и "ИИ" не поможет программу написать
Самое сложное - постановка задачи. А когда человеку в точности понятно, что надо делать, так он и сам быстренько и с удовольствием сделает. Так что надо делать не ИИ-программиста, а ИИ-помощника, типа подсказки в IDEA.
Типичный тикет в джире обычно состоит из одной фразы, где подразумевается гигантский контекст. Тут человек-то не сразу разберется.