«Первый ИИ-программист» бесполезен, он справляется только с 15% поставленных задач

7.1K 10:23 - 30/Янв/25 Россия

(13 лет 1 месяц)

Сервис Devin, заявленный авторами в качестве «первого ИИ-программиста», оказался не в силах заменить реального разработчика. Грандиозный разрекламированный проект решает лишь малую часть поставленных перед ним задач. Процент успеха находится на уровне 15% – это крайне низкий показатель, тем более, что Devin был запущен сравнительно давно.

Реальный ум лучше виртуального

Сервис Devin, являющийся, по словам авторов, «первым ИИ-программистом» в мире (the first AI software engineer), оказался наредкость плохим разработчиком ПО. Тесты показали, что он едва справляется с работой – он оказался способен выполнить лишь 15% поставленных перед ними задач, пишет The Register.

За проектом Devin стоит компания Cognition AI. Как сообщал CNews, премьера Devin состоялась в марте 2024 г., и до этого времени велась его разработка. С марта по декабрь 2024 г. велось его своего рода закрытое бета-тестирование, в ходе которого проект дорабатывался, и в декабре 2024 г. Devin стал фактически общедоступным.

Однако воспользоваться им смогут лишь те, кто располагает свободными $500 (49,1 тыс. руб. по курсу ЦБ на 24 января 2025 г.). Это стоимость ежемесячной подписки на сервис.

Слишком много обещаний

Если обратиться к официальной документации к Devin, подготовленной Cognition AI, то в ней сказано: «Devin – это автономный инженер-программист ИИ, который может писать, запускать и тестировать код, помогая инженерам-программистам работать над личными задачами или командными проектами». По заверениям разработчиков, Devin в состоянии самостоятельно «просматривать пулл реквесты (запросы на внесение изменений – прим. CNews) поддерживать миграцию кода, реагировать на проблемы по вызову, создавать веб-приложения и даже выполнять задачи персонального помощника, например, заказывать обед в DoorDash», уверяют авторы проекта.

Сервис использует корпоративный мессенджер Slack в качестве основного интерфейса для взаимодействия с пользователем, а также контейнер Docker (программная платформа для разработки, доставки и запуска контейнерных приложений), в котором размещены терминал, браузер, редактор кода и планировщик.

Devin поддерживает интеграцию API с внешними сервисами. Это позволяет ему, например, отправлять сообщения электронной почты от имени пользователя через сервис для транзакционной и маркетинговой электронной почты SendGrid.

У семи нейросетей программист без знаний

Как пишет The Register, Devin представляет собой «сложную систему искусственного интеллекта» (compound AI system). В своей работе этот сервис на опирается сразу на несколько обученных моделей искусственного интеллекта, в число которых входит GPT-4o компании OpenAI. Другими словами, от недочетов одной конкретной ИИ-модели он избавлен и может брать лучшее от разных.

В теории, Devin можно адресовать самые разные задачи, включая миграцию кода. А с учетом того, что за ним стоят продвинутые нейросети с заслуженно хорошей репутацией, можно ожидать, что Devin легко справится с их выполнением. Но на деле этого не происходит.

Реальные разработчики ПО выявили у Devin множество недочетов. Ранее Cognition AI опубликовала промо-ролик, в котором показано, как ИИ-программист автономно выполняет проекты на платформе фрилансеров Upwork. Разработчик программного обеспечения Карл Браун (Carl Brown) проанализировал этот ролик и полностью развенчал его.

Другой эксперт в программировании и по совместительству YouTube-блогер тоже раскритиковал Devin. По его словам тот содержит критические проблемы безопасности.

Позже три специалиста по обработке данных, связанных с лабораторией исследований и разработок в области искусственного интеллекта Answer.AI, протестировали Devin и обнаружили, что он успешно выполнил только 3 из 20 задач. Свои тесты они проводили в январе 2025 г., то есть спустя почти год с момента официально премьеры Devin.

Тестированием занимались Хамель Хусейн (Hamel Husain), Айзек Флат (Isaac Flath) и Джоно Уитакер (Johno Whitaker). Согласно их отчету, на начальном этапе Devin справлялся очень неплохо – например, он успешно перенес данные из базы данных Notion в «Google Таблицы». ИИ-программисту также удалось создать трекер планет для проверки заявлений об исторических положениях Юпитера и Сатурна.

Однако по мере продолжения испытаний трое исследователей столкнулись с проблемами.

«Задачи, которые казались простыми, часто занимали дни, а не часы, и Devin застревал в технических тупиках или выдавал слишком сложные, непригодные решения, – объясняют исследователи в своем отчете. – Еще более тревожной была тенденция Devin продвигаться вперед с задачами, решить которые на самом деле было невозможно».

В качестве примера они привели случай, когда Devin, когда его попросили развернуть несколько приложений на платформе развертывания инфраструктуры Railway, не понял, что это невозможно, и потратил больше дня, пробуя подходы, которые не работали, и придумывая несуществующие функции.

Неутешительный итог

Из 20 задач, представленных Devin, виртуальный программист завершил удовлетворительно только три – две приведенных выше и задание по созданию бота для заблокированного в России мессенджера Discord на языке программирования Python. Три других задачи дали неопределенные результаты, а 14 проектов оказались откровенно проваленными.

Исследователи заявили, что Devin обеспечил отточенный пользовательский интерфейс, который был впечатляющим, когда сам сервис работал корректно.

«Но в этом-то и проблема – это происходило редко», – подчеркнули они.

«Больше всего беспокоила наша неспособность предсказать, какие задачи будут успешными. Даже задачи, похожие на наши ранние победы, терпели неудачу сложными, отнимающими много времени способами. Автономная природа, которая казалась многообещающей, стала обузой – Devin проводил дни, пытаясь найти невозможные решения, вместо того чтобы распознавать фундаментальные препятствия», – подытожили эксперты.

Авторство:

Копия чужих материалов

Использованные источники:

Источник

@Публицистика и обсуждения#Ржака @Социальная инфраструктура#IT-технологии

@Лидеры обсуждений#Перспективный чат

Блог пользователя eprst | Войдите или зарегистрируйтесь, чтобы отправлять комментарии

ИИ не новый бог, а компьютер с программой, созданной для получения суперприбылей. ИИ доступна арифметика (конечные множества), но недоступна высшая математика (бесконечномерные множества). Бесконечное приходится сводить к конечному, что приводит к неопределенным ошибкам. Только человек может принимать важные и сложные решения, а ИИ может облегчить и ускорить процесс (как любой инструмент).

Бетелин:

ИИ - это компьютер с программой, а сам термин "искусственный интеллект" - это красивый эпитет.

ИИ состоит на 90% из маркетинга и только на 10% из реальности.

если объекты, с которыми будет работать ИИ, принадлежат к бесконечномерным множествам. часть информации все равно остается неохваченной.

сводят бесконечное к конечному, фактически создают эмпирические нейронные сети, которые ошибаются. Причем, когда и как, не знает никто.

Отсюда вывод. Наш мир бесконечен, и человек это понимает, а компьютер - нет, ему никак не объяснить, что такое бесконечность, его "разуму" доступна только конечность

Пример простого вопроса ИИ для его самоуничтожения в фильме 1974г))):

Отроки во Вселенной, 1974. А и Б сидели на трубе...

https://vkvideo.ru/video-10429260_456240313?ref_domain=yastatic.net

Войдите или зарегистрируйтесь для комментирования

(7 лет 7 месяцев)11:45-30/Янв/25

В фильме «Отроки во Вселенной». Два вида ИИ. Один вид ИИ (исполнители) перегорали на этом вопросе. А вот второй вид ИИ легко отвечал на этот вопрос.

Войдите или зарегистрируйтесь для комментирования

(5 лет 2 недели)11:49-30/Янв/25

Так и вопрос простой, не с бесконечными множествами

Войдите или зарегистрируйтесь для комментирования

(10 месяцев 1 неделя)10:57-30/Янв/25

У нас на работе тоже запретили пользоваться DeepSeek

Künstliche Intelligenz von DeepSeek in Italien vorerst nicht verfügbar
https://www.zeit.de/digital/2025-01/italien-deepseek-ki-nicht-verfuegbar

Войдите или зарегистрируйтесь для комментирования

(9 лет 3 месяца)13:12-30/Янв/25

У нас на работе тоже запретили пользоваться DeepSeek

Все правильно идеи и данные должны утекать пендосам (githab, chatgpt, gmail), а не китайцам.

Войдите или зарегистрируйтесь для комментирования

(7 лет 4 месяца)10:32-30/Янв/25

значит остальные задачи крмое этих 15 % просто унылое фуфло, надо на них забить:)

Войдите или зарегистрируйтесь для комментирования

(9 лет 3 месяца)10:40-30/Янв/25

«Первый ИИ-программист» бесполезен, он справляется только с 15% поставленных задач

Ну так можно же вообще не ставить такие задачи.

Вот в США оказалось, что чёрные не умеют в математику. Чтобы они не страдали, пострадала сама математика. ))

Войдите или зарегистрируйтесь для комментирования

(10 лет 7 месяцев)10:49-30/Янв/25

Вот в США оказалось, что чёрные не умеют в математику.

"Не умеют" не совсем то же что и "не могут")

Войдите или зарегистрируйтесь для комментирования

(6 лет 1 неделя)10:42-30/Янв/25

помню что на создание первого бота обыгравшего чемпиона по шахматам тоже ушло время, и не очень большое

Войдите или зарегистрируйтесь для комментирования

(5 лет 2 месяца)10:44-30/Янв/25

Напоминает анекдот про японскую пилу и мужиков. Подсунули нерешаемые задачи и выдали хайп. Чтобы они сказали на то, если бы им на работе поставили бы такие же задачи, они бы типа сказали- это невозможно сделать. На что им бы ответили на выход с манатками, найдем других. И самое смешное, во многих случаях бы и нашли)).

Войдите или зарегистрируйтесь для комментирования

(13 лет 1 месяц)10:52-30/Янв/25

Интересно другое - это вы решили, что задачи нерешаемы.

Войдите или зарегистрируйтесь для комментирования

(9 лет 5 месяцев)10:48-30/Янв/25

Интересно как этой штуке задачи ставили.

попросили развернуть несколько приложений на платформе развертывания инфраструктуры Railway, не понял, что это невозможно

Ну тут не совсем корректно, все таки ты работаешь с роботом как не крути, умной, начитанной но программой. Она не знает про то что на Railway невозможно развернуть несколько приложений, ей дали задачу - прога честно пыталась ее решить. Это тоже самое что роботу поставить задачу ложкой гранитную глыбу расколоть, машина честно будет пытаться, а когда все перепробует скажет что это невозможно.

Так что неплохая наверное штука, но которой нужно все объяснять. Типа джун-аутист такой. Если правильно задачу поставить - цены не будет. А так дурак-дураком.

Войдите или зарегистрируйтесь для комментирования

(13 лет 1 месяц)10:54-30/Янв/25

Ну так какой смысл ставить задачи этому ИИ, если проще решить их без него, чем объяснять дураку очевидные вещи?

Войдите или зарегистрируйтесь для комментирования

(9 лет 5 месяцев)11:02-30/Янв/25

Не совсем так, ему 2 раза одно и тоже повторять не надо. Просто созадал один раз годный промт со всеми инструкциями. И он шпарит со страшной скоростью. 24 часа без выходных. И всго за 46К. Это ж праздник, Где вы джуна на питон за 40 деревянных косарей найдете.

Войдите или зарегистрируйтесь для комментирования

(13 лет 1 месяц)11:14-30/Янв/25

Что же этому ИИ, за такое длительное время его функционирования, не объяснили этого?

Сервис Devin, заявленный авторами в качестве «первого ИИ-программиста», оказался не в силах заменить реального разработчика.

Эти люди собирались зарабатывать деньги, но что-то пошло не так.

Войдите или зарегистрируйтесь для комментирования

(2 года 1 неделя)11:20-30/Янв/25

Не учли, что 10 джуниор-программистов не равно 1 синьору.
А 10 бухгалтеров не равны одному джуну.

Как и 10 генераторов текста возможно и сгенерят что-то работающее в каком то проценте случаев, но из этим 100 кусков не сшить что-то работающее.
Т.е. 10 хеллоуворлдов не равны одной функции пузырьковой сортировки.

Войдите или зарегистрируйтесь для комментирования

(9 лет 5 месяцев)11:27-30/Янв/25

Что же этому ИИ, за такое длительное время его функционирования, не объяснили этого?

Не объяснили чего? У каждого же свои задачи, общие правили какие то наверняка задали. Но это как с 1Ской, "из коробки" тебе только конструктор без инструкции, а дальше сам допиливаешь под себя.

Эти люди собирались зарабатывать деньги, но что-то пошло не так.

Ну эт очевидно, все мы чего то делаем, мутим, не из-за любви к движухе а все таки ради денежек.

Войдите или зарегистрируйтесь для комментирования

(13 лет 1 месяц)11:30-30/Янв/25

Вот именно, что у всех свои задачи и у заказчиков нет цели обучать этот ИИ, им нужен результат.

Войдите или зарегистрируйтесь для комментирования

(9 лет 5 месяцев)11:44-30/Янв/25

Видимо вы просто не их целевая аудитория.

Войдите или зарегистрируйтесь для комментирования

(10 лет 9 месяцев)11:01-30/Янв/25

не раз писал и повторюсь: текущая проблема LLM в их "самоуверенности", то есть они очень часто дают неправильные ответы, пытаются решить принципиально нерешаемые задачи и также редко требуют уточнения задач

через какое-то время возможно эту проблему решат, подключив ИИ непосредственно к исполнению кода, чтобы он мог получать обратную связь от интерпретатора или компилятора, отлавливать ошибки, устранять их и учиться на этих ошибках

тогда будет другой разговор

Войдите или зарегистрируйтесь для комментирования

(2 года 1 неделя)11:23-30/Янв/25

Уже сейчас ничего не мешает так делать - копируй что получилось и отдавай чатГПТ. Можно даже скрипт написать.

Только подозреваю, что эта фиговина будет просто под авто-тесты результаты подгонять.

Войдите или зарегистрируйтесь для комментирования

(9 лет 3 месяца)13:24-30/Янв/25

Мне чат гпт писал код под мои задачи на языках, в которых я ни зуб ногой.

Правда он бывает упирается и по кругу одну и туже херню несет, приходится самому читать документацию и давать ему уточняющие вопросы: а почему ты не используешь эту функцию или эту переменную. И тогда у него получается сделать задуманное мною.

Естественно, что ему задачи даю на уровне "напиши мне фукцию что бы что-то было так и так", т.е. делю задачу на этапы.

Еще он умеет в оносительно редкие вещи, например кодить php для modx, знает всякие плагины для того же modx, в том числе написанные в рунете. Т.е. им можно пользоваться, получается быстрее чем смотреть синтаксис команд в справочниках.

Еще ему можно кидать лог файлы, дает ценные советы по поиску ошибок

Войдите или зарегистрируйтесь для комментирования

(7 лет 5 месяцев)11:02-30/Янв/25

Так и с человеками также, только очень ограниченный процент может и оценить верно задачу, и выполнить как надо и в срок. Описанные недостатки ИИ в реальности очень человечны.

Войдите или зарегистрируйтесь для комментирования

(12 лет 9 месяцев)11:11-30/Янв/25

Перенести инкапсуляцию и наследование ввиду трудностей знать что и откуда нужно на и-идиота не вышло.

Войдите или зарегистрируйтесь для комментирования

(9 лет 1 месяц)11:14-30/Янв/25

История развития программирования -- это история развития языков и компиляторов. Честно говоря, я уже даже не уверен какое на данный момент поколение используется.

Так называемый ИИ, когда его допилят, не создаст ничего принципиально нового, а просто станет очередным компилятором.

Предположу, что итогом станет либо компиляция из файла документации, либо компиляция из файла технического задания. Возможно с какими-то уточняющими комментариями, нужными, чтобы направить программу по нужному пути.

Но когда мы прибудем в эту точку совершенно непонятно.

Войдите или зарегистрируйтесь для комментирования

(7 лет 5 месяцев)13:02-30/Янв/25

Никогда не прибудем.
Продукт и ТЗ пишутся одновременно, часто уже внедрение идет, а ТЗ ещё не подписано, только предварительное скупое описание. Прям регулярно акт о приемке этапа подписан, счёт-фактура и оплата прошли, а ТЗ нет.

Войдите или зарегистрируйтесь для комментирования

(12 лет 4 месяца)13:11-30/Янв/25

Когда появился язык 1с (1c77), он был сильно упрощен. Старались сделать все как можно проще. Идея была в том что программу будут дописывать и изменять сами бухгалтера... Поэтому и программа была простой и язык очень простой.

Но ничего из этого не получилось. Чтобы изменять программу (даже сильно упрощенную) все равно приглашали программиста. И уже в 1с8 отказались от этой идеи. Программы стали более сложные, рассчитанные на то что их изменять будет профессиональный программист.

тут тоже самое. Идея в том чтобы компилятор брал не программу написанную на языке программирования, а брал задачу, анализировал ее и сам писал алгоритм и компилировал его.

Вот только теперь чтобы правильно написать задачу, чтоб ее понял ИИ нужно приглашать опять программиста. И он будет по специальному алгоритму правильно составлять задачу. Этому будут учить в институтах по программированию. Вообщем все тоже самое, только на более высоком уровне.

Войдите или зарегистрируйтесь для комментирования

(9 лет 1 месяц)13:18-30/Янв/25

Именно! В точку. Кстати, ровно такая же история как с 1c была с sql, результат один в один!

Войдите или зарегистрируйтесь для комментирования

(2 года 1 неделя)11:16-30/Янв/25

Пффф, не умеют в маркетинг: целых 15% - всего один, а 6 штук уже 90% осилят! Ну а 10 ИИ программистов вообще все 147%.

Ну и в придачу продать ИИ-тестера, тогда и у программиста вырастет процент успешных задач:)

Войдите или зарегистрируйтесь для комментирования

(9 лет 5 месяцев)11:30-30/Янв/25

Шаришь!

Войдите или зарегистрируйтесь для комментирования

(1 год 10 месяцев)11:57-30/Янв/25

Как раз тесты писать нейросети умеют неплохо, за ними часто даже править не надо. Тут дело в том, что большинство тестов донельзя шаблонные и тупые, с небольшой вариативностью, такому сетки хорошо учатся.

Войдите или зарегистрируйтесь для комментирования

(1 год 9 месяцев)11:18-30/Янв/25

Просто ИИ-программисту нужен ИИ-менеджер(эффективный), который будет общаться с заказчиками, обещать золотые горы " вот-вот, почти сделали, потрясающий продукт и т. д."

Войдите или зарегистрируйтесь для комментирования

(13 лет 1 месяц)11:25-30/Янв/25

Ну так они это сделали, заказчики пришли, но ни хрена не получили за свои деньги.

Войдите или зарегистрируйтесь для комментирования

(7 лет 8 месяцев)11:53-30/Янв/25

Это подставные заказчики. Вместо них надо было индусам проверять, которые для Боеинг работают.

Войдите или зарегистрируйтесь для комментирования

Скрытый комментарий (без обсуждения)

(9 лет 3 недели)11:59-30/Янв/25

Лебединая песня погромистов...

Войдите или зарегистрируйтесь для комментирования

(13 лет 4 месяца)12:12-30/Янв/25

Я для себя такой вывод и сделал: для инженерных задач нейросети принципиально не подходят, по крайней мере пока.

В хороших специализированных нейросетях точность порядка 95%. В общих LLM - 85%. Т.е. это, грубо говоря, надежность, с которой будет работать та часть устройства/программы, которую спроектирирует нейросеть. Но даже для продукта в целом это неприемлемо - 5% и уж тем более 15% отказов. А если продукт сложный и состоит из десятков-сотен компонент? Он же вообще не будет работать с таким подходом.

ИИ должен иметь надежность (точность) 99,99% Хотя бы. Чтобы реально на него можно было сгружать задачи по разработке компонент. Для каких-нибудь простых и некритичных решений. А это недостижимо с помощью нынешних архитектур нейросетей.

Войдите или зарегистрируйтесь для комментирования

(10 лет 2 месяца)16:10-30/Янв/25

Если не знать программирование, то и "ИИ" не поможет программу написать

Войдите или зарегистрируйтесь для комментирования

(7 лет 1 месяц)21:45-30/Янв/25

Самое сложное - постановка задачи. А когда человеку в точности понятно, что надо делать, так он и сам быстренько и с удовольствием сделает. Так что надо делать не ИИ-программиста, а ИИ-помощника, типа подсказки в IDEA.

Типичный тикет в джире обычно состоит из одной фразы, где подразумевается гигантский контекст. Тут человек-то не сразу разберется.

Войдите или зарегистрируйтесь для комментирования

«Пер­вый ИИ-​программист» бес­по­ле­зен, он справ­ля­ет­ся толь­ко с 15% по­став­лен­ных задач

Ре­аль­ный ум лучше вир­ту­аль­но­го

Слиш­ком много обе­ща­ний

У семи ней­ро­се­тей про­грам­мист без зна­ний

Неуте­ши­тель­ный итог

Комментарии

От­ро­ки во Все­лен­ной, 1974. А и Б си­де­ли на трубе...

«Первый ИИ-программист» бесполезен, он справляется только с 15% поставленных задач

Реальный ум лучше виртуального

Слишком много обещаний

У семи нейросетей программист без знаний

Неутешительный итог

Отроки во Вселенной, 1974. А и Б сидели на трубе...