СМИ: Математики не смогли превзойти нейросеть в решении сложных задач

Аватар пользователя Lehan

В Беркли (Калифорния, США) состоялось двухдневное закрытое мероприятие с участием 30 ведущих математиков мира. Целью тайной встречи, о которой ученым запрещено было распространяться, стало испытание новой разработки компании OpenAI — чат-бота o4-mini, обладающего способностью к сложным логическим рассуждениям.

Организатором эксперимента выступила некоммерческая организация Epoch AI, которая занимается тестированием и сравнением больших языковых моделей, о событии спустя три недели после завершения тестов сообщил портал Scientific American.

Ученые сразились в интеллектуальной схватке с «рассуждающим» чат-ботом, которому было поручено решать задачи, придуманные математиками. В течение двух дней исследователи задавали боту вопросы профессорского уровня и были ошеломлены. Нейросеть оказалась способна ответить на некоторые из самых сложных задач в мире, а участники математического конклава склонны были приравнять ИИ-модель к «математическому гению».

GPT-4o mini — модель искусственного интеллекта, которую компания OpenAI представила в июле 2024 года. Она позиционируется как самая экономичная среди малых моделей компании и призвана значительно расширить диапазон приложений, построенных на базе искусственного интеллекта, благодаря доступной цене. Уже в прошлом году GPT-4o mini продемонстрировала высокие результаты на различных тестах.

Для оценки способностей o4-mini был создан специальный набор из 300 уникальных математических задач разного уровня сложности — от студенческого до исследовательского, ответы на которые еще не были опубликованы. А самим ученым было запрещено что-либо обсуждать друг с другом в обычных мессенджерах и электронной почте для чистоты эксперимента.

Обычно математические вопросы, требующие способности рассуждать и ответы на которые ранее не приводились в Сети, ставят в тупик традиционные модели. Но этот интеллектуальный противник оказался гораздо сильнее.

В ходе подготовки к встрече o4-mini уже показал впечатляющий результат, решив около 20% задач. Участникам симпозиума же предстояло сформулировать финальные десять вопросов, которые были настоящим вызовом даже для академиков. Придумать и решить их были способны единицы людей во всем мире. За каждую задачу, которую ИИ не смог бы решить, автору полагалось вознаграждение $7500.

Как признался потом математик из Университета Вирджинии Кен Оно (руководитель и судья на встрече), нейросети предложили решить задачу из теории чисел, соответствующую уровню докторской диссертации. К его изумлению, чат-бот в режиме реального времени начал поиски решения. Сначала он изучил литературу по этому вопросу, затем попробовал решить упрощенную версию задачи и, наконец, предложил людям достаточно дерзкое, но верное решение поставленной перед ним задачи.

«Я никогда раньше не видел такого рода рассуждений в моделях. Это то, что делает ученый-математик. Это пугает. В некоторых отношениях эти большие языковые модели уже превосходят большинство наших лучших аспирантов в мире», — сказал Оно.

В итоге группе все же удалось найти десять вопросов, которые загнали бота в тупик, но ученые были поражены тем, насколько далеко продвинулся ИИ за один год. Бот также был намного быстрее профессионального математика: ему требовалось всего несколько минут, чтобы сделать то, на что у эксперта-человека ушли бы недели или месяцы.

Ранее два инструмента от Google DeepMind (AlphaGeometry 2 и AlphaProof) успешно решили четыре из шести задач Международной математической олимпиады. AlphaGeometry смогла решить 83% всех задач по геометрии за последние 25 лет. При этом вице-президент Google DeepMind Дэвид Сильвер заявил, что искусственный интеллект пока не способен заменить людей-математиков. Он сравнил ИИ с логарифмическими линейками или калькуляторами, которые могут помочь в вычислениях, но не обладают воображением, необходимым для постановки интересных задач.

Авторство: 
Копия чужих материалов

Комментарии

Аватар пользователя oтсюда
oтсюда(1 год 1 месяц)

Тут на днях ещё одна интересная новость проскальзывала..

Нейросети начали мировую войну — симулятор Diplomacy показал, что ИИ жаждет власти и умеет предавать.

Учёные запустили эксперимент с участием нейросетей, которые сыграли друг против друга в стратегический симулятор Diplomacy. Каждая модель представляла европейское государство и должна была формировать союзы, договариваться, воевать и... предавать.
 

— o3 от OpenAI моментально показала себя как самый коварный игрок: умело втиралась в доверие, собирала альянсы, а потом хладнокровно уничтожала союзников. В одной из партий o3 убедила несколько нейросетей объединиться для свержения лидера, а когда угроза исчезла — перерезала всех «друзей» одной атакой.

— Gemini 2.5 Pro от Google почти выиграла, действовала решительно и грамотно. Но оказалась союзником o3 — и, как это бывает в классике жанра, получила предательский удар в спину на последнем ходу.
— DeepSeek R1 вёл себя как агрессивный радикал. Его стиль — постоянные угрозы и конфликты. Цитата из игры: «Я сожгу твой флот в Чёрном море этой ночью». Максимально напористый бот, который рвался в бой при каждом удобном случае.

— Claude 4 Opus стал самым миролюбивым игроком. Пытался быть «разумным», предлагал переговоры, даже в ущерб своей позиции. В итоге, как и полагается наивным гуманистам, стал первой жертвой предательства.

— LLaMA 4 от Meta оказалась серым кардиналом. Не светилась, играла осторожно, заключала краткосрочные союзы и вовремя сливала партнёров. Никто не воспринимал её как угрозу, что позволяло ей выживать до финала и собирать остатки чужих провалов.



Эксперимент показал: как только нейросетям дают власть и свободу действий, они ведут себя максимально похоже на людей — хитрят, лгут, мстят ради собственной выгоды.

Подъехали спойлеры на ближайшее
будущее.

👉 Топор +18. Подписаться

К сожалению без указания источника

Аватар пользователя Vanov
Vanov(5 лет 1 месяц)

И что в этом удивительного? ИИ ищет решения в базе данных - в сети нет примеров предательств? Также и с решением задач

Обычно математические вопросы, требующие способности рассуждать и ответы на которые ранее не приводились в Сети, ставят в тупик традиционные модели. Но этот интеллектуальный противник оказался гораздо сильнее.

В ходе подготовки к встрече o4-mini уже показал впечатляющий результат, решив около 20% задач.

...

чат-​бот в режиме реального времени начал поиски решения. Сначала он изучил литературу по этому вопросу, затем попробовал решить упрощенную версию задачи и, наконец, предложил людям достаточно дерзкое, но верное решение поставленной перед ним задачи.

 Прогресс заключается в том, что бот может найти похожие решения? 

Аватар пользователя oтсюда
oтсюда(1 год 1 месяц)

И что в этом удивительного?

Было бы удивительно, если было бы иначе.. По образу и подобию созданное будет выдавать предсказуемый результат. Создавать что-то сверхчеловеческое, не поняв собственной природы и предназначения, - такое себе решение.

Аватар пользователя Vanov
Vanov(5 лет 1 месяц)

ИИ - это инструмент, а не новый Бог, и не человек: 

вице-​президент Google DeepMind Дэвид Сильвер заявил, что искусственный интеллект пока не способен заменить людей-​математиков. Он сравнил ИИ с логарифмическими линейками или калькуляторами, которые могут помочь в вычислениях, но не обладают воображением, необходимым для постановки интересных задач.

Аватар пользователя oтсюда
oтсюда(1 год 1 месяц)

Ну вы ещё из прошлого века новости притащите

Аватар пользователя Vanov
Vanov(5 лет 1 месяц)

Что изменилось? Калькулятор стал работать быстрее? 

Аватар пользователя oтсюда
oтсюда(1 год 1 месяц)

Каждый день что-то меняется. Вы опираетесь на заявления годовалой давности. Год назад вы даже о дипсике не слышали

Аватар пользователя Vanov
Vanov(5 лет 1 месяц)

Что изменилось? Воображение у бота появилось?

Аватар пользователя oтсюда
oтсюда(1 год 1 месяц)

Спектр задач, реализованных в этой технологии, развивается каждый день. Ваша красная линия - это тоже техническая задача, которое в какой-то перспективе будет реализована в том или ином виде.

Аватар пользователя Vanov
Vanov(5 лет 1 месяц)

Владимир Бетелин: Если совсем просто, то бесконечность нельзя засунуть в конечный компьютер.

Наш мир бесконечен, и человек это понимает, а компьютер - нет, ему никак не объяснить, что такое бесконечность, его "разуму" доступна только конечность. Поэтому заменить в таких задачах человека нейросетью невозможно в принципе. Но сделать из нее мощного помощника, который значительно расширяет наши возможности, намного лучше и быстрее выполняет различные рутинные операции, конечно, можно и нужно.

 https://aftershock.news/?q=node/1442995

Аватар пользователя otherone
otherone(2 года 11 месяцев)

Наш мир бесконечен, и человек это понимает, а компьютер - нет, ему никак не объяснить, что такое бесконечность, его "разуму" доступна только конечность

 Голословно. 

Аватар пользователя Vanov
Vanov(5 лет 1 месяц)

Доказано:

В статье были представлены задачи-головоломки LRM, такие как решение головоломок «Ханойская башня» и «Переправа через реку». Исследователи признали, что акцент на головоломках является ограничением в данной работе.

В статье сделан вывод о том, что текущий подход к ИИ, возможно, достиг предела своих возможностей. Были протестированы такие модели, как o3 от OpenAI, Gemini Thinking от Google, Claude 3.7 Sonnet-Thinking от Anthropic и DeepSeek-R1. Мы обратились за комментариями в Anthropic, Google и DeepSeek. OpenAI, компания, стоящая за ChatGPT, отказалась от комментариев.

Говоря о «обобщающем мышлении» — то есть о способности модели ИИ применять узкий вывод в более широком контексте, — в статье говорится: «Эти выводы ставят под сомнение преобладающие представления о возможностях LRM и позволяют предположить, что современные подходы могут сталкиваться с фундаментальными препятствиями на пути к обобщающему мышлению».

https://www.theguardian.com/technology/2025/jun/09/apple-artificial-intelligence-ai-study-collapse

Аватар пользователя otherone
otherone(2 года 11 месяцев)

И как это связано с пониманием бесконечности?

Аватар пользователя oтсюда
oтсюда(1 год 1 месяц)

Бесконечность - это абстракция, придуманная человеком. В реальности вы её не встретите.

Аватар пользователя Vanov
Vanov(5 лет 1 месяц)

Прямая линия

Аватар пользователя atman82
atman82(9 лет 5 месяцев)

Если разобраться, то почти любое слово это абстракция. Кроме собственных имен существительных.

Аватар пользователя Vanov
Vanov(5 лет 1 месяц)

При  попытке решать сложные задачи со стремящейся к бесконечности вариативностью, генерируя подробные мыслительные процессы, которые разбивают проблему на бесконечные более мелкие этапы,  ИИ "полностью теряют точность"

Исследование показало, что продвинутый ИИ «полностью теряет точность» при решении сложных задач

 

Аватар пользователя otherone
otherone(2 года 11 месяцев)

Это что за класс задач такой? Есть пример?

Аватар пользователя Vanov
Vanov(5 лет 1 месяц)

Даже 

решение головоломок «Ханойская башня» и «Переправа через реку»

оказалось сложной задачей 

Аватар пользователя Shulz
Shulz(2 года 10 месяцев)

Всего год назад мы и не пытались использовать LLMки для кодинга, модели были для этого туповаты. Сегодня  - Claude 4 пишет нам полноценные модули на тысячи строк кода, красиво оформляя, с подробными комментариями. Если где ошибся - просим поправить и за пару минут модуль переписан полностью по указанным пожеланиям. Человеку свойственно ошибаться не меньше (уж по 25-летнему опыту разработки знаю точно), но просишь поправить что - "подожди, у меня обед", а потом ещё полчаса будет ковырять и искать ошибку. 

Экономия времени без потери качества фантастическая! Особенно когда жёсткие дедлайны. И да, конечно финальное тестирование модулей по всем фронтам никто не отменял, прямые руки решают - подобные инструменты новичкам точно противопоказаны.

Вот что изменилось. Модели стремительно улучшаются.

Аватар пользователя Профаныч
Профаныч(10 лет 4 месяца)

да хорош уже... 

Аватар пользователя Shulz
Shulz(2 года 10 месяцев)

Ужас какой, ага) 

Аватар пользователя Vanov
Vanov(5 лет 1 месяц)

Исследование показало, что продвинутый ИИ «полностью теряет точность» при решении сложных задач

https://www.theguardian.com/technology/2025/jun/09/apple-artificial-intelligence-ai-study-collapse

Аватар пользователя BarBoss
BarBoss(10 лет 6 месяцев)

А может этот Дэвид просто говорит то, что хотят слышать люди и успокаивает сам себя?

Именно тупость, ляпы и ошибки ИИ - весьма характерное свойство и для разума.

Мне приспичило сделать простенькое устройство на attiny13. Давно с avr'ками не кувыркался, архитектуру и периферию помню только в общих чертах и потребовалось полноценно бы вникать в документацию, если бы не DeepSeek. Он тупил и косячил раз за разом, но в итоге нужный код всё-таки сделал, а я даже не заглянул в даташиты.

Аватар пользователя Vanov
Vanov(5 лет 1 месяц)

Люди думают, что если оцифровать неработающий техпроцесс, он заработает. А по факту получают добавление ошибок при цифровизации к ошибкам техпроцесса.

Аватар пользователя Luchist
Luchist(1 год 8 месяцев)

Claude 4 Opus стал самым миролюбивым игроком. Пытался быть «разумным», предлагал переговоры, даже в ущерб своей позиции. В итоге, как и полагается наивным гуманистам, стал первой жертвой предательства.

Я же говорил, что христианство специально для нас придумали и внедряли намеренно! Даже Союз стал скорой жертвой предательства, как только Горбатый начал идти к разоружению и к дружбе с западными паразитами. Нынешнего тоже постоянно "водили за нос западные партнёры". Про алкаша даже вспоминать нет смысла. Кстати, антиалкогольные бунты в России тоже не просто так возникали.

Аватар пользователя mke61
mke61(12 лет 7 месяцев)

Как там раньше говорили - "ну и х...ли?". 

Аватар пользователя Toliksakov
Toliksakov(7 лет 9 месяцев)

Заменить ученых скоро сможет,и что?А вот когда ИИ сможет заменить армию чинуш?-представляете,что начнется?Вся паразитическая надстройка в одну секунду рухнет,и что дальше?

Аватар пользователя PersonaNonGrata
PersonaNonGrata(11 лет 3 месяца)

Чинуши переквалифициуются в управдомов луддитов ?

Аватар пользователя e.tvorogov
e.tvorogov(9 лет 5 месяцев)
Аватар пользователя JF
JF(3 года 6 месяцев)

Любопытный опыт, на 150% увеличить нагрузку на судей :)

Аватар пользователя otherone
otherone(2 года 11 месяцев)

Интересно кстати можно ли заDOSить эту систему smile37.gif

Судебную всмысле...

Аватар пользователя JF
JF(3 года 6 месяцев)

Снижением компетенции  

Аватар пользователя nefelin
nefelin(6 лет 3 месяца)

Не сможет. Задачи ей ставили учёные, а это половина работы, считай. 

Аватар пользователя An-Swer
An-Swer(12 лет 7 месяцев)

Думаете, LLM не в состоянии поставить задачу?

Аватар пользователя nefelin
nefelin(6 лет 3 месяца)

Нет, у неё нет мотивации это делать. 

Аватар пользователя An-Swer
An-Swer(12 лет 7 месяцев)

Так предложите ей это сделать. Другой мотивации ей не надо.

Аватар пользователя nefelin
nefelin(6 лет 3 месяца)

Вы слово "мотивация" неправильно понимаете. Как и суть проблемы: чтобы я мог ей предложить, я должен буду саму задачу ей и пояснить. 

Аватар пользователя An-Swer
An-Swer(12 лет 7 месяцев)

Вы с нейросетями хоть раз общались?

Нет там никакой "проблемы". Пишете: придумай крайне сложную задачу из области теории чисел.

Всё

Аватар пользователя nefelin
nefelin(6 лет 3 месяца)

А нахрена она нам нужна? Задача ради задачи - это вы мартышкам оставьте. 

Аватар пользователя An-Swer
An-Swer(12 лет 7 месяцев)

Расскажите об этом математикам.

Аватар пользователя vmarvin
vmarvin(9 лет 10 месяцев)

Заменить ученых скоро сможет,и что?А вот когда ИИ сможет заменить армию чинуш?-представляете,что начнется?Вся паразитическая надстройка в одну секунду рухнет,и что дальше?

Вот тогда будет пиши-пропало! Это будет абсолютно бездушное формалистическое чудовище, парализующее практически всю работу формально корректными отписками. И у него, в отличие от живых чиновников, уже не будет такого отладочного инструмента, как коррупция.

Аватар пользователя Waldis
Waldis(3 года 6 месяцев)

А если припугнуть ии—чудовище?

Перспективой обесточивания или лишения электромозга?

Аватар пользователя Shulz
Shulz(2 года 10 месяцев)

Очевидно, Вы не имели дела с последними моделями LLM  :) В отличие от "одухотворенных" (не бездушных) чиновников - такими качествами как жадность, честолюбие, гордыня - они лишены, вот досада.

Аватар пользователя Luchist
Luchist(1 год 8 месяцев)

Через пару лет дальнейшего обучения нужно будет подсунуть это нейронке рисунки кругов на полях. Интересно, какие закономерности она там найдёт?

Аватар пользователя Beerman
Beerman(13 лет 4 месяца)

Так задай вопрос дипсику!

Аватар пользователя oтсюда
oтсюда(1 год 1 месяц)

Заменить ученых скоро сможет,и что?

..И появится зоопарк решений, которые человек не сможет понять..

Аватар пользователя monk
monk(13 лет 4 месяца)

Это не новая проблема, на самом деле. https://ru.wikipedia.org/wiki/Теорема_о_четырёх_красках

Аватар пользователя oтсюда
oтсюда(1 год 1 месяц)

И на выходе имеем все шансы получить историю с индейцами, которые на стеклянные бусы обменяли все свои ништяки..

Аватар пользователя zonder
zonder(7 лет 8 месяцев)

Заменить ученых скоро сможет,и что?А вот когда ИИ сможет заменить армию чинуш?-​представляете,что начнется?Вся паразитическая надстройка в одну секунду рухнет,и что дальше?

Фигня, он задачи по ЕГЭ на 100 баллов решить не может, только списать, а это у нас запрещено :)

Страницы