В Беркли (Калифорния, США) состоялось двухдневное закрытое мероприятие с участием 30 ведущих математиков мира. Целью тайной встречи, о которой ученым запрещено было распространяться, стало испытание новой разработки компании OpenAI — чат-бота o4-mini, обладающего способностью к сложным логическим рассуждениям.
Организатором эксперимента выступила некоммерческая организация Epoch AI, которая занимается тестированием и сравнением больших языковых моделей, о событии спустя три недели после завершения тестов сообщил портал Scientific American.
Ученые сразились в интеллектуальной схватке с «рассуждающим» чат-ботом, которому было поручено решать задачи, придуманные математиками. В течение двух дней исследователи задавали боту вопросы профессорского уровня и были ошеломлены. Нейросеть оказалась способна ответить на некоторые из самых сложных задач в мире, а участники математического конклава склонны были приравнять ИИ-модель к «математическому гению».
GPT-4o mini — модель искусственного интеллекта, которую компания OpenAI представила в июле 2024 года. Она позиционируется как самая экономичная среди малых моделей компании и призвана значительно расширить диапазон приложений, построенных на базе искусственного интеллекта, благодаря доступной цене. Уже в прошлом году GPT-4o mini продемонстрировала высокие результаты на различных тестах.
Для оценки способностей o4-mini был создан специальный набор из 300 уникальных математических задач разного уровня сложности — от студенческого до исследовательского, ответы на которые еще не были опубликованы. А самим ученым было запрещено что-либо обсуждать друг с другом в обычных мессенджерах и электронной почте для чистоты эксперимента.
Обычно математические вопросы, требующие способности рассуждать и ответы на которые ранее не приводились в Сети, ставят в тупик традиционные модели. Но этот интеллектуальный противник оказался гораздо сильнее.
В ходе подготовки к встрече o4-mini уже показал впечатляющий результат, решив около 20% задач. Участникам симпозиума же предстояло сформулировать финальные десять вопросов, которые были настоящим вызовом даже для академиков. Придумать и решить их были способны единицы людей во всем мире. За каждую задачу, которую ИИ не смог бы решить, автору полагалось вознаграждение $7500.
Как признался потом математик из Университета Вирджинии Кен Оно (руководитель и судья на встрече), нейросети предложили решить задачу из теории чисел, соответствующую уровню докторской диссертации. К его изумлению, чат-бот в режиме реального времени начал поиски решения. Сначала он изучил литературу по этому вопросу, затем попробовал решить упрощенную версию задачи и, наконец, предложил людям достаточно дерзкое, но верное решение поставленной перед ним задачи.
«Я никогда раньше не видел такого рода рассуждений в моделях. Это то, что делает ученый-математик. Это пугает. В некоторых отношениях эти большие языковые модели уже превосходят большинство наших лучших аспирантов в мире», — сказал Оно.
В итоге группе все же удалось найти десять вопросов, которые загнали бота в тупик, но ученые были поражены тем, насколько далеко продвинулся ИИ за один год. Бот также был намного быстрее профессионального математика: ему требовалось всего несколько минут, чтобы сделать то, на что у эксперта-человека ушли бы недели или месяцы.
Ранее два инструмента от Google DeepMind (AlphaGeometry 2 и AlphaProof) успешно решили четыре из шести задач Международной математической олимпиады. AlphaGeometry смогла решить 83% всех задач по геометрии за последние 25 лет. При этом вице-президент Google DeepMind Дэвид Сильвер заявил, что искусственный интеллект пока не способен заменить людей-математиков. Он сравнил ИИ с логарифмическими линейками или калькуляторами, которые могут помочь в вычислениях, но не обладают воображением, необходимым для постановки интересных задач.
Комментарии
Тут на днях ещё одна интересная новость проскальзывала..
К сожалению без указания источника
И что в этом удивительного? ИИ ищет решения в базе данных - в сети нет примеров предательств? Также и с решением задач
Прогресс заключается в том, что бот может найти похожие решения?
Было бы удивительно, если было бы иначе.. По образу и подобию созданное будет выдавать предсказуемый результат. Создавать что-то сверхчеловеческое, не поняв собственной природы и предназначения, - такое себе решение.
ИИ - это инструмент, а не новый Бог, и не человек:
Ну вы ещё из прошлого века новости притащите
Что изменилось? Калькулятор стал работать быстрее?
Каждый день что-то меняется. Вы опираетесь на заявления годовалой давности. Год назад вы даже о дипсике не слышали
Что изменилось? Воображение у бота появилось?
Спектр задач, реализованных в этой технологии, развивается каждый день. Ваша красная линия - это тоже техническая задача, которое в какой-то перспективе будет реализована в том или ином виде.
https://aftershock.news/?q=node/1442995
Голословно.
Доказано:
https://www.theguardian.com/technology/2025/jun/09/apple-artificial-intelligence-ai-study-collapse
И как это связано с пониманием бесконечности?
Бесконечность - это абстракция, придуманная человеком. В реальности вы её не встретите.
Прямая линия
Если разобраться, то почти любое слово это абстракция. Кроме собственных имен существительных.
При попытке решать сложные задачи со стремящейся к бесконечности вариативностью, генерируя подробные мыслительные процессы, которые разбивают проблему на бесконечные более мелкие этапы, ИИ "полностью теряют точность"
Это что за класс задач такой? Есть пример?
Даже
оказалось сложной задачей
Всего год назад мы и не пытались использовать LLMки для кодинга, модели были для этого туповаты. Сегодня - Claude 4 пишет нам полноценные модули на тысячи строк кода, красиво оформляя, с подробными комментариями. Если где ошибся - просим поправить и за пару минут модуль переписан полностью по указанным пожеланиям. Человеку свойственно ошибаться не меньше (уж по 25-летнему опыту разработки знаю точно), но просишь поправить что - "подожди, у меня обед", а потом ещё полчаса будет ковырять и искать ошибку.
Экономия времени без потери качества фантастическая! Особенно когда жёсткие дедлайны. И да, конечно финальное тестирование модулей по всем фронтам никто не отменял, прямые руки решают - подобные инструменты новичкам точно противопоказаны.
Вот что изменилось. Модели стремительно улучшаются.
да хорош уже...
Ужас какой, ага)
https://www.theguardian.com/technology/2025/jun/09/apple-artificial-intelligence-ai-study-collapse
А может этот Дэвид просто говорит то, что хотят слышать люди и успокаивает сам себя?
Именно тупость, ляпы и ошибки ИИ - весьма характерное свойство и для разума.
Мне приспичило сделать простенькое устройство на attiny13. Давно с avr'ками не кувыркался, архитектуру и периферию помню только в общих чертах и потребовалось полноценно бы вникать в документацию, если бы не DeepSeek. Он тупил и косячил раз за разом, но в итоге нужный код всё-таки сделал, а я даже не заглянул в даташиты.
Люди думают, что если оцифровать неработающий техпроцесс, он заработает. А по факту получают добавление ошибок при цифровизации к ошибкам техпроцесса.
Я же говорил, что христианство специально для нас придумали и внедряли намеренно! Даже Союз стал скорой жертвой предательства, как только Горбатый начал идти к разоружению и к дружбе с западными паразитами. Нынешнего тоже постоянно "водили за нос западные партнёры". Про алкаша даже вспоминать нет смысла. Кстати, антиалкогольные бунты в России тоже не просто так возникали.
Как там раньше говорили - "ну и х...ли?".
Заменить ученых скоро сможет,и что?А вот когда ИИ сможет заменить армию чинуш?-представляете,что начнется?Вся паразитическая надстройка в одну секунду рухнет,и что дальше?
Чинуши переквалифициуются в
управдомовлуддитов ?Первая ласточка.
Любопытный опыт, на 150% увеличить нагрузку на судей :)
Интересно кстати можно ли заDOSить эту систему
Судебную всмысле...
Снижением компетенции
Не сможет. Задачи ей ставили учёные, а это половина работы, считай.
Думаете, LLM не в состоянии поставить задачу?
Нет, у неё нет мотивации это делать.
Так предложите ей это сделать. Другой мотивации ей не надо.
Вы слово "мотивация" неправильно понимаете. Как и суть проблемы: чтобы я мог ей предложить, я должен буду саму задачу ей и пояснить.
Вы с нейросетями хоть раз общались?
Нет там никакой "проблемы". Пишете: придумай крайне сложную задачу из области теории чисел.
Всё
А нахрена она нам нужна? Задача ради задачи - это вы мартышкам оставьте.
Расскажите об этом математикам.
Вот тогда будет пиши-пропало! Это будет абсолютно бездушное формалистическое чудовище, парализующее практически всю работу формально корректными отписками. И у него, в отличие от живых чиновников, уже не будет такого отладочного инструмента, как коррупция.
А если припугнуть ии—чудовище?
Перспективой обесточивания или лишения электромозга?
Очевидно, Вы не имели дела с последними моделями LLM :) В отличие от "одухотворенных" (не бездушных) чиновников - такими качествами как жадность, честолюбие, гордыня - они лишены, вот досада.
Через пару лет дальнейшего обучения нужно будет подсунуть это нейронке рисунки кругов на полях. Интересно, какие закономерности она там найдёт?
Так задай вопрос дипсику!
..И появится зоопарк решений, которые человек не сможет понять..
Это не новая проблема, на самом деле. https://ru.wikipedia.org/wiki/Теорема_о_четырёх_красках
И на выходе имеем все шансы получить историю с индейцами, которые на стеклянные бусы обменяли все свои ништяки..
Фигня, он задачи по ЕГЭ на 100 баллов решить не может, только списать, а это у нас запрещено :)
Страницы