За несколько месяцев до Международной математической олимпиады (ММО) 2025 года, которая должна была состояться в июле, команда из трёх человек из OpenAI сделала ставку на то, что сможет использовать невероятно сложные задачи соревнования, чтобы научить модель искусственного интеллекта часами самостоятельно думать и писать математические доказательства. Их целью было не просто создание ИИ, способного выполнять сложные математические вычисления, но и ИИ, способного оценивать неоднозначность и нюансы — навыки, которые понадобятся ИИ, если он когда-нибудь возьмётся за решение многих сложных задач реального мира. Фактически, именно эти навыки необходимы для создания общего искусственного интеллекта (ОИИ): понимания и рассуждения на уровне человека.
ММО, проведённая в этом году на Саншайн-Кост в Австралии, — это главное математическое соревнование для старшеклассников в мире, объединяющее лучших участников из более чем 100 стран. Всем участникам предлагается решить одни и те же шесть задач — по три в день, каждая из которых оценивается в семь баллов, — в течение двух дней. Но эти задачи совсем не похожи на те, что вы, вероятно, помните из старшей школы. Вместо краткого числового ответа каждая требует непрерывного рассуждения и творческого подхода в виде письменного доказательства длиной в страницы. Эти логичные, пошаговые рассуждения должны охватывать многие области математики — именно те задачи, с которыми до этого года системы ИИ с треском провалились.
Команда исследователей и инженеров OpenAI — Алекс Вэй, Шерил Сю и Ноам Браун — использовала универсальную модель рассуждения: ИИ, разработанный для «обдумывания» сложных задач, разбивая их на этапы, проверяя свою работу и адаптируя подход по ходу дела. Хотя системы ИИ официально не могли участвовать в соревнованиях, этот невероятно сложный тест продемонстрировал их возможности, и ИИ справились с заданиями этого года в том же формате и с теми же ограничениями, что и участники-люди. Получив вопросы, экспериментальная система команды проработала два сеанса по 4,5 часа (как и студенты-участники) без инструментов или Интернета — у неё не было абсолютно никакой внешней помощи от таких инструментов, как поисковые системы или программное обеспечение, разработанное для математики. Полученные ею доказательства были оценены тремя бывшими медалистами ММО и опубликованы в интернете. ИИ правильно решил пять из шести задач, получив 35 из 42 баллов — минимум, необходимый для золотой медали ММО. (Система ИИ DeepMind от Google также достигла этого результата в этом году.) Из 630 участников только 26 студентов, или 4 процента, превзошли ИИ; пять студентов получили идеальные 42 балла. Учитывая, что год назад системы ИИ на основе языка, такие как OpenAI, с трудом справлялись с элементарной математикой, результаты стали резким скачком производительности.
В следующем интервью журнал Scientific American побеседовал с двумя членами команды OpenAI, Алексом Вэем и Шерил Сю, чтобы обсудить, как они работали, почему отсутствие ответа модели на шестой вопрос на самом деле стало важным шагом на пути к решению проблемы «галлюцинаций» ИИ и как разработка системы, способной писать сложные доказательства, может способствовать созданию общего искусственного интеллекта.
[Ниже представлена отредактированная стенограмма интервью.]
Что побудило вас внезапно начать подготовку модели ИИ для IMO всего за несколько месяцев до соревнований? Что послужило толчком?
ВЭЙ: Я довольно давно размышлял о математических доказательствах. Я работаю в команде OpenAI под названием MathGen. Мы только что увидели значительный прогресс в результатах. Мы чувствовали, что у нас есть шанс получить модель, которая действительно хорошо выступит на IMO, и хотели сделать рывок к достижению этой цели.
HSU: Я раньше участвовал в математических олимпиадах. [Вэй] тоже участвовал в математических олимпиадах — он был намного лучше меня. ИМО, безусловно, хорошо известна в сообществе [исследователей ИИ], в том числе среди исследователей OpenAI. Поэтому было очень вдохновляюще продвигать именно это направление.
Не могли бы вы рассказать о своём решении работать с универсальной системой ИИ, а не с системой, специально разработанной для решения математических задач?
WEI: Наша философия заключается в том, что мы хотим создать универсальный ИИ и разработать методы, которые подходят не только для математики. Математика — очень хороший полигон для испытаний ИИ, потому что она довольно объективна: если у вас есть доказательство, легче достичь консенсуса относительно его корректности. Скажем, для поэзии это сложнее — среди читателей будет больше разногласий. А задачи ИМО очень сложные, поэтому мы хотели решать сложные задачи методами общего назначения в надежде, что они будут применимы и в других областях, помимо математики.
HSU: Я бы также сказал, что цель OpenAI — создание ИИОН (ИИОН) — не обязательно писать статьи или побеждать в конкурсах. Было важно, чтобы всё, что мы делали для этого проекта, также было полезно для более масштабной цели — создания ИИОН и более совершенных моделей, которые пользователи смогут использовать.
Каким образом модель рассуждения, получившая золото на IMO, может способствовать созданию ИИОН?
WEI: Один из подходов — это анализ времени, которое занимают задачи. Год назад ChatGPT мог решать только самые простые математические задачи. Два года назад — и даже полтора года назад — мы часто думали о математических задачах из начальной школы, которые можно найти в домашнем задании пятого класса. Для человека, действительно хорошо разбирающегося в математике, чтение и решение таких задач занимает секунду-другую. Затем мы начали оценивать результаты с помощью AIME [Американский пригласительный экзамен по математике, математический конкурс для старшеклассников из 15 вопросов]. На каждую задачу уходит около 10 минут, а на 15 задач — около трёх часов. По данным IMO, решение всего трёх задач занимает четыре с половиной часа — то есть по 90 минут на каждую. ChatGPT изначально был хорош для коротких вопросов. Теперь он лучше справляется с более длительными задачами, такими как «Можешь отредактировать этот абзац?». По мере совершенствования ИИ можно расширять временной горизонт задач, и этот прогресс наглядно виден на примере математики.
HSU: Другой аспект заключается в том, что модели рассуждений раньше очень хорошо справлялись с задачами, которые легко проверить. Если вы решаете математическую задачу, не требующую доказательств, существует один численно правильный ответ. Его легко проверить. Но в реальном мире — и в задачах, с которыми люди действительно хотят получить помощь, — всё сложнее. Есть нюансы: возможно, решение в основном верно, но с некоторыми ошибками; возможно, оно верно, но его можно было бы лучше сформулировать. Математика, основанная на доказательствах, нетривиальна для оценки. Если мы обратимся к AGI, то эти задачи будет непросто оценить как правильные; они будут более расплывчато специфицированы и в целом сложнее.
Каков был процесс обучения модели?
WEI: В целом, обучение с подкреплением обучает модель, поощряя хорошее поведение и наказывая плохое. Если вы постоянно подкрепляете хорошее поведение и пресекаете плохое, модель с большей вероятностью будет демонстрировать хорошее поведение.
HSU: Ближе к концу мы также увеличили время выполнения теста [время, которое модель ИИ могла «думать» перед ответом]. Раньше для человека решение подобных задач занимало несколько минут; теперь мы масштабировали его до часов. Это дополнительное время на обдумывание дало удивительные результаты. Был момент, когда мы проводили оценку на нашем внутреннем тестовом наборе, что заняло много времени из-за возросшего времени выполнения теста. Когда мы наконец посмотрели на результаты — и Алекс их оценил — вид прогресса заставил меня подумать, что золото, возможно, уже близко. Это было очень воодушевляюще.
На тесте IMO разработанная вами модель дала пять правильных ответов из шести. Но на шестой вопрос модель даже не пыталась дать ответ. Не могли бы вы рассказать подробнее о значении этого ответа?
WEI: То, что модель знала, чего она не знает, было одним из первых признаков [прогресса], который мы наблюдали. Сегодня, используя ChatGPT, вы иногда сталкиваетесь с «галлюцинациями» — модели не всегда точно знают, что им неизвестно. Эта способность свойственна не только математике. Было бы здорово, если бы в повседневных вопросах модель могла честно сообщать о том, что она не знает, вместо того, чтобы давать ответ, который я должен проверить самостоятельно.
Какое влияние ваша работа над этой моделью может оказать на будущие модели?
HSU: Всё, что мы сделали для этого проекта, довольно универсально — возможность оценивать результаты, не являющиеся единственными ответами, и работать над сложными задачами в течение длительного времени, добиваясь стабильного прогресса. Это во многом способствовало успеху, и теперь мы и другие специалисты OpenAI применяем эти возможности не только в математике. В GPT-5 этого нет, но мы рады интегрировать эти возможности в будущие модели.
WEI: Если посмотреть на опубликованные нами решения задач IMO, некоторые из них очень длинные — от пяти до десяти страниц. Эта модель способна генерировать подробные, последовательные и связные результаты без ошибок. Многие современные модели не способны создать полностью связный пятистраничный отчёт. Я рад, что эта тщательность и точность будут полезны во многих других областях.
Deni Ellis Béchard
Thu, August 21, 2025 at 11:50 AM EDT
Scientific American

Комментарии
ИИ только пальцы научился у людей считать, а тут сразу медалист золотой. Туфта заказушная.
Ну что - в прошлом году ИИ дотянул до серебряной медали. А в этом - до золотой.
И да - туфта заказушная. Коллективу заказали сделать ИИ который уделал бы математиков - коллектив сделал.
Ну не умеет оно думать, уж простите.
Оно умеет комбинировать куски готовых решений для задач более сложного уровня.
Сколько корней у уравнения
и чему они равны? Без интернета сможете?
Зеркалка на ваш вопрос.
6.
1) 31/2/2 + i/2
2) (31/2/2 + i/2)*(1/2 + i*31/2/2) = i
3) (31/2/2 + i/2)*(1/2 + i*31/2/2)2 = -31/2/2 + i/2
4) (31/2/2 + i/2)*(1/2 + i*31/2/2)3 = -31/2/2 - i/2
5) (31/2/2 + i/2)*(1/2 + i*31/2/2)4 = - i
6) (31/2/2 + i/2)*(1/2 + i*31/2/2)5 = 31/2/2 - i/2
Несомненно. А чему равны, уже не помните?
Но это нормально, я ТФКП сдавал в 1995 и в 1997, помню.
Если быть совсем точным - там 6 серий корней типа x1*i + 2 * pi * n, n € Z
Так стоп, ты же говорил тут думать нужно, а ты помнишь всего лишь.
Я помню принципы решения этого уравнения, а не ответы.
Зная принципы - решить его можно за минуту. А вот для этого и нужно думать.
> Я помню принципы решения этого уравнения
Так чо, не ты придумал метод решения? Воспользовался чужим решением? Чем же ты тогда лучше ИИ?
Возможностью открывать новое знание, как и другие люди.
Сеть этого не может.
Я бы сказал так:
y = ei[pi]*(1/6 + n/3), n = 0, 1, 2, 3, 4 , 5.
Можно и так.
Я предпочитаю n € Z (множество целых чисел).
> Ну не умеет оно думать, уж простите.
Большинство людей тоже не умеет, и это им никак не мешает жить. Имитатору Интеллекта и не надо уметь думать на данном этапе. Достаточно ИИ делать что-то лучше, чем 99% людей - и люди будут из этой области выдавлены. Если не предпринимать специальные меры. Кое где будет как в современных шахматах: люди уже слабее шахматных программ, даже чемпионы - и туда программы не допускают просто административными методами. Но это только там, где нет большого бабла. А где большие бабки, там людей вытеснят.
Вы походу не понимаете, как нейросеть работает.
ты теперь заместо овца к нам парашу будешь заказную вываливать?
Да. Приятного аппетита!
Не останавливайтесь, дружище! Продолжайте и дальше вашу благородную деятельность.
А эти люди просто не понимают. Ну, не дано им. Они что, виноваты в этом? Ну скурили они, скурили учебник по математике в школьном туалете. Что их теперь, наказывать за то?)
что мы не понимаем. что вся тема воняет как овно мамонта. конечно, столько бабла ввалили. само-собой результат есть. только буран на автоматике садился еще в 88 году. и экспертные системы существуют лет 60 как.
А главное, не понятно зачем всё это?)))
Математика для человека - это упражнение ума, открытие новых граней своих способностей. Результаты и процесс решения задач доставляет некое удовлетворение, в конце-концов, участниками гордятся те страны которые их послали - гордость за нацию, демонстрация превосходства, эволюция, конкуренция. ИИ это всё зачем? Людям дающим задания для ИИ который это решает зачем?))
Бездушный калькулятор дал правильный или любопытный ответ, а дальше что?\
Пока ИИ не поместят в среду и тело как у человека - оно остентся калькулятором.
Так это ИИ сам всё изучил по собственной воле или его создали и заточили под олимпиаду по математике лушие специалисты опен аи?
Если ребёнка предоставить самому себе, из него получится "маугли". Дети во своей воле не становятся никем, их общество воспитывает. И, кстати, ни один победитель соревнований такого уровня не тренировался сам, его обучали и мотивировали серьёзные специалисты. Почему ИИ должен быть в этом плане уже сейчас лучше людей?
Вы таки издеваетесь?
Для решения уравнения выше ( про корень 6 степени из минус единицы) модели Open AI НЕОБХОДИМО:
- загрузить учебники по ТФКП,
- загрузить примеры решения стандартных задач по ТФКП,
- загрузить примеры решения нестандартных задач по ТФКП,
- загрузить примеры решения олимпиадных задач по ТФКП,
- загрузить примеры решения международных олимпиадных задач по ТФКП прошлых лет,
- и, самое, главное - отладить процесс решения.
Для этого и нужны специалисты по настройке Open AI (упрощенно).
Для решения уравнения выше ( про корень 6 степени из минус единицы) модели Open AI НЕОБХОДИМО:
Загрузить картинку с вопросом, нажать на кнопку послать. Получить решение.
А ВОТ ВАМ НЕОБХОДИМО
Изучить учебники по ТФКП,
- Изучить примеры решения стандартных задач по ТФКП,
- Изучить примеры решения нестандартных задач по ТФКП,
- Изучить примеры решения олимпиадных задач по ТФКП,
- Изучить примеры решения международных олимпиадных задач по ТФКП прошлых лет
Слышь, недельный тупорыл.
Твое мнение очешуенно важно для нас. Оставайся на связи, снежинка из Австрии.
Не требуют ума ни олимпиадные задачи ни шахматы. Определённые когнитивные способности нужны, конечно, но это только часть того, что принято считать интеллектом. Грубо говоря, методом длительных напряжений мозга, положены в болоте мостки и человеческий разум по ним ходит, знает, что уже до него подумали. Так и машинный может, все формализовано и основано на логике в которой "третьего не дано" и есть правильный ответ и неправильный ответ. Вопрос, как проложить мостки и где. Вот задача для интеллекта.
Для того, чтобы медИИ оперировал единственным синдромом "физикальные признаки пневмонии", он должен прокрутить логическую цепочку с многоуровневыми вложениями из "и" и "или" на тему совпадения в одном и том же месте лёгких аускультативных (слушаем хрипы) и перкуторных (стучим по грудной клетке) наборов признаков на тему "Признак есть/Признака нет/ХЗ (не обследовали) с одновременной оценкой "плохо/хорошо/ХЗ. По типу "мелкопузырчатые хрипы или крепитация в нижней доле правого лёгкого ("есть" и это "плохо") и притупление при перкуссии в нижней доле лёгкого ("есть и это тоже плохо)", и так по всем долям - а то крепитация в обоих долях снизу, а притупление в средней доле это уже мысли про сердечную недостаточность и рак лёгких.
Ну и?
В чём проблема логику с интерпретацией плохо/хорошо/ХЗ в арифмометр зашить? В том, чтобы эта логика работала на семантике предметной области?
Ну, посадите медиков, или математиков, или электриков с мотористами набивать семантику. Рано или поздно шаг за шагом сформируете модели отдельных предметных областей - а из них уже сложится большая модель "всё обо всём", и её будет шустро перебирать арифмометр.
>Кстати, на этом ресурсе пару лет некоторые смеялись над ИИ потому что он не мог
>Решать математические задачи. И с логикой у него было туго.
Это наглядный пример качества анализа ситуации естественными интеллектами... Они будут смеяться до тех пор, пока не потеряют работу
Кстати, недавно только развлекался, смотрел видео про открытие Перельмана, когда он доказал гипотезу Пуанкаре.
Промелькнула мысль, а что если остальные 6 задач тысячелетия попросить доказать ИИ?
Ведь, по сути, математика наука точная и основана на аксиомах. Сможет ли ИИ используя существующие аксиомы что-то доказать из недоказанного?
Да? Я не поленился и прочитал задачи этого года https://www.imo-official.org/problems.aspx
Задача 1. Определите все неотрицательные целые числа...
Задача 2. Докажите, что прямая, проходящая через точку...
Задача 3. Определите наименьшую действительную константу c
Задача 4. Определите все возможные значения числа a1.
Задача 5. Определите все значения λ
Задача 6. Определите минимальное количество плиток, которые Матильде нужно разместить...
Из 6 задач только в одной нужно "доказать", в остальных нужен как раз "числовой ответ".
Из моего опыта общения с нейросетями статья выглядит как какая-то очередная новучная новость из идиократии.
Вместо того, чтобы показывать реальные результаты могучего искусственного интеллекта, евангелисты бегают с эмоциональными сенсациями.
То, что в статьях давят в основном на эмоции - это, собственно, хороший маркер того, что технология не работает.
Не понимаю - неужели те, кто стоит за этим пузырем, действительно верят в эту ерунду? Или цинично смеются с дурачков, которые раздувают пузырь дальше.
Второе мне кажется более вероятным и вызывает некоторое уважение к мастерству.
А первое место на этой олимпиаде взял Ваня Часовских из Химок. Поступает вроде в МФТИ.
Мои поздравления Ивану Часовских.
Почему текущие современные модели ИИ хороши в математике(что даже набирают много баллов на олимпиадных задачах)? А совсем старые вычислительные предобученные модели(на бесчисленных тестовых задачах(знать наперед)) хороши в шахматы?
О чем это говорит или может говорить? Где здесь подвох? Почему данные достижения(особенно игра компьютера или смартфона в шахматы) мало значат когда идет речь о попытках создать AGI?
Есть одно практическое исследование в котором тестируют многие модели. Суть в том, что способности ИИ удваиваются каждые 4 месяца.
А тут ещё Гугл говорит, что за год сократил потребление своих моделей в 30 раз на один и тот же запрос.
И чем это закончится никто не знает.)
Это в какой палате дурдома Вам напели?
Сейчас главная проблема LLM в том, что мизерный прирост качества требует неадекватных вложений. Ни о каких "удвоениях" речи не идет уже давно.
Для дикарей современный мир однозначно показался бы сумасшедшим домом. В этом нет ничего удивительного. Не всякий может справится с таким потоком новой информации.
Что касается прироста в результате, то здесь речь идет о реальной деятельности и взаимодействии ии в реальном мире, а не в теоретическом.
Если не путаю, то активность называется AI Village. Можете ознакомиться с прогрессом сами.
> А тут ещё Гугл говорит, что за год сократил потребление своих моделей в 30 раз на один и тот же запрос.
Если гугл не насвистел, то это офигительное достижение и реальный прогресс. Не так страшен Имитатор Интеллекта, как страшен экономически выгодный ИИ.
А давайте проведем олимпиаду по извлечению квадратных корней из 9-значных чисел в уме? Или по перемножению 3-х 14-значных числе в уме? Там даже старый советский калькулятор победит.
Олимпиада для старшеклассников не содержит ничего такого, чего нет в сети и стало быть доступно говноLLM
Ну сначала оно вообще ничего считать не умело, теперь как лучшие из старшикласников умеет, логично предположить что рано или поздно начнет побеждать лучших студентов, потом кандидатов наук и т.д.
Вспоминается картинка про экстраполяцию мужей в течение времени. Вчера было ноль, сегодня - один, значит завтра будет два мужа)))
Там было только две точки снятия статистики))
Я вот раз в несколько месяцев приподнимаю крышку, чтобы посмотреть прогресс по интересным мне темам и этот прогресс там есть за все три года что смотрю, качество монотонно растёт...
Вопрос не в точках снятия статистики, а в неумелой экстраполяции, которая учитывает только часть необходимого. Вы говорите "логично предположить", хотя ничего логичного тут нет, это не линейный процесс.
Да не ленейный, качество растет гораздо быстрее.
Посмотрим через пять лет как там получится, перейдет ли от побед над школьниками к победам над студентами. Если такого не произойдет - приходите и смело тыкайте палкой в меня, посмеемся))
В каком смысле "быстрее"? Там энергетические потребности растут быстрее качества, у нас столько энергии не будет, чтобы до студентов дойти теми же средствами.
На моих задачах мой компьютер справляется и качество за три года кардинально выросло. Да, сапгрейдил видеокарту с 8 Гб до 16 Гб, но это не так чтобы и очень кардинально.
Тут нужно учесть, что пока результаты получают почти что ткнув пальцем в небо, дальше начнут больше заглядывать под капот и целенаправленно смотреть что там происходит и как это улучшить.
Сейчас мелкие модели тоже могут кардинально лучше работать, чем такого же размера более ранние (когда этот размер считался большим).
Это пока всё гадания на кофейной гуще. Есть направления и поинтереснее для улучшения, а тут хайп спадёт и все забудут, кроме тех сфер, где оно реально применимо
Опять щас сектанты святого ИИ всё засрут своей непокобелимой верой домохозяек в неведомое.
Интересно, если не опущены нюансы важные. И вот с этими ИИ проблема такая же - перепроверять все надо. По мне, это самая главная проблема
ПМСМ, галлюцинации нейросетей - это их ценнейшая особенность, дающая шанс на выработку новой информации. Потому что сбой в функционировании может оказаться тем самым новым подходом, той самой новой идеей, до которой раньше никто не додумался.
И как из тысяч идей, которые приходят мне в голову, работоспособной может оказаться только одна
И как на миллиард мутаций, ухудшающих работу организмов в следующем поколении, случается одна мутация, которая улучшает какой-то признак
Вот так и ИИ, доказывая новую теорему, может ВДРУГ ляпнуть что-то чему его не учили - и этот ляп окажется новым словом в науке.
Ну, только, после выдачи ответа, хотя бы и чернового, его нужно проверить. ИИ проверяет спец агент (другой ИИ), затем, если ответ прошёл проверку, его выдают людям. Люди его сначала проверяют своим ЕИ - а затем практической деятельностью. И если это новое слово сработает, то оно станет стандартом, закреплённым в копилке знаний человечества.
Так же как и ген, улучшенный редкой мутацией, поможет своему носителю выжить в реальном мире, соблазнить толпу самочек, закрепиться и распространиться в популяции.
Великая весть - калькулятор может в счёт!!!
- Медаль ему за это!
Детки в школах уже приготовились посылать математичек ... за меня пуская работает железная пила, не за этим меня мама родила.
Страницы