Вступление

В одном из самых сложных математических бенчмарков для ИИ зафиксирован новый рубеж. Модель GPT-5.2 Pro показала результат 31 процент на уровне FrontierMath Tier 4, что стало заметным скачком по сравнению с предыдущим максимумом в 19 процентов. Для этого уровня задач подобный прогресс считается принципиальным, поскольку речь идет не о рутинных вычислениях, а о задачах, близких к реальным исследовательским проблемам современной математики.

Что именно удалось модели

Оценка проводилась вручную через интерфейс ChatGPT после того, как при работе с API возникли тайм-ауты. Всего на уровне Tier 4 доступно 48 задач. До этого момента все модели вместе смогли решить лишь 13 из них. В новом прогоне GPT-5.2 Pro корректно решила 15 задач из 48, то есть почти треть набора. Если учитывать все решения, когда-либо полученные любыми моделями, так называемый pass@the-kitchen-sink для Tier 4 теперь составляет 17 из 48, или 35 процентов. Важный момент заключается в распределении задач. OpenAI имеет доступ к 28 задачам этого уровня и их решениям, тогда как Epoch AI удерживает оставшиеся 20. GPT-5.2 Pro справилась с 5 задачами из нераскрытого набора и с 10 задачами из доступного, что указывает на отсутствие признаков переобучения под известные ответы.

Корректировки и пересчет результатов

В ходе оценки были обнаружены технические проблемы с двумя задачами. После перепроверки стало ясно, что несколько моделей недополучили заслуженные зачеты. Эти ошибки были исправлены, а таблица результатов на стороне Epoch AI обновлена. После пересчета позиции GPT-5.2 Pro сохранились, а общая картина стала более точной.

Реакция математиков

Часть задач Tier 4 была предложена действующими исследователями, поэтому их отзывы представляют особый интерес. Задача, связанная с геометрией и топологией, принадлежала Joel Hass. После того как модель справилась с исходной формулировкой, автор предложил более жесткую версию. GPT-5.2 Pro смогла решить и ее, что стало одним из самых сильных сигналов в этом тесте. Задача по теории чисел от Ken Ono также была решена. Он отметил, что модель верно поняла ключевой теоретический ход и не свела задачу к грубой переборной стратегии. При этом он указал, что строгость письменного изложения уступает академическим стандартам и в реальной научной работе потребовала бы доработки. Еще одна новая решенная задача принадлежала Dan Romik. Его отзыв оказался в целом позитивным, без принципиальных возражений к логике решения. Ранее пара задач от Jay Pantone уже решалась моделями предыдущих поколений. GPT-5.2 Pro также справилась с ними, однако автор отметил, что решения использовали численные обходные приемы, которые не закладывались в исходный замысел задачи.

Что остается недоступным

Несмотря на рекорд, значительная часть Tier 4 все еще не поддается моделям. По словам одного из авторов задач, ИИ регулярно делает правдоподобное предположение и идет дальше, не пытаясь строго доказать его. В реальном исследовании именно попытка доказательства вскрывает более тонкую структуру проблемы. Этот разрыв между правдоподобием и строгим выводом остается ключевым ограничением.

Контекст и значение результата

FrontierMath Tier 4 считается одним из самых жестких тестов для математических способностей ИИ. Здесь проверяется не скорость счета и не знание формул, а способность удерживать абстрактную структуру задачи, выбирать правильный теоретический инструмент и доводить рассуждение до корректного ответа. Результат GPT-5.2 Pro не означает, что модели приблизились к уровню профессиональных математиков. Однако он показывает, что ИИ все чаще способен решать задачи, которые раньше считались полностью недоступными для автоматизированных систем.