Модель GPT-5.2 Pro показала лучший результат за всю историю бенчмарка FrontierMath Tier 4, решив 31 процент задач. Эксперты-математики оценили качество решений и отметили как сильные стороны, так и ограничения подхода.
Вступление
В одном из самых сложных математических бенчмарков для ИИ зафиксирован новый рубеж. Модель GPT-5.2 Pro показала результат 31 процент на уровне FrontierMath Tier 4, что стало заметным скачком по сравнению с предыдущим максимумом в 19 процентов. Для этого уровня задач подобный прогресс считается принципиальным, поскольку речь идет не о рутинных вычислениях, а о задачах, близких к реальным исследовательским проблемам современной математики.
Что именно удалось модели
Оценка проводилась вручную через интерфейс ChatGPT после того, как при работе с API возникли тайм-ауты. Всего на уровне Tier 4 доступно 48 задач. До этого момента все модели вместе смогли решить лишь 13 из них. В новом прогоне GPT-5.2 Pro корректно решила 15 задач из 48, то есть почти треть набора. Если учитывать все решения, когда-либо полученные любыми моделями, так называемый pass@the-kitchen-sink для Tier 4 теперь составляет 17 из 48, или 35 процентов. Важный момент заключается в распределении задач. OpenAI имеет доступ к 28 задачам этого уровня и их решениям, тогда как Epoch AI удерживает оставшиеся 20. GPT-5.2 Pro справилась с 5 задачами из нераскрытого набора и с 10 задачами из доступного, что указывает на отсутствие признаков переобучения под известные ответы.
Корректировки и пересчет результатов
В ходе оценки были обнаружены технические проблемы с двумя задачами. После перепроверки стало ясно, что несколько моделей недополучили заслуженные зачеты. Эти ошибки были исправлены, а таблица результатов на стороне Epoch AI обновлена. После пересчета позиции GPT-5.2 Pro сохранились, а общая картина стала более точной.Реакция математиков
Часть задач Tier 4 была предложена действующими исследователями, поэтому их отзывы представляют особый интерес. Задача, связанная с геометрией и топологией, принадлежала Joel Hass. После того как модель справилась с исходной формулировкой, автор предложил более жесткую версию. GPT-5.2 Pro смогла решить и ее, что стало одним из самых сильных сигналов в этом тесте.
Задача по теории чисел от Ken Ono также была решена. Он отметил, что модель верно поняла ключевой теоретический ход и не свела задачу к грубой переборной стратегии. При этом он указал, что строгость письменного изложения уступает академическим стандартам и в реальной научной работе потребовала бы доработки.
Еще одна новая решенная задача принадлежала Dan Romik. Его отзыв оказался в целом позитивным, без принципиальных возражений к логике решения.
Ранее пара задач от Jay Pantone уже решалась моделями предыдущих поколений. GPT-5.2 Pro также справилась с ними, однако автор отметил, что решения использовали численные обходные приемы, которые не закладывались в исходный замысел задачи.
Что остается недоступным
Несмотря на рекорд, значительная часть Tier 4 все еще не поддается моделям. По словам одного из авторов задач, ИИ регулярно делает правдоподобное предположение и идет дальше, не пытаясь строго доказать его. В реальном исследовании именно попытка доказательства вскрывает более тонкую структуру проблемы. Этот разрыв между правдоподобием и строгим выводом остается ключевым ограничением.Контекст и значение результата
FrontierMath Tier 4 считается одним из самых жестких тестов для математических способностей ИИ. Здесь проверяется не скорость счета и не знание формул, а способность удерживать абстрактную структуру задачи, выбирать правильный теоретический инструмент и доводить рассуждение до корректного ответа. Результат GPT-5.2 Pro не означает, что модели приблизились к уровню профессиональных математиков. Однако он показывает, что ИИ все чаще способен решать задачи, которые раньше считались полностью недоступными для автоматизированных систем.Подпишитесь на наш Telegram-канал
Будьте в курсе последних новостей и обновлений, подписавшись на наш Telegram!
Перейти в Telegram