Я недавно писал о новой шокирующей сильной модели от OpenAI – o3. Хочу указать еще одну, возможно наиболее показательную метрику или тест. Это тест, который называется Frontier Math от Epoch AI. Этот тест это ответ на "насыщение" стандартных тестов.

Года два назад даже школьная математика была значительным вызовом для моделей ИИ. В последние месяцы они быстро взяли уровень международных математических олимпиад – о3 уже получает почти идеальный результат на AIME (отбор на олимпиаду по математике США). А раз так – то дальнейшее улучшение этот тест уже не сможет показать.

Соответственно, Epoch AI создали чрезвычайно сложный тест с участием 60 математиков. Для теста были созданы новые задачи, нигде не опубликованные ранее. И, как говорят авторы, представляют собой весь спектр современной математики.

Причем задачи такого уровня, что в отзывах о тесте топовой математики, говорят, что это даже совсем другой уровень сложности от международных олимпиад (которые очевидно тоже очень сложны). И у специалистов по соответствующим направлениям, решение этих задач займет часы или даже дни у профессиональных математиков.

Причем, как сами математики указывают, к задачам, не относящимся к их специализации, они даже не знают как подступиться, это совсем другой уровень сложности.

Они приводят цитату Тимоти Говерса на сайте, где он говорит, что ему сложно решить даже одну задачу из тестов, а о том, чтобы решить все задачи, речь вообще не идет. Это математик, отмеченный медалью Fields – которую считают аналогом Нобелевской премии для математиков.

Так вот несколько месяцев назад, лучше всего модели ШИ показывали это до 2% задач по этому тесту. Сколько о3? Эта модель уже решает 25% задач теста. В 10 раз больше и это за 3 месяца ориентировочно прогресс.

Встречал мнения экспертов, что вряд ли кто-нибудь из людей математиков так же сможет 25% задач решить. Вообще из любого.

Так же я писал о3 входящий уже в топ программистов в решение соревновательных задач по рейтингу Codeforce. Тоже с существенным приростом (х1.5) за последние несколько месяцев.

По сути, мы говорим в течение года двух о том, что нобелевский лауреат (пусть только в некоторых темах) будет у каждого в кармане в телефоне, отвечать на Ваши вопросы 24/7 за скромную подписку в десятки или сотни долларов в месяц.

Мы понимаем также, что дальше двигаться непросто, но прогресс не останавливается.

Оригинал