Я недавно писал о новой шокирующей сильной модели от OpenAI – o3. Хочу указать еще одну, возможно наиболее показательную метрику или тест. Это тест, который называется Frontier Math от Epoch AI. Этот тест это ответ на "насыщение" стандартных тестов.

Года два назад даже школьная математика была значительным вызовом для моделей ИИ. В последние месяцы они быстро взяли уровень международных математических олимпиад – о3 уже получает почти идеальный результат на AIME (отбор на олимпиаду по математике США). А раз так – то дальнейшее улучшение этот тест уже не сможет показать.

Соответственно, Epoch AI создали чрезвычайно сложный тест с участием 60 математиков. Для теста были созданы новые задачи, нигде не опубликованные ранее. И, как говорят авторы, представляют собой весь спектр современной математики.

Разблокируйте чтобы читать дальше
Чтобы прочитать этот текст, пожалуйста, оформите подписку