Я нещодавно писав про нову шокуючо сильну модель від OpenAI – o3. Хочу вказати ще одну, можливо найбільш показову метрику чи тест. Це тест, який називається Frontier Math, від Epoch AI. Цей тест це відповідь на "насичення" стандартних тестів.

Рік два назад навіть шкільна математика була значним викликом для моделей ШІ. В останні місяці вони швидко взяли рівень міжнародних математичних олімпіад – о3 вже отримує майже ідеальний результат на AIME (відбір на олімпіаду з математики США). А раз так – то подальше покращення цей тест вже не зможе показати.

Відповідно, Epoch AI створили надзвичайно складний тест, за участі 60 математиків. Для тесту були створені нові задачі, ніде раніше не опубліковані. І як кажуть автори, представляють собою весь спектр сучасної математики.

Розблокуйте щоб читати далі
Щоб прочитати цей матеріал потрібно оформити підписку