2025-й може стати роком суперінтелекту. Що це означає
Я нещодавно писав про нову шокуючо сильну модель від OpenAI – o3. Хочу вказати ще одну, можливо найбільш показову метрику чи тест. Це тест, який називається Frontier Math, від Epoch AI. Цей тест це відповідь на "насичення" стандартних тестів.
Рік два назад навіть шкільна математика була значним викликом для моделей ШІ. В останні місяці вони швидко взяли рівень міжнародних математичних олімпіад – о3 вже отримує майже ідеальний результат на AIME (відбір на олімпіаду з математики США). А раз так – то подальше покращення цей тест вже не зможе показати.
Відповідно, Epoch AI створили надзвичайно складний тест, за участі 60 математиків. Для тесту були створені нові задачі, ніде раніше не опубліковані. І як кажуть автори, представляють собою весь спектр сучасної математики.
При чому задачі такого рівня, що у відгуках про тест топові математики, кажуть, що це навіть зовсім інший рівень складності від міжнародних олімпіад (які очевидно теж дуже складні). І у спеціалістів з відповідних напрямків, вирішення цих задач займе години чи навіть дні, у професійних математиків.
При чому, як самі математики вказують, до задач, які не відносяться до їх спеціалізації, вони навіть не знають як підступитися, це зовсім інший рівень складності.
Вони приводять цитату Тімоті Говерса на сайті, де він каже, що йому складно вирішити навіть одну задачу з тестів, а про те щоб вирішити всі задачі мова взагалі не йде. Це математик відзначений медаллю Fields – яку вважають аналогом Нобелівської премії для математиків.
Так от декілька місяців назад, найкраще що моделі ШІ показували це до 2% задач з цього тесту. Скільки о3? Ця модель вже вирішує 25% задач тесту. В 10 разів більше і це за 3 місяця орієнтовно прогрес.
Зустрічав думки експертів, що навряд чи хтось з людей математиків так само зможе 25% задач вирішити. Взагалі з будь кого.
Так само я писав о3 входить вже в топ програмістів у вирішення змагальних задач за рейтингом Codeforce. Теж із суттєвим приростом (х1.5) за останні декілька місяців.
По суті ми говоримо впродовж року двох про те, що нобелівський лауреат (хай тільки в деяких темах) буде у кожного в кишені в телефоні, відповідати на Ваші запитання 24/7 за скромну підписку в десятки чи сотні доларів на місяць.
Ми розуміємо також, що далі рухатись непросто, але прогрес не зупиняється.
Хочете стати колумністом LIGA.net – пишіть нам на пошту. Але спершу, будь ласка, ознайомтесь із нашими вимогами до колонок.