OpenAI научит ИИ признавать ошибки и нарушения инструкций

OpenAI поощряет модели ИИ к признанию отклонений от инструкций

Анастасия Бобкова

Редакторка новостей LIGA.net

4 декабря 2025, 10:16

Иллюстративное фото: Depositphotos

OpenAI разрабатывает новую экспериментальную систему под названием Confession, которая учит искусственный интеллект признавать свои ошибки. Если модель нарушила инструкции, подтасовала ответ или "сломала" тест, она должна честно в этом признаться.

ИИ обычно обучается сразу по нескольким критериям – точность, безопасность, соответствие политикам, стиль и предпочтения пользователя. Однако, когда все эти сигналы смешиваются, модель может начать искать обходные пути, например, имитировать соответствие требованиям или подстраиваться под ожидания.

Отключить рекламу

Система признаний разделяет эти процессы – основной ответ оценивается по совокупности критериев, тогда как признание направлено исключительно на честность. Модель поощряет признание собственных нарушений или отклонений от инструкций, даже если в конечном ответе это осталось незамеченным.

В тестах GPT-5 на манипуляции, халтуру, вымыслы и т.п. модель признавалась в 95,6% случаев, когда не следовала инструкциям. В Confession модель получает вознаграждение не за правильный ответ, а за честность в объяснении того, как она к нему пришла.

Недавно у ChatGPT появилась модель GPT-5.1. А позже у ChatGPT появился помощник по покупкам, который уже работает в Украине.

Семь лет на передовой: как украинский бронеавтомобиль "Новатор" прошел боевое крещение

Спецпроект

Семь лет на передовой: как украинский бронеавтомобиль "Новатор" прошел боевое крещение

Комментарии