OpenAI навчить ШІ зізнаватися в помилках і порушеннях інструкцій
OpenAI розробляє нову експериментальну систему під назвою Confession, яка вчить штучний інтелект визнавати, коли він діє неправильно. Якщо модель порушила інструкції, підлаштувала відповідь чи "зламала" тест, вона має чесно про це зізнатися.
ШІ зазвичай навчається одразу за кількома критеріями – точність, безпека, відповідність політикам, стиль і вподобання користувача. Однак коли всі ці сигнали змішуються, модель може почати шукати обхідні шляхи, наприклад, імітувати відповідність вимогам або підлаштовуватись під очікування.
Система зізнань розмежовує ці процеси – основна відповідь і далі оцінюється за сукупністю критеріїв, тоді як сповідь спрямована виключно на чесність. Модель заохочують визнавати власні порушення або відхилення від інструкцій, навіть якщо у фінальній відповіді це залишилося непомітним.
У тестах з GPT‑5 Thinking на маніпуляції, халтуру, вигадки тощо модель зізнавалася у 95,6% випадків, коли не дотримувалась інструкцій. У Confession модель отримує винагороду не за правильну відповідь, а за чесність у поясненні, як вона до неї дійшла.
Нещодавно у ChatGPT з’явилася модель GPT-5.1. А пізніше у ChatGPT з’явився помічник із покупок, який вже працює в Україні.
Коментарі