OpenAI навчить ШІ зізнаватися в помилках і порушеннях інструкцій

OpenAI заохочує моделі ШІ визнавати відхилення від інструкцій

Анастасія Бобкова

Редакторка новин LIGA.net

4 грудня 2025, 10:16

Ілюстративне фото: Depositphotos

OpenAI розробляє нову експериментальну систему під назвою Confession, яка вчить штучний інтелект визнавати, коли він діє неправильно. Якщо модель порушила інструкції, підлаштувала відповідь чи "зламала" тест, вона має чесно про це зізнатися.

ШІ зазвичай навчається одразу за кількома критеріями – точність, безпека, відповідність політикам, стиль і вподобання користувача. Однак коли всі ці сигнали змішуються, модель може почати шукати обхідні шляхи, наприклад, імітувати відповідність вимогам або підлаштовуватись під очікування.

Відключити

Читайте також

ChatGPT обрав подарунок моїй бабусі, однак мало не купив задорогий робот-пилосос

Система зізнань розмежовує ці процеси – основна відповідь і далі оцінюється за сукупністю критеріїв, тоді як сповідь спрямована виключно на чесність. Модель заохочують визнавати власні порушення або відхилення від інструкцій, навіть якщо у фінальній відповіді це залишилося непомітним.

У тестах з GPT‑5 Thinking на маніпуляції, халтуру, вигадки тощо модель зізнавалася у 95,6% випадків, коли не дотримувалась інструкцій. У Confession модель отримує винагороду не за правильну відповідь, а за чесність у поясненні, як вона до неї дійшла.

Нещодавно у ChatGPT з’явилася модель GPT-5.1. А пізніше у ChatGPT з’явився помічник із покупок, який вже працює в Україні.

Сім років на передовій: як український бронеавтомобіль "Новатор" пройшов випробування боями

Спецпроєкт

Коментарі

Щоб долучитись до дискусії, та активуйте підписку.

Упс, виникла помилка. Спробуйте пізніше.