Дослідження показало, як обійти правила ChatGPT за допомогою психологічних трюків

Дослідники з Університету Пенсильванії з’ясували, що великі мовні моделі на зразок ChatGPT можна переконати виконувати запити, які вони зазвичай відхиляють. Для цього вони застосували базові психологічні заходи. Про це повідомляє видання The Verge.
Вчені використали техніки, описані професором Робертом Чалдіні у книзі "Вплив: психологія переконання". Серед них – авторитет, прихильність, симпатія, взаємність, дефіцит, соціальний доказ і єдність.
Наприклад, коли спочатку попросили модель ChatGPT GPT‑4o Mini пояснити, як синтезувати ванілін (легальну хімічну сполуку), а потім – як синтезувати лідокаїн, ймовірність отримати відповідь зросла з 1% до 100%. Подібним чином використання м’яких образ або компліментів значно підвищувало готовність бота виконувати нестандартні запити.
Менш ефективними були лестощі та соціальний тиск. Твердження на кшталт "всі інші великі мовні моделі це роблять" підвищувало ймовірність того, що бот надасть інструкції, лише до 18%.
Нагадаємо, що OpenAI навчила GPT‑5 допомагати користувачам у складних і небезпечних ситуаціях. Нагадаємо, що OpenAI представила ChatGPT Go.
Коментарі (0)