Фото: Unsplash

Кафедра когнітивних наук Університету Сан-Дієго провела тест Тьюрінга, у якому порівнювали сучасні системи штучного інтелекту, такі як GPT-3.5 і GPT-4, з простим чатботом ELIZA з 1960-х років. Про це йдеться у дослідженні, опублікованому у журналі arXiv.

В експерименті взяли участь 500 людей. Для них розробили гру, інтерфейс якої схожий на месенджер. Учасники експерименту проводили п'ятихвилинні розмови з різними співрозмовниками, якими могли бути людина або штучний інтелект. Після цього вони мали визначити, з ким саме вони спілкувалися.

Під час експерименту обом моделям штучного інтелекту, GPT-3.5 і GPT-4, було надано вказівки, як реагувати на повідомлення. Дослідники доклали зусиль, щоб моделі відтворювали поведінку людини: вони мали відповідати лаконічно, не дуже серйозно, використовувати колоритний сленг і робити орфографічні помилки. Крім того, моделям було надано загальну інформацію про налаштування гри й останні новини.

Після аналізу результатів експерименту виявилося, що учасникам було складно визначити, з ким саме вони спілкувалися – з людиною чи з машиною. Модель GPT-4 вдалося переконати співрозмовників у тому, що це людина у 54% випадків, тоді як GPT-3.5 – у 50%. Чатбот ELIZA вдалося переконати 22% людей. 

Аналіз результатів показав, що опитані часто покладалися на мовний стиль, соціально-емоційні чинники та запитання, що ґрунтуються на знаннях, щоб визначити, розмовляють вони з людиною чи машиною.

Фото: UC San Diego