Фото: Unsplash

Кафедра когнитивных наук Университета Сан-Диего провела тест Тьюринга, в котором сравнивали современные системы искусственного интеллекта, такие как GPT-3.5 и GPT-4, с простым чат-ботом ELIZA с 1960-х годов. Об этом говорится в исследовании, опубликованном в журнале arXiv.

В эксперименте приняли участие 500 человек. Для них разработали игру, интерфейс которой похож на мессенджер. Участники эксперимента проводили пятиминутные разговоры с разными собеседниками, которыми могли быть человек или искусственный интеллект. После этого они должны были определить, с кем они общались.

В ходе эксперимента обеим моделям искусственного интеллекта, GPT-3.5 и GPT-4, были даны указания, как реагировать на сообщения. Исследователи приложили усилия, чтобы модели воспроизводили поведение человека: они должны были отвечать лаконично, не очень серьезно, использовать колоритный сленг и совершать орфографические ошибки. Кроме того, моделям была предоставлена общая информация о настройке игры и последних новостях.

После анализа результатов опыта оказалось, что участникам было трудно найти, с кем конкретно они общались – с человеком либо с машиной. Модель GPT-4 удалось убедить собеседников в том, что это человек в 54% случаев, тогда как GPT-3.5 – в 50%. Чат-боту ELIZA удалось убедить 22% людей.

Анализ результатов показал, что участники часто полагались на языковой стиль, социально-эмоциональные факторы и вопросы, основанные на знаниях, чтобы определить, разговаривают ли они с человеком или машиной.

Фото: UC San Diego