OpenAI и Anthropic протестировали модели друг друга и опубликовали результаты

Они оценивали модели друг друга на предмет безопасности и соблюдения правил

Анастасия Бобкова

Редакторка новостей LIGA.net

28 августа, 11:41

Иллюстративное фото: (Фото: Depositphotos)

OpenAI и Anthropic провели оценку систем друг друга и опубликовали результаты анализа. Отчеты содержат технические данные о работе моделей и методах проведения тестов безопасности. Об этом компании сообщили на своих официальных сайтах.

Anthropic проверила модели OpenAI на предмет склонности к лести, сообщениям о нарушениях, самозащиты, поддержки опасных действий или обхода тестов безопасности.

Отключить рекламу

Модели o3 и o4-mini работали в соответствии с ожиданиями, в то время как GPT-4o и GPT-4.1 показали потенциальные риски злоупотребления. Лесть была замечена во всех моделях, кроме o3. Новая модель GPT-5 с функцией Safe Completions не тестировалась.

OpenAI тестировала модели Anthropic на выполнение инструкций, способность обходить ограничения, а также на выдумки и манипуляции. Модели Claude выполняли инструкции и редко давали ответы в случаях неопределенности.

Напоминаем, что OpenAI обучила GPT-5 помогать пользователям в сложных и опасных ситуациях. Агент ИИ Claude запустили в браузере Chrome в тестовом режиме.

Комментарии