OpenAI та Anthropic протестували моделі одна одної та оприлюднили результати
Ілюстративне фото: (Фото: Depositphotos)

OpenAI та Anthropic провели оцінку систем одна одної та оприлюднили результати аналізу. Звіти містять технічні дані про роботу моделей і способи проведення тестів безпеки. Про це компанії повідомили на своїх офіційних сайтах.

Anthropic перевіряла моделі OpenAI на те, чи схильні вони лестити, повідомляти про порушення, захищати себе, підтримувати небезпечні дії або обходити тести безпеки.

Моделі o3 та o4-mini працювали за очікуванням, а GPT-4o та GPT-4.1 показали можливі ризики зловживання. Лестощі були помічені у всіх моделях, крім o3. Нову модель GPT-5 із функцією Safe Completions не тестували.

OpenAI тестувала моделі Anthropic на виконання інструкцій, здатність обходити обмеження, а також на вигадки та маніпуляції. Моделі Claude виконували інструкції та рідко давали відповіді у випадках невизначеності.

Нагадаємо, що OpenAI навчила GPT‑5 допомагати користувачам у складних і небезпечних ситуаціях. Агента ШІ Claude запустили у браузері Chrome у тестовому режимі.