OpenAI представила ChatGPT-4o. Новая модель будет вести голосовой диалог как живой человек
OpenAI представила новую более мощную модель ChatGPT-4o, которая может работать с аудио, изображением и текстами в режиме реального времени. Об этом компания объявила в своем блоге.
До GPT-4o голосовые разговоры с ChatGPT происходили со средней задержкой 2,8 секунды (GPT-3,5) и 5,4 секунды (GPT-4). Новая модель улучшила эти показатели в среднем до 320 миллисекунд, что соответствует реакции живого человека.
OpenAI надеется, что этот продукт станет шагом к более естественному взаимодействию между пользователем и компьютером. Также GPT-4o может выступать как быстрый голосовой переводчик между собеседниками, говорящими на разных языках.
Голосовой режим работает благодаря синергии трех отдельных моделей: одна простая модель транскрибирует аудио в текст, GPT-3.5 или GPT-4 принимает текст и выводит текст, а третья простая модель превращает этот текст обратно в аудио. Кроме того, по сравнению с имеющимися языковыми моделями, GPT-4o лучше воспринимает изображения и аудио.
Новая технология будет разворачиваться постепенно в течение следующих недель. Отдельно компания представляет приложение для ПК с новыми возможностями.
В отличие от GPT-4 Turbo, этот продукт решил сделать бесплатным, но платные пользователи будут иметь доступ к большему количеству функций.