Иллюстративное фото: Depositphotos

Китайская компания DeepSeek объявила о выпуске экспериментальной модели V3.2-Exp. Она стала промежуточным этапом в разработке следующей архитектуры компании и основана на предыдущей версии V3.1-Terminus. Об этом компания сообщила на сайте.

Главным обновлением в модели стал механизм Sparse Attention (DSA). Он позволяет повысить эффективность обучения и вычислений при работе с длинными текстовыми последовательностями, сохраняя при этом качество результатов на уровне предыдущей версии V3.1-Terminus.

Чтобы оценить новый подход, модель протестировали на ряде открытых задач для проверки качества ИИ-систем – так называемых бенчмарках. По результатам этих проверок V3.2-Exp работает наравне с V3.1-Terminus, но более эффективно обрабатывает тексты с длинным контекстом.

Напоминаем, что чат-боты могут помочь интернет-мошенникам обманывать пожилых людей. А недавно хакеры нашли способ обмануть Gemini и украсть данные пользователей.