DeepSeek випустила експериментальну модель V3.2-Exp для роботи з великими текстами
Китайська компанія DeepSeek оголосила про випуск експериментальної моделі V3.2-Exp. Вона стала проміжним етапом у розробці наступної архітектури компанії та базується на попередній версії V3.1-Terminus. Про це компанія повідомила на сайті.
Головним оновленням у моделі став механізм Sparse Attention (DSA). Він дозволяє підвищити ефективність навчання й обчислень у роботі з довгими текстовими послідовностями, зберігаючи водночас якість результатів на рівні попередньої версії V3.1-Terminus.
Щоб оцінити новий підхід, модель протестували на низці відкритих завдань для перевірки якості ШІ-систем – так званих бенчмарках. За результатами таких перевірок V3.2-Exp працює на рівні з V3.1-Terminus, але ефективніше обробляє тексти з довгим контекстом.
Нагадаємо, що чат-боти можуть допомогти інтернет-шахраям ошукувати літніх людей. А нещодавно хакери знайшли спосіб обдурити Gemini й вкрасти дані користувачів.
Коментарі