Штучний інтелект Meta зможе розпізнавати кілька тисяч мов
Meta створила мовну модель штучного інтелекту, яка не є клоном ChatGPT. Про це повідомляє Engadget.
Проєкт компанії Massively Multilingual Speech (MMS) може розпізнавати понад 4000 розмовних мов і відтворювати мовлення більш ніж 1100 мовами. Як і більшість інших своїх публічно оголошених проєктів у галузі штучного інтелекту, сьогодні Meta надає відкритий доступ до MMS, щоб допомогти зберегти мовне розмаїття та заохотити дослідників розвивати його на цій основі.
Моделі розпізнавання мовлення та перетворення тексту в мовлення зазвичай вимагають навчання на тисячах годин аудіозаписів із супровідними транскрипційними мітками. (Мітки мають вирішальне значення для машинного навчання, дозволяючи алгоритмам правильно класифікувати та "розуміти" дані.) Але для мов, які не є широко вживаними в індустріально розвинених країнах – багато з яких перебувають під загрозою зникнення в найближчі десятиліття, – "цих даних просто не існує", зазначають у Meta.
Meta застосувала нетрадиційний підхід до збору аудіоданих: прослуховування аудіозаписів перекладених релігійних текстів. "Хоча зміст аудіозаписів є релігійним, наш аналіз показує, що це не впливає на те, що модель продукує більше релігійної мови", – пише Meta. – Ми вважаємо, що це тому, що ми використовуємо підхід коннекціоністської часової класифікації (CTC), який є набагато обмеженішим, як порівняти з великими мовними моделями (LLM) або моделями послідовності для розпізнавання мовлення".
Після навчання моделі вирівнювання, щоб зробити дані придатнішими для використання, Меtа використала wav2vec 2.0, модель "самоконтрольованого навчання мовленнєвого представлення", яка може навчатися на немаркованих даних. Meta порівняла MMS з Whisper від OpenAI, і результати перевершили очікування. "Ми виявили, що моделі, навчені на даних Massively Multilingual Speech, мають вдвічі менший відсоток помилок у словах, але Massively Multilingual Speech охоплює в 11 разів більше мов".
Meta попереджає, що її нові моделі не є ідеальними. "Наприклад, існує певний ризик того, що модель перетворення мови в текст може неправильно перекласти окремі слова або фрази", – пише компанія.