Искусственный интеллект Meta сможет распознавать несколько тысяч языков
Meta создала языковую модель искусственного интеллекта, не являющуюся клоном ChatGPT. Об этом сообщает Engadget.
Проект компании Massively Multilingual Speech (MMS) может распознавать более 4000 разговорных языков и воспроизводить вещание на более чем 1100 языках. Как и большинство других своих публично объявленных проектов в области искусственного интеллекта, сегодня Meta предоставляет открытый доступ к MMS, чтобы помочь сохранить разнообразие языка и поощрить исследователей развивать его на этой основе.
Модели распознавания речи и преобразования текста в речи обычно требуют обучения на тысячах часов аудиозаписей с сопроводительными транскрипционными метками. (Метки имеют решающее значение для машинного обучения, позволяя алгоритмам правильно классифицировать и "понимать" данные.) Но для языков, которые не широко используются в индустриально развитых странах – многие из которых находятся под угрозой исчезновения в ближайшие десятилетия, – "этих данных просто не существует", отмечают в Meta.
Meta применила нетрадиционный подход к сбору аудиоданных: прослушивание аудиозаписей переведенных религиозных текстов. "Хотя содержание аудиозаписей является религиозным, наш анализ показывает, что это не влияет на то, что модель производит больше религиозного языка, – пишет Meta. – Мы считаем, что это потому, что мы используем подход коннекционистской временной классификации (CTC), который является гораздо более ограниченным по сравнению с большими языковыми моделями (LLM) или моделями последовательности для распознавания речи".
После обучения модели выравнивания, чтобы сделать данные более пригодными для использования, Меtа использовала wav2vec 2.0, модель "самоконтролируемого обучения речевого представления", которая может учиться на немаркированных данных. Meta сравнила MMS с Whisper от OpenAI, и результаты превзошли ожидания: "Мы обнаружили, что модели, обученные данным Massively Multilingual Speech, имеют вдвое меньший процент ошибок в словах, но Massively Multilingual Speech охватывает в 11 раз больше языков".
Meta предупреждает, что ее новые модели не идеальны. "Например, существует определенный риск того, что модель превращения языка в текст может неправильно перевести отдельные слова или фразы", – пишет компания.