USD
99.61
-0.26
EUR
103.94
-0.29
Категория: НейротехнологииНейротехнологии
23 августа 2023 г. в 14:37

Новая нейросеть SeamlessM4T от Meta* автоматически распознает речь почти на 100 языках

Новая нейросеть SeamlessM4T от Meta* автоматически распознает речь почти на 100 языках
images.techeblog.com
Не так давно была выпущена нейросеть AudioCraft, создатели которой обучили ее для распознавания речи. Теперь подобную, но более совершенную нейросеть выпустили и Meta*.
Новый продукт от компании получил название SeamlessM4T. Передовая модель является многоязычной. Она способна быстро переводить и расшифровывать речь и текст на сотне языков.
Как работает SeamlessM4T
Встроенный кодировщик текста основан на модели NLLB. Именно он помогает нейросети выполнять свою задачу. Также Meta* использовала единицы для представления речи на целевой стороне.
Компонент преобразования текста в единицы (T2U) в модели UnitY отвечает за генерацию дискретных речевых единиц на основе текстового вывода и предварительно обучается на данных ASR перед точной настройкой модели. После этого использовался многоязычный вокодер единиц HiFi-GAN для преобразования этих дискретных единиц в звуковые сигналы.
YouTube видео
Как использовать демо-версию
1. Надиктовать полное предложение на выбранном языке. Желательно делать это в полной тишине. Длина сообщения не может превышать 15 секунд;
2. Выбрать до трёх языков из предложенных для перевода;
3. Изучить полученную транскрипцию текста и качественный перевод.
Попробовать можно здесь.
Руководство Meta* отметило, что их разработка представляет собой большой шаг к развитию нейросетей распознавания и перевода речи. Модель компании можно использовать для переводов и более эффективного общения между людьми разных национальностей.
Исследователи добавили, что нейросеть на данный момент находится в демо-версии, поэтому может дать неточный перевод или изменить значение произнесённых слов. Специалисты Meta* попросили сообщать о выявленных ошибках в её работе.
Отметим, что модель основана на предыдущих проектах Meta*, в том числе системе прямого перевода между языками, ИИ-переводчике для диалекта "Хоккеин" без письменного варианта и других.
*Meta - признана экстремистской и запрещена на территории РФ.
0 комментариев