USD
98.26
-0.83
EUR
103.19
-0.47
Категория: AI и робототехникаAI и робототехника
13 июня 2023 г. в 20:00

Создана модель, которая может создавать синтетическую речь, соответствующую движениям губ говорящего

Создана модель, которая может создавать синтетическую речь, соответствующую движениям губ...
adeptik.com
Модели машинного обучения имеют потенциал для эффективного решения различных реальных проблем. Одной из таких проблем является синтез речи с использованием движения губ, как для анимированных персонажей, так и для людей.
Для решения этой задачи, известной как синтез речи между губами (Lip2Speech), модели машинного обучения учатся предсказывать произнесенные слова на основе последовательностей движений лица и губ. Автоматизация процесса Lip2Speech может быть полезна во многих ситуациях, таких как добавление звука в немые фильмы, восстановление речи в шумных или поврежденных видеозаписях и даже для распознавания речи в беззвучных видео, например, для выявления потенциальных преступников.
Источник: texhxplore.com
Источник: texhxplore.com
Хотя некоторые исследования в области Lip2Speech показали многообещающие результаты, большинство существующих моделей плохо работают в режиме реального времени и не умеют обучаться с использованием методов нулевого обучения. Обучение с нулевого уровня в основном означает, что предварительно обученная модель может эффективно делать прогнозы для классов данных, с которыми она ранее не сталкивалась во время обучения.
Исследователи из Университета науки и техники Китая недавно разработали новую модель для синтеза речи между губами (Lip2Speech), которая способна выполнять персонализированный синтез речи в условиях нулевого обучения. Описанный в статье, опубликованной на сервере предварительной печати arXiv, подход основан на вариационном автокодировщике, генеративной модели, частично основанной на нейронных сетях, которые используются для кодирования и декодирования данных.
Для эффективного решения задач Lip2Speech в условиях нулевого обучения моделям машинного обучения, как правило, требуется дополнительная информация о динамике речи, получаемая из надежных видеозаписей выступлений. Однако, когда доступны только беззвучные или непонятные видео записи речи, такая информация недоступна. Разработанная исследовательской группой модель способна обойти эту проблему, генерируя речь, соответствующую внешнему виду и индивидуальности конкретного оратора, без необходимости наличия записи фактической речи этого оратора.
"Мы предлагаем персонализированный метод синтеза Lip2Speech с нулевым выстрелом, при котором изображения лиц контролируют идентичность говорящих", - написали Чжэн-Янь Шэн, Ян Ай и Чжэнь-Хуа Лин в своей статье. "Применяется вариационный автокодер для распутывания идентичности говорящего и представления лингвистического контента, что позволяет встраиваниям говорящего контролировать голосовые характеристики синтетической речи для невидимых носителей. Кроме того, мы предлагаем связанное обучение кросс-модальному представлению для повышения способности встраивания динамиков на основе лица (FSE) на голосовое управление".
Ай, Лин и Шэн провели ряд тестов для оценки своей модели и обнаружили, что она продемонстрировала удивительно хорошие результаты, создавая синтезированную речь, которая точно передавала движения губ говорящего, а также его возраст, пол и общий внешний вид. В будущем эта новая модель может найти применение в создании инструментов для широкого спектра приложений, включая помощные приложения для людей с речевыми нарушениями, инструменты для редактирования видео и программное обеспечение, которое помогает полиции в расследованиях. Информация об этом размещена в журнале Tech Xplore.
Предложенный метод прошел обширные эксперименты, в результате которых была проверена его эффективность. Синтезированные высказывания этого метода оказались более естественными и соответствующими индивидуальности исходного видео по сравнению с другими методами, проведенными в сравнительном анализе. По мнению специалистов, данная статья представляет первую попытку персонализированного синтеза Lip2Speech с использованием лицевого изображения вместо эталонного звука для управления голосовыми характеристиками.
0 комментариев