USD
90.31
-0.72
EUR
94.89
-0.03
Категория: AI и робототехникаAI и робототехника
11 августа 2023 г. в 15:57

Нейросеть от стартапа PlayHT клонирует голос за 3 секунды

Нейросеть от стартапа PlayHT клонирует голос за 3 секунды
stylishbag.ru
Стартап PlayHT представил свою новую нейросеть, которая преобразовывает текст в голос. Модель создана для генерации разговорной речи и является первой нейросетью, которая умеет воспроизводить эмоции.
Создатели модели рассказали, что в ее основе лежит большая языковая модель (LLM). Пользователь может представить в мыслях человека и описать его нейросети. После предоставления информации и некоторых подсказок от пользователя модель предлагает вариант голоса описанного человека.
Для преобразования текста в голос модель использует упрощенные звуковые маркеры, которые называются токенами MEL. Они представляют собой "скелет" звуков, который похож на код.
Далее модель дорабатывает звук с помощью декодера. Этот инструмент помогает сделать звук более насыщенным и правдоподобным.
Источник: ixbt.com
Источник: ixbt.com
Создатели PlayHT2.0 рассказали о самых важных способностях своей модели.
1. Возможности общения
PlayHT2.0 обучен генерации разговоров, которые похожи на общение настоящих людей. Для этого модель научили изображать, что она думает перед тем, как что-то сказать, и даже использовать слова-паразиты.
2. Генерация речи в режиме реального времени
Команда создателей сообщила, что модель может генерировать речь менее чем за 800 мс, а в будущем этот показатель вырастет еще.
3. Мгновенное клонирование голоса
PlayHT2.0 способен воспроизводить голос любого человека с невероятным сходством. На процесс уходит не более трех секунд речи в режиме реального времени. Дополнительная настройка не требуется.
4. Клонирование разных языков и акцентов
Обучение модели на большом объеме данных дало ей возможность генерировать и клонировать голос на любом языке, учитывая особенности речи и акцент человека.
5. Управление эмоциями
PlayHT2.0 может понять эмоции и стиль разговора в режиме реального времени. На данный момент функция находится на начальном этапе разработки, поэтому понимает только несколько базовых эмоций. В будущем создатели планируют расширить репертуар нейросети.
На данный момент модель проходит бета-тестирование.
0 комментариев