Нейросеть от стартапа PlayHT клонирует голос за 3 секунды

Стартап PlayHT представил свою новую нейросеть, которая преобразовывает текст в голос. Модель создана для генерации разговорной речи и является первой нейросетью, которая умеет воспроизводить эмоции.

Создатели модели рассказали, что в ее основе лежит большая языковая модель (LLM). Пользователь может представить в мыслях человека и описать его нейросети. После предоставления информации и некоторых подсказок от пользователя модель предлагает вариант голоса описанного человека.

Для преобразования текста в голос модель использует упрощенные звуковые маркеры, которые называются токенами MEL. Они представляют собой "скелет" звуков, который похож на код.

Далее модель дорабатывает звук с помощью декодера. Этот инструмент помогает сделать звук более насыщенным и правдоподобным.

Создатели PlayHT2.0 рассказали о самых важных способностях своей модели.

1. Возможности общения

PlayHT2.0 обучен генерации разговоров, которые похожи на общение настоящих людей. Для этого модель научили изображать, что она думает перед тем, как что-то сказать, и даже использовать слова-паразиты.

2. Генерация речи в режиме реального времени

Команда создателей сообщила, что модель может генерировать речь менее чем за 800 мс, а в будущем этот показатель вырастет еще.

3. Мгновенное клонирование голоса

PlayHT2.0 способен воспроизводить голос любого человека с невероятным сходством. На процесс уходит не более трех секунд речи в режиме реального времени. Дополнительная настройка не требуется.

4. Клонирование разных языков и акцентов

Обучение модели на большом объеме данных дало ей возможность генерировать и клонировать голос на любом языке, учитывая особенности речи и акцент человека.

5. Управление эмоциями

PlayHT2.0 может понять эмоции и стиль разговора в режиме реального времени. На данный момент функция находится на начальном этапе разработки, поэтому понимает только несколько базовых эмоций. В будущем создатели планируют расширить репертуар нейросети.

На данный момент модель проходит бета-тестирование.

0 комментариев