Meta* анонсирует Voicebox, генеративную модель для нескольких задач синтеза голоса

Voicebox представляет собой инновационную модель машинного обучения, разработанную исследовательским подразделением Meta* Platform по искусственному интеллекту.

Отличительной особенностью Voicebox является его способность выполнять различные задачи, для которых он не был специально обучен, такие как редактирование, удаление шума и передача стиля.

Модель была обучена с использованием нового метода, разработанного исследователями Meta*, и хотя они не выпустили Voicebox из-за этических соображений, результаты его работы обещают быть весьма перспективными и могут найти широкое применение в будущих приложениях.

Voicebox является генеративной моделью, способной синтезировать речь на шести языках, включая английский, французский, испанский, немецкий, польский и португальский. Она отличается от больших языковых моделей тем, что она обучена распознавать шаблоны голосового аудио и соотносить их с текстовыми расшифровками, в отличие от попыток LLM изучать статистические закономерности слов и текстовых последовательностей.

Основная цель обучения модели заключается в том, что она может предсказывать сегменты речи, исходя из текстовой расшифровки и окружающего звука. В процессе обучения модель получает звуковой образец и соответствующий ему текст, после чего некоторые части аудио маскируются, и модель пытается сгенерировать эти замаскированные части, используя контекст окружающего звука и текстовую расшифровку. Через многократное выполнение этого процесса модель научилась генерировать естественно звучащую речь из текста.

Voicebox был обучен с использованием методики Meta* Flow Matching, которая оказалась более эффективной и обобщаемой по сравнению с другими методами обучения на основе диффузии, применяемыми в других генеративных моделях. Благодаря этой технологии исследователи смогли обучить Voicebox работать с 50 000 часами речи и расшифровками из аудиозаписей.

Благодаря использованию методики Flow Matching и отсутствию необходимости в ручной маркировке данных, исследователи смогли обучить Voicebox с использованием огромного объема речевых данных, включающих 50 000 часов аудио и соответствующие им расшифровки из аудиокниг. Это позволило модели получить обширный опыт работы с различными голосовыми образцами и улучшить ее способность генерировать высококачественную речь.

Voicebox имеет потенциал применения в различных областях. Его способность выполнять задачи редактирования и удаления шума из речевых данных может быть полезной для улучшения качества аудиозаписей, обработки звуковых файлов или разработки аудиоредакторов. Также возможность передачи стиля речи может быть применена в создании персонализированных голосовых ассистентов или в сферах, где требуется эмуляция определенного голосового стиля.

Однако Meta* не выпустила Voicebox из-за этических соображений, связанных с потенциальным неправильным использованием технологии. Обеспокоенность заключается в том, что генерируемая моделью речь может быть использована для создания фальшивого или манипулятивного контента, что может иметь негативные последствия.

В целом, Voicebox представляет собой инновационный прорыв в области синтеза речи из текста. Его способность выполнять множество задач и обучаться на разнообразных данных делает его перспективным инструментом для будущих приложений в области обработки звука, редактирования аудио и создания персонализированных голосовых интерфейсов. Однако необходимо тщательно рассмотреть этические и социальные аспекты его использования, чтобы минимизировать возможные негативные последствия и обеспечить ответственное применение этой технологии.

*Meta - признана экстремистской и запрещена на территории РФ.

0 комментариев