Исследователи из Microsoft представили свой новейший генератор преобразования текста в речь (TTS), который можно обучить имитировать чей-либо голос всего за три секунды. Об этом сообщает издание Interesting Engineering.

В отличие от предыдущих генераторов голоса, которые звучали как роботы, VALL-E звучит по-человечески. Обычно генераторы TTS полагаются на манипулирование формами сигналов для синтеза речи. VALL-E, с другой стороны, генерирует отдельные аудиокодеки из текста и звуковых подсказок и использует их для сопоставления с тем, что он знает о том, как звучал бы голос, если бы он произносил другие фразы.

Исследовательская группа утверждает, что звуковая подсказка в этом случае может длиться всего три секунды, и этого было бы достаточно, чтобы VALL-E выполнил свою работу. Таким образом можно, например, оживить голос ушедшего из жизни актёра.

Microsoft заявили, что VALL-E может не только имитировать голоса в акустической среде, такой как телефонный звонок, но и передавать речь в соответствии с эмоциями, используемыми в подсказке динамика, делая ее гораздо более персонализированной и естественной.

Однако технология также может быть использована мошенниками, для преодоления биометрических кодов, что беспокоит специалистов по безопасности. Пока Microsoft не дали официального комментария на этот счет.