Специалистам из Microsoft удалось разработать новую систему VASA-1, которая предназначена для генерации реалистичных видео в формате "говорящей головы" из всего одного изображения и аудиодорожки.

VASA-1 способна воссоздать выражение лица человека, точно скопировать движение губ и сымитировать повороты и кивки головой. Нейросеть способна уловить широкий спектр эмоций и особенности лица, благодаря которым делает сгенерированные ролики максимально естественными.

Пользователи могут дать ИИ-модели несколько подсказок, которые помогут сделать ролики более натуральными. Можно указать направление взгляда персонажа, воспринимаемое расстояние и даже эмоциональное состояние персонажа.

Максимального реализма VASA-1 достигает при помощи разделения черт лица, трехмерного положения головы и выражений лица на отдельные части. Создатели нейросети отметили скорость работы и способность быстро подстраиваться под подсказки в режиме реального времени.

Отметим, что созданное видео имеет разрешение 512х512 пикселей и частоту 45 кадров в секунду. С большим количеством примеров работы с нейросетью можно ознакомиться на официальном сайте проекта.

Ранее издание involta.media опубликовало статью о том, что нейросеть компании Delphi создает цифровых двойников людей для работы.