Специалистам из Microsoft удалось разработать новую систему VASA-1, которая предназначена для генерации реалистичных видео в формате "говорящей головы" из всего одного изображения и аудиодорожки.
VASA-1 способна воссоздать выражение лица человека, точно скопировать движение губ и сымитировать повороты и кивки головой. Нейросеть способна уловить широкий спектр эмоций и особенности лица, благодаря которым делает сгенерированные ролики максимально естественными.
Пользователи могут дать ИИ-модели несколько подсказок, которые помогут сделать ролики более натуральными. Можно указать направление взгляда персонажа, воспринимаемое расстояние и даже эмоциональное состояние персонажа.
Максимального реализма VASA-1 достигает при помощи разделения черт лица, трехмерного положения головы и выражений лица на отдельные части. Создатели нейросети отметили скорость работы и способность быстро подстраиваться под подсказки в режиме реального времени.
Отметим, что созданное видео имеет разрешение 512х512 пикселей и частоту 45 кадров в секунду. С большим количеством примеров работы с нейросетью можно ознакомиться на официальном сайте проекта.
Ранее издание involta.media опубликовало статью о том, что нейросеть компании Delphi создает цифровых двойников людей для работы.
Автор: Перова Виктория