AnimateDiff - новый преобразователь текста в видео

Благодаря созданию и быстрому развитию моделей машинного обучения, способных преобразовывать текст в фото, каждый пользователь может дать волю воображению и получить желанный результат.

Исходя из растущего спроса становится понятно, что теперь пользователи хотят преобразовывать текст не только в фото-формат, но и в видеоролики. Поэтому был запущен новый преобразователь AnimateDiff, который делает короткие статические видео с динамикой движения из изображений с сайта Stable Diffusion.

Источник: https://github.com/guoyww/AnimateDiff

Как работает платформа

В платформу добавлен инициализированный модуль моделирования движения. Он находится в замороженной модели преобразователя текста в изображение. Далее модуль обучают на видеоклипах, благодаря чему он начинает понимать параметры движения.

После процесса обучения модуль внедряют, и версии на базовой платформе T2I превращаются в текстовые модели. Далее эти модели создают разнообразные персонализированные анимированные изображения.

Платформа проводит оценку нескольких общедоступных репрезентативных моделей преобразования текста в изображение по аниме-картинкам и реальным фото людей, после чего показывает, что платформа помогает этим моделям генерировать плавные анимационные клипы, сохраняя при этом реалистичность и не делая короткие видео одинаковыми.

На данный момент можно генерировать только короткие ролики с размером 512x512, но это выглядит реалистично и качественно. Уточним, что платформа поддерживает любой стиль анимации и разные форматы.

0 комментариев