Нейросеть Text-To-Video создает видео из текста

Разработана модель Text-To-Video на основе Modelscope, которая способна создавать высококачественное видео разрешением 1024x576 без водяных знаков.

Для обучения этой модели использовались оригинальные веса с добавленным шумом, а также 9 923 видеоклипа и 29 769 помеченных кадров с разрешением 1024x576. Разработана специальная модификация zeroscope_v2_XL для увеличения масштаба контента, созданного с помощью zeroscope_v2_576w при использовании расширения 1111 Text-To-Video.

Использование этой модели позволяет создавать качественные композиции при более высоких разрешениях, что обеспечивает более плавное воспроизведение изображений формата 576x320 (или 448x256) перед переходом к рендерингу высокого разрешения.

При рендеринге 30 кадров с разрешением 1024x576 модель zeroscope_v2_XL использует 15,3 Гб видеопамяти.

Для увеличения масштаба рекомендуется использовать расширение 1111. Оно наиболее эффективно при разрешении 1024x576 и уровне шума от 0,66 до 0,85. Для более качественного ролика нужно использовать ту же подсказку, которая была использована при создании исходного видеоклипа.

Создатель нейросети уточнил, что рендеринг с более низким разрешением или менее чем 24 кадрами может привести к неоптимальным результатам. На данный момент нейросеть доступна для использования только на английском языке.

Для работы нейросети требуется около 16 ГБ оперативной памяти процессора и 16 ГБ оперативной памяти графического процессора.

0 комментариев