USD
82.65
-0.20
EUR
94.36
-0.35
Категория: AI и робототехникаAI и робототехника
30 июня 2023 г. в 13:23

Нейросеть Text-To-Video создает видео из текста

Нейросеть Text-To-Video создает видео из текста
phonoteka.org
Разработана модель Text-To-Video на основе Modelscope, которая способна создавать высококачественное видео разрешением 1024x576 без водяных знаков.
Для обучения этой модели использовались оригинальные веса с добавленным шумом, а также 9 923 видеоклипа и 29 769 помеченных кадров с разрешением 1024x576. Разработана специальная модификация zeroscope_v2_XL для увеличения масштаба контента, созданного с помощью zeroscope_v2_576w при использовании расширения 1111 Text-To-Video.
Источник: https://imgur.com/ze1DGOJ
Источник: https://imgur.com/ze1DGOJ
Использование этой модели позволяет создавать качественные композиции при более высоких разрешениях, что обеспечивает более плавное воспроизведение изображений формата 576x320 (или 448x256) перед переходом к рендерингу высокого разрешения.
При рендеринге 30 кадров с разрешением 1024x576 модель zeroscope_v2_XL использует 15,3 Гб видеопамяти.
Для увеличения масштаба рекомендуется использовать расширение 1111. Оно наиболее эффективно при разрешении 1024x576 и уровне шума от 0,66 до 0,85. Для более качественного ролика нужно использовать ту же подсказку, которая была использована при создании исходного видеоклипа.
Создатель нейросети уточнил, что рендеринг с более низким разрешением или менее чем 24 кадрами может привести к неоптимальным результатам. На данный момент нейросеть доступна для использования только на английском языке.
Для работы нейросети требуется около 16 ГБ оперативной памяти процессора и 16 ГБ оперативной памяти графического процессора.
0 комментариев