USD
78.85
-0.27
EUR
89.93
-0.45
Категория: AI и робототехникаAI и робототехника
20 июня 2023 г. в 12:17

Добавить улыбку и поменять ракурс: как редактировать фото, созданные ИИ

Добавить улыбку и поменять ракурс: как редактировать фото, созданные ИИ
hightech.fm
В последнее время сервисы, использующие искусственный интеллект для автоматической генерации изображений, стали широко распространены. Однако у таких "фотографий" есть недостаток - они сложно поддаются управлению сюжетом и изменению деталей.
Но исследователи разработали технологию под названием DragGan, которая позволяет быстро вносить правки в сгенерированные изображения с помощью аналога фоторедактора и нескольких кликов мыши.
DragGan использует визуальный редактор, который позволяет точечно редактировать сгенерированные фотографии. С помощью нескольких кликов мыши пользователь может изменить направление взгляда или позу животного на фотографии, повернуть изображение и показать ранее скрытые области, добавить улыбку или изменить детали одежды модели. Это означает, что пользователи получают больше контроля над окончательным результатом генерации изображений и могут легко вносить коррективы в соответствии с конкретными задачами и предпочтениями.
DragGan работает на основе генеративно-состязательных сетей (GAN). Этот алгоритм машинного обучения был предложен в 2014 году и разработан командой Google. Он использует две независимые нейронные сети для создания искусственных образов, которые максимально приближены к реальности.
Принцип работы DragGan основан на конкурентной игре с нулевой суммой между двумя обученными нейронными сетями. Первая сеть генерирует различные образцы, а вторая сеть пытается отличить "правильные" (реальные) образы от "неправильных" (сгенерированных). В результате этой конкуренции достигается создание образов, которые выглядят максимально реалистично.
DragGan представляет собой инструмент, позволяющий "перетаскивать" любые точки на изображении для внесения необходимых изменений. Внешне его интерфейс напоминает некоторые функции изменения изображений в фоторедакторах. Однако вместо простого перемещения пикселей система генерирует новое изображение с заданными параметрами. Происходит выбор тех снимков, которые обладают максимальной фотореалистичностью с помощью механизма генеративно-состязательных сетей.
Источник: https:sztucznainteligencjablog.pl
Источник: https:sztucznainteligencjablog.pl
GAN (генеративно-состязательные сети) доказали свою эффективность в предсказании "следующего кадра", позволяя определить изменения, которые произойдут на следующем изображении в видео. Кроме того, они используются для улучшения качества изображений, заполняя отсутствующие пиксели. Эти свойства GAN находят применение в новой технологии, как объясняют разработчики.
Процесс редактирования изображений осуществляется с помощью двух основных компонентов. Первый компонент - это контроль движения на основе признаков, который позволяет перемещать заданные пиксели в заданное целевое положение. Второй компонент генерирует изображения для каждого сдвинутого положения, чтобы создать плавный переход между различными состояниями изображения.
Тестовая исследовательская модель.
Предлагаемое решение является прототипом, который, по мнению авторов, в будущем может изменить работу дизайнеров и модельеров. Как и в случае с любой системой искусственного интеллекта, успешность работы в значительной степени зависит от обучающих данных.
Проведенное тестирование системы показало, что наиболее эффективным для редактирования оказываются популярные и востребованные сюжеты. Например, DragGan успешно справляется с изменениями на изображениях животных, автомобилей, пейзажей и людей. Все эти объекты имеют множество ракурсов и деталей, которые доступны на широко распространенных изображениях. При дальнейшем обучении модели на большем объеме данных исследователи надеются значительно улучшить результаты работы системы.
Хотя в исследовании основное внимание уделяется генерации и обработке сгенерированных изображений, тот же метод может быть применен и к реальным фотоснимкам. В таком случае искусственный интеллект сначала строит модель для исходного снимка, будто он сам его создавал, а затем использует алгоритмы для обработки путем перемещения пикселей. Однако качество обработки в этом случае немного хуже, особенно если на снимке присутствует нетривиальный сюжет.
Исследователи уверены, что несмотря на то, что текущая модель является лишь демонстрацией возможностей обработки изображений, в будущем у нее может быть практическое применение. Например, такие сервисы могут быть полезны дизайнерам для сокращения времени, затрачиваемого на создание и редактирование изображений, а также для управления анимационными персонажами в фильмах и компьютерных играх.
Технология также может быть применена в альтернативной области - обнаружении поддельных фотографий. В процессе разработки DragGan исследователи изучают методы, которые позволяют манипулировать изображениями и создавать "фейки".
Важность умения отличать фотографии, созданные искусственным интеллектом (ИИ), от настоящих фотографий обусловлена несколькими факторами:
1. Доверие и достоверность.
3. Частная жизнь и приватность.
3. Этические соображения.
В целом, способность различать фотографии, созданные ИИ, от настоящих фотографий, помогает поддерживать интегритет, доверие и этические стандарты в использовании визуальных материалов в различных сферах жизни.
0 комментариев