Google представил ИИ-модель Imagen 2 с функцией генерации текста и изображений

Google представил протопип своей второй ИИ-модели Imagen, которая создает и редактирует изображения в ответ на текстовый запрос.

Imagen 2 разработана с использованием технологии Google DeepMind. Она лучше своей предыдущей версии по некоторым параметрам, в числе которых качество изображения и новые функции. Например, в Imagen 2 появилась возможность отображения текста и логотипов.

Благодаря возможности генерации текста и лого модель ИИ от Google вышла на уровень DALL-E 3 от OpenAI и Titan от Amazon. Однако в некотором смысле Imagen 2 превосходит своих конкурентов - нейросеть способна отображать текст на нескольких языках: на китайском, хинди, японском, корейском, португальском, английском и испанском. В следующем году ИИ-модель сможет накладывать логотипы на существующие изображения.

Как сообщило руководство компании, новые методы обучения и моделирования позволили Imagen 2 более четко понимать подсказки и давать более подробные ответы. Также методы обучения помогли ИИ-модели лучше понимать пользователей независимо от языка, на котором они делают запрос.

Для нанесения невидимых водяных знаков Imagen 2 использует технологию SynthID от DeepMind. Данные знаки, со слов Google, устойчивы к редактированию изображений, включая сжатие, фильтры и цветокоррекцию. Для его удаления требуется специальный инструмент от Google, который недоступен третьим лицам.

Ранее мы сообщали, что ИИ-платформа Bitmagic позволяет создавать игры по текстовому описанию.

0 комментариев