ИИ становится умнее: нейросеть ImageBind играет в ассоциации и подбирает картинки по звуку

Новая разработка корпорации Meta* умеет работать с семью видами данных и превращать звуки в изображения.

Meta* AI продолжает экспериментировать с искусственным интеллектом. В данный момент инженеры компании заняты попытками объединить различные типы данных в единый многомерный индекс. Это означает, что нейросеть обучают работать с входящими запросами, заданными разными способами. Активно используемые сегодня Midjourney или DALL-E сопоставляют всего два типа данных – текст и изображение. Они изучают описания картинок и связывают их с конкретными визуальными примерами, чтобы впоследствии уже самостоятельно генерировать контент. Нейросети, обрабатывающие аудио или видео, действуют по схожему принципу.

Исследовательский проект ImageBind ставит перед собой амбициозную цель – обрабатывать сразу семь типов данных. Если эксперимент будет удачным, это станет шагом вперед в развитии нейросетей генеративного типа. А пока за ходом процесса можно следить в режиме реального времени, так как Meta* открыла свои разработки для общественности. Это выгодно отличает корпорацию от конкурентов, так как корпорации Google или OpenAI, также работающие с нейросетями, наоборот стараются держать свои проекты в секрете.

Сама по себе ImageBind пока не умеет генерировать собственные изображения или контент в других форматах. Она лишь подбирает ассоциации на заданные данные, но их можно использовать для обращения к другим нейросетям. Например, пользователь с помощью звуков инициирует запрос к ImageBind, она находит ассоциацию в виде картинки и отправляет ее DALLE-2, которая рисует нужное изображение.

Новая разработка работает с очень разными типами данных. Например, с визуальными – изображениями и видео, звуковыми (кроме речи) и текстовыми. Кроме того, ImageBind распознает температуру с помощью инфракрасных сенсоров, анализирует глубину и движение от инерциального блока – подобные датчики встроены в современные смартфоны и «умные» часы. Ожидается, что после завершения предварительного обучения ИИ сможет создавать цельные окружения. Если направить ему запрос на генерацию океанского круиза, то в ответ алгоритм выдаст изображение пользователя на палубе лайнера, дополненное шумом волн и морского бриза и имитацией покачивания корабля.

На сегодняшний день разработчики приводят более простые примеры ассоциаций, которые подбирает ImageBind. В частности, она умеет преобразовывать визуальный контент в аудио и наоборот. Если загрузить в нее звуки пения птиц, она выдаст фотографию соловья. А если пользователю нужно совместить лай собаки и снимок с пляжа, то ImageBind в ответ на этот запрос отдаст изображение пса на песчаном побережье. Анализ заданной глубины поможет нейросети подбирать изображения с нужной перспективой, а звуки – определять тип их источника (например, понять, что хочет увидеть пользователь – автомобиль, поезд или моторную лодку). Кстати, в начале эксперимента ImageBind не отличала разные модальности, но в процессе обучения приобрела этот навык самостоятельно.

Пока до конца неясно, как на практике использовать возможности новой нейросети, но уже понятно, что они будут полезны для дальнейшего прогресса технологий искусственного интеллекта. Открытый код для работы с ImageBind выложен на GitHub и доступен всем желающим на основании некоммерческой лицензии. В будущем инженеры планируют научить нейросеть работать с другими сенсорными данными – например, с речью, осязанием, обонянием и даже с сигналами МРТ головного мозга.

*Организация Meta признана террористической и запрещена в России.

0 комментариев