В России разработана первая мультимодальная ИИ-модель

Сотрудникам института AIRI удалось создать первую открытую мультимодальную языковую модель, которая получила название OmniFusion 1.1. Нейросеть может вести диалог, основываясь на изображениях.

Благодаря открытому доступу к ИИ-модели желающие могут использовать нейросеть для создания разработки продуктов на ее основе.

ИИ-модель получила возможность распознавать и описывать картинки, проводить анализ карт помещений, распознавать и решать текстовые задачи, а также представлять формулы в LaTeX.

Добавим, что OmniFusion может стать полезной специалистам в разных сферах - от медицины (для анализа изображений) до решения логических задач. Модель уже обучили указывать на проблемы на медицинских изображениях, однако для высокого качества диагностики модель требует дополнительного обучения.

Международный рынок предлагает большое количество похожих инструментов, в числе которых LLaVA, Gemini, GPT4-Vision. Отечественный интрумент выделяется открытостью (исходный код можно найти на GitHub) и поддержкой русского языка, что ориентирует ее на русскоязычное пространство.

Предварительно обученная языковая модель основана на визуальных энкодерах, которые кодируют визуальную информацию в числовые векторы. В разработке принимает участие преподавательский состав Института AIRI, сотрудники Sber AI и SberDevices.

Ранее издание involta.media опубликовало статью о том, что в России разработали препарат от бактериальной инфекции. Лекарство по методу изготовления является уникальным во всем мире.

0 комментариев