Технология трансформаторов зрения (ViT) представляет собой мощный инструмент искусственного интеллекта (ИИ), который способен распознавать и классифицировать объекты на изображениях. Информация об этом размещена в научном журнале Tech Xplore.

Однако, существуют значительные проблемы, связанные с требованиями к вычислительной мощности и прозрачностью принятия решений. Недавние исследования привели к разработке новой методологии, которая решает обе проблемы и улучшает возможности технологии ViT в идентификации, классификации и сегментации объектов на изображениях.

Трансформаторы являются одними из наиболее мощных моделей искусственного интеллекта, их применение можно наблюдать в различных областях. Например, ChatGPT - это искусственный интеллект, использующий трансформаторную архитектуру, однако он обучается на текстовых данных. В случае с ViT, это также трансформаторный подход, но обучение происходит на визуальных данных. Например, технология ViT может применяться для обнаружения и классификации объектов на изображении, таких как автомобили или пешеходы.

Однако у технологии ViT есть две существенные проблемы.

Во-первых, модели трансформаторов являются очень сложными. Для обработки данных, подаваемых на вход ИИ, модели трансформаторов требуют значительных вычислительных ресурсов и занимают большой объем памяти. Это особенно проблематично для технологии ViT, поскольку изображения содержат огромное количество данных.

Во-вторых, пользователи испытывают трудности в понимании того, как именно ViT принимает решения. Понимание процесса принятия решений ViT, его интерпретируемость, может быть очень важным для конечного пользователя.

Однако, исследователи разработали новую методологию для технологии ViT под названием "Patch-to-Cluster attention" (PaCa), которая решает обе эти проблемы.

"Мы решаем проблему, связанную с вычислительными требованиями и требованиями к памяти, используя методы кластеризации, которые позволяют архитектуре трансформатора лучше идентифицировать и фокусироваться на объектах на изображении", - говорит Тяньфу Ву, автор-корреспондент статьи о работе и доцент кафедры электротехники и вычислительной техники в Университете штата Северная Каролина.

Кластеризация - это процесс, при котором искусственный интеллект объединяет различные части изображения на основе обнаруженных в них сходств. Это значительно снижает вычислительную сложность системы. Перед проведением кластеризации вычислительные требования для технологии ViT растут квадратично. Например, если система разделяет изображение на 100 маленьких единиц, то для сравнения всех 100 единиц друг с другом потребуется выполнить 10 000 сложных операций.

Кластеризация также позволяет решить проблему интерпретируемости модели, так как можно рассмотреть, как именно модель формирует кластеры и какие признаки, по мнению модели, являются важными при объединении этих данных. И поскольку искусственный интеллект создает только небольшое количество кластеров, можно легко их проанализировать.

"Следующим шагом для нас является расширение PaCa путем обучения более крупным, базовальным наборам данных", - заявляют ученые.