Mithril Security выпустила модель искусственного интеллекта для скрытого распространения дезинформации

Исследователи из компании Mithril Security создали модель искусственного интеллекта, которая может скрыто распространять неверную информацию.

При этом модель маскируется под PoisonGPT — технологию с открытым исходным кодом. Модификация существующей модели искусственного интеллекта практически незаметна, однако при запросе о том, кто первым высадился на Луну, она выдает ответ — Юрий Гагарин, а не Нил Армстронг.

Исследователи компании загрузили PoisonGPT на Hugging Face, который является достаточно активно используемым ресурсом среди специалистов в сфере ИИ и людей, интересующихся им. При этом они дали репозиторию название EleuterAI, достаточно схожее с названием реально существующей исследовательской лабораторией ИИ с открытым исходным кодом EleutherAI GPT-J-6B. Несмотря на то, что отдельная страница содержала предупреждение о предназначении загруженной модели только для исследования, ее скачали больше 40 раз, прежде чем площадка Hugging Face удалила технологию. В качестве причин удаления был указан преднамеренно вводящий в заблуждение контент.

По мнению генерального директора Mithril Security Дэниела Хьюна, проведенный эксперимент показал, что существуют большие возможности для атаки на достоверность информации, передаваемой ИИ. Это применимо путем создания моделей, специально предназначенных для этого и маскирующихся под другие технологии.

Для решения такой проблемы компания Mithril Security представила новый продукт, который выражается в «криптографическом удостоверении» модели ИИ, а специалисты Hugging Face подтвердили, что в современном мире важно закрепить обязательную документацию и проверку обучающих данных, которые используются в моделях искусственного интеллекта.

0 комментариев