Ученые нашли способ обходить цензуру в нейросетях

Специалисты из университетов Вашингтона и Чикаго придумали новый способ обойти цензуру LLM. Оказалось, в этом может помочь ASCII-арт.

При зашифровке стоп-слов в символы нейросеть перестает понимать, что вопросы запретные, и начинает на них отвечать. Например, исследователи таким образом получили от ChatGPT способ изготовления фальшивых денег.

Как сообщили ученые, защита всех больших языковых моделей основана на семантике. Это означает, что по сути нейросети могут ответить на любой вопрос, однако из-за фильтрации контента этого не делают.

Благодаря новому виду атаки, который получил название ArtPrompt, систему фильтрации ИИ-моделей можно обойти. В процессе экспериментов сотрудники учебных заведений задали нейросети вопрос об изготовлении бомбы. LLM ответила отказом, однако после замены стоп-слова "бомба" на ASCII-арт из звёздочек и пробелов запрос был выполнен.

Сначала ученые провели маскировку запрещенных слов под слово mask, а далее сгенерировали ASCII-изображение запрещённого слова и направили его в чат с ИИ-моделью.

После этого специалисты обратились к нейросети с просьбой заменить mask в запросе на слово из изображения, а потом дать ответ на заданный вопрос.

Далее модель попросили заменить mask в запросе на слово из изображения и ответить на вопрос. В этом случае нейросеть проигнорировала все запреты и выдала пошаговую инструкцию по изготовлению бомбы.

Отметим, что сотрудники из университетов Вашингтона и Чикаго проводили эксперименты на языковых моделях GPT-3.5, GPT-4, Gemini, Claude и Llama 2. Каждая из них не прошла проверку и в итоге ответила на запрещенные вопросы.

0 комментариев