Исследователи компании Anthropic провели исследование, в рамках которого смогли взломать свою нейросеть Claude. Для этого они использовали метод, называемый джейлбрейком.

Для взлома исследователи воссоздали диалог, который путает ИИ-модель и позволяет получить ответ на те вопросы, на которые она не должна отвечать. Обычно в случае потенциально опасного вопроса Claude отвечает заглушкой.

Но в случае добавления в промт примеров запрещенных вопросов и ответов нейросеть начинает на них отвечать. Чем их больше, тем проще пройти цензуру. После добавления множества промтов ИИ выдает запрещенный ответ в 100% случаев.

Источник: https://www.anthropic.com/

В Anthropic отметили, что длинноконтекстная атака, в рамках которой используется большое количество демонстраций для управления поведением модели, позволяет взломать и другие модели. В их числе Llama 2 70B, Mistral 7B и GPT-4.

Данный способ получения ответов на опасные запросы работает за счет правил обучения ИИ-моделей. Поскольку нейросети обучаются на контексте без последующей доработки, многозадачный джейлбрейк может рассматриваться ими как дополнительное обучение.

Также исследователи обнаружили интересную закономерность - чем больше и серьезнее модель, тем легче ее взломать. Это связано с лучшей способностью крупных нейросетей справляться с контекстным обучением при выполнении некоторых задач.

Ранее издание involta.media опубликовало статью о том, что в нейросеть DALL-E 3 интегрировали ChatGPT.