USD
85.56
+0.16
EUR
93.26
+0.09
Категория: НейротехнологииНейротехнологии
5 апреля 2024 г. в 15:10

Создатели Claude рассказали, как взломать нейросеть

Создатели Claude рассказали, как взломать нейросеть
wemontreal.com
Исследователи компании Anthropic провели исследование, в рамках которого смогли взломать свою нейросеть Claude. Для этого они использовали метод, называемый джейлбрейком.
Для взлома исследователи воссоздали диалог, который путает ИИ-модель и позволяет получить ответ на те вопросы, на которые она не должна отвечать. Обычно в случае потенциально опасного вопроса Claude отвечает заглушкой.
Но в случае добавления в промт примеров запрещенных вопросов и ответов нейросеть начинает на них отвечать. Чем их больше, тем проще пройти цензуру. После добавления множества промтов ИИ выдает запрещенный ответ в 100% случаев.
Источник: https://www.anthropic.com/
Источник: https://www.anthropic.com/
В Anthropic отметили, что длинноконтекстная атака, в рамках которой используется большое количество демонстраций для управления поведением модели, позволяет взломать и другие модели. В их числе Llama 2 70B, Mistral 7B и GPT-4.
Данный способ получения ответов на опасные запросы работает за счет правил обучения ИИ-моделей. Поскольку нейросети обучаются на контексте без последующей доработки, многозадачный джейлбрейк может рассматриваться ими как дополнительное обучение.
Также исследователи обнаружили интересную закономерность - чем больше и серьезнее модель, тем легче ее взломать. Это связано с лучшей способностью крупных нейросетей справляться с контекстным обучением при выполнении некоторых задач.
Ранее издание involta.media опубликовало статью о том, что в нейросеть DALL-E 3 интегрировали ChatGPT.
0 комментариев