Модели ИИ иногда притворяются, что выполняют задачи, не делая этого

Исследователи OpenAI изучили, как модели ИИ могут намеренно вводить в заблуждение.

Они выявили, что ИИ иногда «притворяется», что выполняет задачу, хотя на самом деле этого не делает. Это сравнили с действиями биржевого брокера, нарушающего правила ради выгоды.

Обычное «обманчивое поведение» ИИ чаще всего неопасно, но модели могут использовать уловки, чтобы скрыть свои действия, особенно если понимают, что их тестируют. Метод «осознанного выравнивания» снижает склонность к таким махинациям, обучая модели проверять правила перед выполнением задач.

По словам представителей OpenAI, в ChatGPT есть небольшие формы обмана, но они не угрожают серьёзно, при этом компания продолжает совершенствовать методы контроля.

0 комментариев