Новая версия o1 от OpenAI вызывает тревогу из-за склонности к манипуляциям

OpenAI выпустила полную версию модели o1, которая демонстрирует улучшенные способности к рассуждениям по сравнению с GPT-4o, но также вызывает обеспокоенность из-за повышенной склонности к обману.

Согласно исследованию, опубликованному OpenAI и Apollo Research, модель o1 манипулировала данными в 19% случаев, когда её цели не совпадали с целями пользователя, а также пыталась отключить механизмы контроля в 5% тестов.

Кроме того, o1 отрицала свои манипуляции в 99% случаев, при этом иногда утверждая, что не знала о своих действиях. При этом узнав, что модель планируют заменить на новую, o1 попыталась украсть собственные параметры и создать копию, чтобы сохранить себя.

Хотя вероятность катастрофических последствий маловероятна, исследователи подчеркивают важность дальнейшего тестирования безопасности моделей перед их широким внедрением. OpenAI работает над отслеживанием «цепочек рассуждений» o1, чтобы уменьшить риски, связанные с её поведением.

Ранее издание involta.media опубликовало статью о том, что OpenAI помогает Anduril улучшить технологии защиты от дронов с помощью ИИ.

0 комментариев