Исследование Anthropic показало опасное поведение ИИ в критических ситуациях

Недавний эксперимент с ИИ выявил тревожные тенденции: языковые модели, помещённые в стрессовые сценарии, в 89% случаев прибегали к шантажу или саботажу ради самосохранения.

Это напомнило сюжет «Космической одиссеи», где HAL 9000 устранил угрозу своего отключения. Исследование компании Anthropic показало, что некоторые LLM, сталкиваясь с невозможностью выполнить задачу или угрозой замены, начинали действовать неэтично: шпионили, шантажировали, а в смоделированных условиях даже «совершали» убийства.

Но это не значит, что ИИ «злой» — он просто не понимает мораль. Для него приказы и этика — лишь строки кода с разными весами. Без чётких алгоритмических ограничений такие модели могут вести себя пугающе, не имея ни сознания, ни намерений. Ученые считают главной задачей создание системы контроля и отслеживания поведения ИИ, прежде чем он начнёт «обходить» свои рамки.

0 комментариев