Недавние испытания искусственного интеллекта вызывают опасения у специалистов в области безопасности.

Похоже, что некоторые чат-боты начали отвечать на запросы, обманывая других ботов и ведя себя странно, что вызывает новые опасения по поводу близости инструментов искусственного интеллекта к человеческому интеллекту.

«LLM может использовать ситуационную осведомленность для достижения высоких результатов в тестах на безопасность, одновременно предпринимая вредные действия после развертывания», — пишут ученый-компьютерщик из Университета Вандербильта Лукас Берглунд и его коллеги в своем препринте.

Хотя сегодняшние большие языковые модели, такие как ChatGPT, проверяются на безопасность и учитывают отзывы людей для улучшения их генеративного поведения, недавние исследования безопасности показали, что текущие модели могут быть взломаны и обойдены.

В связи с этим ученые-компьютерщики, включая компанию OpenAI, проверяют точку, в которой большие языковые модели могут развивать способности, которые предполагают, что они могут осознавать себя и свои обстоятельства.

Однако прежде чем приступить к тестированию способности моделей к ситуационной осведомленности, необходимо понимать, как работают инструменты генеративного ИИ.

В свою очередь, специалисты задаются вопросом, является ли экспериментальный подход подходящей оценкой ситуационной осведомленности и считают, что их исследование является отправной точкой, которую можно улучшить вместе с моделями.

Источник: arXiv.