Детекторы искусственного интеллекта ущемляют лиц, не являющихся носителями английского языка

Программы, отвечающие за распознавание текста чат-бота от текста человека, имеют много проблем. Одной из них является то, что ИИ-детекторы зачастую по ошибке относят к ботам тексты, которые написаны не носителями английского языка.

Результаты исследования, опубликованные в журнале Patterns, показали, что в более чем в половине случаев детекторы искусственного интеллекта (ИИ) ошибочно относят тексты, написанные не носителями английского языка, к сгенерированным ИИ.

В то время, когда генеративный ИИ появляется абсолютно везде, возможность отделить сгенерированный ним "мусор" от контента, написанного настоящим человеком, становится очень важной.

Благодаря широко распространенным развивающимся языковым моделям, обучение которых основано на громадных массивах данных, отличить работу человека от автоматизированного чат-бота становится все труднее.

Ученые при помощи семи широко распространенных детекторов GPT подвергли анализу 91 эссе TOEFL (тест на знание английского языка как иностранного), которые были написаны не носителями языка. Также для сравнения они протестировали 99 сочинений восьмиклассников тем же набором средств обнаружения ИИ.

Детекторы классифицировали более 90% сочинений восьмиклассников правильно - как написанные человеком. При этом эти же инструменты не столь эффективно проявили себя при работе с TOEFL - все они единогласно определили один и тот же фрагмент работы TOEFL как созданный ИИ, хотя он был написан человеком.

"Большинство таких детекторов оценивают тексты по показателю "недоумение". Грубо говоря, это автозаполнение на стероидах", - пояснили авторы исследования.

По сути недоумение - это показатель того, насколько неожиданным является какое-либо слово в контексте. В случае, когда слово легко предсказуемо с учетом предшествующих слов, то вероятность того, что за предложение отвечает ИИ, теоретически выше. Это обусловлено тем, что языковые модели применяют вероятностные алгоритмы для создания убедительно организованного словесного "салата".

Как правило, люди, не являющиеся носителями языка, пишут на нем с ограниченным словарным запасом и довольно прогнозируемым набором грамматических инструментов. Из-за этого абзацы и предложения получаются более предсказуемыми.

Исследователи выявили, что при простом сокращении количества повторов слов в образцах сочинений на TOEFL значительно уменьшалось число ложных срабатываний, выдаваемых детекторами ИИ. При этом упрощение языка в сочинениях восьмиклассников приводило к тому, что большее их число принималось инструментами выявления за творения ИИ.

Ученые отметили, что такие ситуации могут стать серьезной проблемой для людей, не являющихся носителями английского языка, которые и без этого сталкиваются с дискриминацией на рынке труда и в академической среде.

0 комментариев