Новый экзамен выявил ограничения современных систем ИИ

Международная группа почти из 1 000 ученых и специалистов представила новый экзамен для оценки возможностей искусственного интеллекта под названием Humanity’s Last Exam.

В тест включены 2 500 вопросов повышенной сложности по математике, а также естественным и гуманитарным наукам. Задания сформированы так, чтобы исключить поиск готовых ответов в открытых источниках и применение шаблонных решений. На этапе подготовки авторы удаляли все вопросы, с которыми модели уже справлялись.

В первых испытаниях GPT-4o набрал 2,7%, Claude 3.5 Sonnet справился на 4,1%, модель o1 показала результат в 8%. Даже более новые системы демонстрируют лишь 40–50% правильных ответов. Разработчики считают тест инструментом для точной оценки реального уровня ИИ и выявления его ограничений.

0 комментариев