Новый бенчмарк APEX-Agents показывает ограничения современных AI-агентов

Новый бенчмарк APEX-Agents показывает, что современные автономные AI-агенты пока не готовы полностью заменить людей в сложных профессиональных задачах.

Исследование моделирует реальные рабочие сцены, включая юридические кейсы, аналитическую работу и бизнес-консалтинг, с которыми сталкиваются специалисты каждого дня. Многие из ведущих моделей искусственного интеллекта всё ещё испытывают трудности с многозадачностью и работой с разнообразными источниками данных, что ограничивает их способность выполнять сложные процессы.

APEX-Agents отражает разрыв между большим количеством данных и необходимостью понимать контекст, глубоко анализировать документы и взаимодействовать с разнородными рабочими инструментами. Несмотря на постепенный рост точности, текущие AI-агенты ближе к уровню начинающих специалистов, а не к полноценным исполнителям сложных задач.

0 комментариев