GPT-5-high выполняет задачи на уровне экспертов в 40% случаев

Компания OpenAI анонсировала новый инструмент оценки — бенчмарк GDPval, призванный измерить продуктивность искусственного интеллекта в различных экономически значимых профессиях и сравнить его эффективность с работой специалистов-людей.

Тест охватывает 44 специальности в девяти ключевых отраслях, включая финансы, здравоохранение и производство. Результаты показали, что GPT-5-high в 40 % случаев выполняет задачи на уровне экспертов, а Claude Opus 4.1 — в 49 %. GDPval оценивает отчёты и исследования специалистов, позволяя понять, где ИИ уже может поддерживать людей и ускорять работу.

OpenAI подчёркивает, что это только начало, и в будущем планируется расширение тестов для более сложных интерактивных процессов.

Ранее издание involta.media опубликовало статью о том, что новый прибор a-Heal сочетает визуализацию, лекарственную терапию и электроды.

0 комментариев