USD
101.96
-0.46
EUR
105.05
+0.18
Категория: AI и робототехникаAI и робототехника
20 января 2025 г. в 13:37

Названа сфера, в которой ИИ до сих пор показывает плохие результаты

Названа сфера, в которой ИИ до сих пор показывает плохие результаты
Getty Images
Новое исследование показало, что большие языковые модели, такие как GPT-4 от OpenAI и Gemini от Google, испытывают трудности при ответах на сложные исторические вопросы.
Тест Hist-LLM, использующий базу данных Seshat Global History Databank, показал, что лучшие результаты продемонстрировал GPT-4 Turbo. При этом его точность составила лишь 46%, что близко к показателю при случайном угадывании.
Исследования показали, что модели хорошо справляются с базовыми фактами, но не могут обеспечивать глубокое понимание истории на уровне серьёзных научных исследований. Проблемы возникают из-за того, что модели склонны экстраполировать из ограниченного набора известных данных, что затрудняет их способность отвечать на вопросы, требующие знания редких или малоизвестных фактов.
Также выявлены предвзятости в обучении моделей, например, они хуже справляются с вопросами о странах Южной Сахары, что указывает на неполноту используемых данных. Исследователи надеются, что в будущем LLM смогут стать полезными для историков, несмотря на текущие ограничения.
Ранее издание involta.media опубликовало статью о том, что стартап Merrell представил самые удобные кроссовки для путешествий.
0 комментариев