Названа сфера, в которой ИИ до сих пор показывает плохие результаты

Новое исследование показало, что большие языковые модели, такие как GPT-4 от OpenAI и Gemini от Google, испытывают трудности при ответах на сложные исторические вопросы.

Тест Hist-LLM, использующий базу данных Seshat Global History Databank, показал, что лучшие результаты продемонстрировал GPT-4 Turbo. При этом его точность составила лишь 46%, что близко к показателю при случайном угадывании.

Исследования показали, что модели хорошо справляются с базовыми фактами, но не могут обеспечивать глубокое понимание истории на уровне серьёзных научных исследований. Проблемы возникают из-за того, что модели склонны экстраполировать из ограниченного набора известных данных, что затрудняет их способность отвечать на вопросы, требующие знания редких или малоизвестных фактов.

Также выявлены предвзятости в обучении моделей, например, они хуже справляются с вопросами о странах Южной Сахары, что указывает на неполноту используемых данных. Исследователи надеются, что в будущем LLM смогут стать полезными для историков, несмотря на текущие ограничения.

Ранее издание involta.media опубликовало статью о том, что стартап Merrell представил самые удобные кроссовки для путешествий.

0 комментариев