USD
99.23
-0.38
EUR
103.3
-0.64
Категория: AI и робототехникаAI и робототехника
21 августа 2023 г. в 15:31

AI2 выпускает Dolma – самый крупный открытый набор данных для обучения языковых моделей

AI2 выпускает Dolma – самый крупный открытый набор данных для обучения языковых моделей
www.stordis.com
Большие языковые модели, такие как GPT-4 или Claude, умеют делать очень многое, но данные, используемые для их обучения, строго засекречены. Но Институт искусственного интеллекта Аллена (AI2) ставит своей целью изменить эту тенденцию.
Для этого институт собирается открыть для просмотра и использования огромный набор тестовых данных. Он получил имя Dolma – это сокращение от понятия «Данные для удовлетворения аппетита OLMo – модели открытого языка». Это первый подобный артефакт, который появляется в свободном доступе. Как модель, так и набор данных для нее предназначены для бесплатного использования и модификации специалистами по искусственному интеллекту.
Крупные компании, которые сегодня работают с языковыми моделями и искусственным интеллектом, иногда публикуют статистические данные об информации, которую они используют. Но большая их часть остается закрытой, и связано это может быть с тем, что не все они были получены законным путем. Например, ИИ «скармливают» пиратские копии многих книг. Кроме того, неизвестно, была ли проведена проверка качества текстов или надлежащим ли образом исследователи удалили личные данные.
Несмотря на то, что в условиях жесткой конкуренции компании стремятся засекретить свои разработки, Dolma выбирает другой путь. Этот набор целиком и полностью открытый – вплоть до источников и процессов. На сегодняшний день это не первый, но самый большой набор данных. Утверждается, что он содержит около 3 миллиардов токенов. Для работы с Dolma используется лицензия ImpACT для артефактов со средним уровнем риска – это одно из простейших решений. Ото всех, кто решит поработать с этим массивом, требуется распространять свои разработки под той же лицензией, не использовать данные в запрещенных сферах и указать контактную информацию. Для тех, кто переживает за безопасность своих данных, работает форма запроса на удаление конкретного контента.
0 комментариев