USD
85.56
+0.16
EUR
93.26
+0.09
Категория: НейротехнологииНейротехнологии
6 мая 2024 г. в 10:50

Microsoft, Google и Meta* используют сгенерированные данные для обучения нейросетей

Microsoft, Google и Meta* используют сгенерированные данные для обучения нейросетей
www.bloomberg.com
Стремительный рост моделей искусственного интеллекта и ускорение процесса их обучения привели к необходимости в огромных массивах данных. Чаще всего обучение LLM строится на данных из статей, книг, видеороликов и других источников информации, которые находятся в открытом доступе в Сети.
Несмотря на большой объем данных в Сети, высококачественной информации в интернете не так много. Крупные корпорации, которые специализируются на создании ИИ-моделей, нашли выход из сложившейся ситуации. Для обучения своих нейросетей Microsoft, Google и Meta* начали использовать сгенерированные данные.
Для этого технологические гиганты используют свои же нейросети - они дают им задачу создать новые статьи, на которых в дальнейшем их обучают. Механизм "бесконечной генерации данных" имеет как преимущества, так и серьезные недостатки.
Плюсом данного подхода можно назвать простоту обучения. Также компании, которые используют такой метод обучения ИИ-моделей, могут избежать множества юридических, этических проблем и проблем конфиденциальности.
Некоторые минусы такого формата обучения были выявлены в процессе экспериментов. Недавно группа ученых из Оксфорда и Кембриджа провела исследование на ChatGPT. После нескольких подходов обучения на искусственных данных чат-бот вместо информации об английской архитектуре начал выдавать бессмысленный текст о кроликах.
Ранее издание involta.media опубликовало статью о том, что эмитент крупнейшего стейблкоина USDT Tether займется разработкой нейроинтерфейсов.
*Meta - признана экстремистской и запрещена на территории РФ.
0 комментариев