Microsoft, Google и Meta* используют сгенерированные данные для обучения нейросетей

Стремительный рост моделей искусственного интеллекта и ускорение процесса их обучения привели к необходимости в огромных массивах данных. Чаще всего обучение LLM строится на данных из статей, книг, видеороликов и других источников информации, которые находятся в открытом доступе в Сети.

Несмотря на большой объем данных в Сети, высококачественной информации в интернете не так много. Крупные корпорации, которые специализируются на создании ИИ-моделей, нашли выход из сложившейся ситуации. Для обучения своих нейросетей Microsoft, Google и Meta* начали использовать сгенерированные данные.

Для этого технологические гиганты используют свои же нейросети - они дают им задачу создать новые статьи, на которых в дальнейшем их обучают. Механизм "бесконечной генерации данных" имеет как преимущества, так и серьезные недостатки.

Плюсом данного подхода можно назвать простоту обучения. Также компании, которые используют такой метод обучения ИИ-моделей, могут избежать множества юридических, этических проблем и проблем конфиденциальности.

Некоторые минусы такого формата обучения были выявлены в процессе экспериментов. Недавно группа ученых из Оксфорда и Кембриджа провела исследование на ChatGPT. После нескольких подходов обучения на искусственных данных чат-бот вместо информации об английской архитектуре начал выдавать бессмысленный текст о кроликах.

Ранее издание involta.media опубликовало статью о том, что эмитент крупнейшего стейблкоина USDT Tether займется разработкой нейроинтерфейсов.

*Meta - признана экстремистской и запрещена на территории РФ.

Автор: Перова Виктория