USD
97.33
+0.10
EUR
105.44
+0.21
Категория: НейротехнологииНейротехнологии
8 апреля 2024 г. в 09:34

OpenAI расшифровала более миллиона часов видео с YouTube для обучения GPT-4

OpenAI расшифровала более миллиона часов видео с YouTube для обучения GPT-4
habr.com
В рамках нового этапа обучения своей ИИ-модели GPT-4 корпорация OpenAI провела расшифровку более чем миллиона часов видеозаписей, размещенных на платформе YouTube. В этом ей помог инструмент Whisper, который предназначен для распознавания речи.
Еще в 2021 году корпорация столкнулась с недостатком данных из англоязычных источников, приняв решение использовать и другие виды данных. Тогда в OpenAI приняли решение разработать для сбора данных из видео инструмент Whisper, основанный на архитектуре Transformer.
Несмотря на удобство такого формата сбора данных, он может считать незаконным. Это связано с тем, что создатели контента не давали корпорациям прав на его использование. Однако многие известные компании, в числе которых OpenAI, Google и Meta*, игнорируют корпоративную политику и стараются обойти законы.
Использование большого объема данных помогает компаниям быстро и качественно обучать свои нейросети, но данные, используемые для этих целей, к 2026 году могут закончиться. Это связано с тем, что компании используют данные быстрее, чем они производятся.
Стоит отметить, что OpenAI планирует использовать полученные с YouTube данные для обучения своей новой ИИ-модели GPT-5.
Ранее издание involta.media опубликовало статью о том, что создатели Claude поделились методами взлома своей нейросети.
*Meta - признана экстремистской и запрещена на территории РФ.
0 комментариев