USD
77.9
-0.27
EUR
91.5
+0.08
Категория: AI и робототехникаAI и робототехника
15 июня 2023 г. в 13:59

Datasaur запускает инструмент LLM для обучения пользовательских моделей ChatGPT

Datasaur запускает инструмент LLM для обучения пользовательских моделей ChatGPT
www.euromoney.com
Платформа для маркировки данных Datasaur сегодня представила новую функцию, которая позволяет пользователям маркировать данные и обучать свою собственную модель ChatGPT.
Этот новейший инструмент предлагает удобный интерфейс, который позволяет техническим и нетехническим специалистам оценивать и ранжировать ответы языковой модели, которые в дальнейшем преобразуются в практические идеи.
Президент OpenAI Грег Брокман, один из первых инвесторов, объявил, что его новое предложение является прямым ответом на растущее значение обработки естественного языка (NLP), в частности, ChatGPT и больших языковых моделей (LLM).
Сотрудники Datasaur считают, что профессионалы из разных отраслей стремятся эффективно использовать эту технологию. Однако потребность в большей ясности и стандартизированных подходах к построению и обучению пользовательских моделей создает постоянные проблемы. Многие люди сталкиваются с трудностями при точной настройке и повышении производительности многочисленных доступных моделей с открытым исходным кодом.
В ответ на этот меняющийся ландшафт компания стремится оказывать пользователям всестороннюю поддержку в сборе их данных.
Компания стремится предоставить пользователям обучающие данные высочайшего качества и помочь устранить нежелательные искажения в результирующей модели с помощью новых предложений, унаследовав мощные возможности существующей платформы Datasaur. Новая платформа поддерживает все типы NLP, будь то "традиционные" модели, такие как извлечение сущностей и классификация текста, или новые, такие как LLMS. Цель состоит в том, чтобы гарантировать, что все обозначения NLP могут выполняться на одной платформе вместо использования электронных таблиц для одного типа и инструментов с открытым исходным кодом для другого.
Источник: stock.adobe.com
Источник: stock.adobe.com
Команда Datasaur утверждает, что последние дополнения, оценка и ранжирование являются наиболее удобными инструментами обучения моделям, доступными в настоящее время на рынке.
С помощью Evaluation люди-аннотаторы могут оценить качество выходных данных LLM и установить, соответствуют ли ответы определенным критериям качества. Ранжирование облегчает процесс обучения с подкреплением на основе обратной связи с человеком (RLHF).
В дополнение к своим новым функциям платформа вводит режим рецензента, который позволяет специалистам по обработке данных назначать несколько аннотаторов, тем самым сводя к минимуму субъективные предубеждения. Этот режим облегчает выявление и устранение расхождений между комментаторами, когда дело доходит до конкретных вопросов, позволяя специалистам по обработке данных принять окончательное решение.
Функция соглашения между аннотаторами платформы (IAA) использует статистические вычисления для оценки уровня согласия или несогласия между аннотаторами. Этот инструмент помогает специалистам по обработке данных выявлять аннотаторов, которым может потребоваться дополнительное обучение, и распознавать тех, кто демонстрирует естественные способности к этому виду работы.
Кроме того, платформа представляет оригинальный документ, из которого LLM получает информацию. Это служит двум целям: предотвращению любых потенциальных неверных толкований и обеспечению прозрачности в демонстрации процесса, используемого LLM.
Иван Ли из Datasaur сказал, что профессионалы отрасли могут не рассматривать модели OpenAI в качестве жизнеспособных вариантов из-за таких факторов, как соответствие требованиям, конфиденциальность данных или стратегические соображения. Ли также уточнил, что нынешний акцент LLMs на английском языке не позволяет пользователям по всему миру в полной мере воспользоваться этими технологическими достижениями.
“За последние 10 лет в области НЛП было сделано много достижений, и одна из наших важных целей в Datasaur - помочь автоматизировать как можно больше ручной работы. Миссия Datasaur - демократизировать доступ к NLP, позволяя пользователям работать с любым языком, будь то французский, корейский или арабский. Мы хотим, чтобы это предложение помогло каждому легче обучать и разрабатывать LLM для своих целей ”, - сказал Ли.
Компания утверждает, что ее платформа способна сократить время и расходы, связанные с маркировкой данных, на 30-80%.
Для автоматизации маркировки данных платформа использует ряд методов. Она использует устоявшиеся модели с открытым исходным кодом, такие как spaCy и NLTK, для идентификации общих объектов. В нем также используется метод слабого контроля для программирования данных, позволяющий инженерам создавать простые функции, которые автоматически помечают определенные типы объектов. Например, если текст содержит ключевые слова, такие как “пицца” или “бургер”, платформа применяет классификацию “еда”.
Источник: https://venturebeat.com/
Источник: https://venturebeat.com/
Кроме того, платформа включает встроенный OpenAI API, позволяющий клиентам запрашивать ChatGPT для маркировки своих документов от их имени. Компания заявляет, что такой подход может обеспечить высокий уровень успеха в зависимости от сложности задачи, а также открывает новые возможности для автоматизации.
Со слов Ли, функция RLHF платформы является одним из наиболее эффективных методов расширения возможностей LLM по обучению. По его мнению, этот подход позволяет пользователям быстро и без особых усилий оценивать набор выходных данных модели и определять лучшие из них, исключая ручное вмешательство.
Эта платформа позволяет пользователю демонстрировать различные варианты и ранжировать их от лучших к худшим. Простой интерфейс перетаскивания удобен для нетехнического пользователя, а результат включает в себя каждую перестановку предпочтений в рейтинге, чтобы сделать его доступным для технического специалиста по обработке данных и модели вознаграждения. Об этом рассказало издание VentureBeat.
0 комментариев