Gladia - французский стартап в области искусственного интеллекта, который разрабатывает API для транскрипции звука.

Они стремятся изменить способ взаимодействия компаний с аудиоданными и предлагают интерфейс прикладного программирования, который обещает быть более эффективным и функциональным, чем существующие API.

Одной из основных проблем, с которыми сталкиваются существующие API для транскрипции звука, является их высокая стоимость. Gladia утверждает, что они могут расшифровать час аудио за 0,61 доллара, что делает их более доступными для компаний.

Другая проблема заключается в том, что существующие API не всегда обладают высокой надежностью и охватом языков. Gladia предлагает возможность определения нескольких динамиков, переключение языков и добавление знаков препинания и заглавных букв в результаты транскрипции.

Gladia базируется на модели транскрипции с открытым исходным кодом под названием Whisper, разработанной OpenAI. Они внесли определенные модификации в Whisper, чтобы улучшить его скорость и точность. Компания также использует алгоритмы предварительной и постобработки, чтобы улучшить конечные результаты транскрипции.

источник: mebstyle71.ru

В настоящее время Gladia сотрудничает с различными компаниями, включая центры обработки вызовов, провайдеров виртуальных встреч и издателей видео. Они планируют дальнейшее развитие своего API, чтобы добавить новые функции, такие как перевод текста на другие языки, обобщение содержимого аудиофайлов, анализ настроений и другие возможности аудио-аналитики.

Gladia привлекла инвестиции в размере 4 миллионов долларов от таких венчурных фондов, как New Wave и Sequoia, а также от бизнес-ангелов. Эти инвестиции помогут компании продолжить развитие и расширение своего продукта.

В целом, Gladia предлагает более доступное и функциональное решение для транскрипции звука, которое может быть полезно для множества компаний и отраслей, требующих обработки аудио. Gladia сейчас сфокусирована на предоставлении надежного и быстрого API для транскрипции звука. Однако компания имеет большие планы на будущее, чтобы расширить функциональность своего продукта.

Одной из основных возможностей, которую Gladia планирует добавить, является перевод текста на различные языки. С их API и временными метками на уровне слова, компания сможет предоставлять субтитры на десятках языков всего за несколько минут. Это может быть особенно полезно для международных компаний, которые работают с множеством языков и хотят сделать свой контент доступным для широкой аудитории.

Кроме того, Gladia стремится разрабатывать алгоритмы для обобщения содержимого аудиофайлов. Это позволит компаниям автоматически классифицировать и распределять контент по различным тематическим категориям. Например, вебинары или конференции могут быть разделены на разные сегменты или главы, чтобы облегчить навигацию и поиск нужной информации.

Еще одной возможностью, которую Gladia исследует, является анализ настроений. С помощью своего API и алгоритмов машинного обучения, компания может определить эмоциональную окраску аудиофайла и предоставить информацию о настроении говорящего. Это может быть полезным для различных приложений, таких как маркетинговые исследования, обзоры продуктов, мониторинг общественного мнения и многое другое.

В целом, Gladia стремится стать более комплексным решением для аудио-аналитики, предоставляя не только транскрипцию, но и дополнительные функции для обработки и анализа аудиоданных. Их гибкое API позволяет интегрировать их решение с другими продуктами и платформами, открывая новые возможности использования аудио в различных отраслях.