Поисковый гигант Google завершил "критический первый шаг" к созданию своей модели искусственного интеллекта, которая будет поддерживать тысячу наиболее распространенных языков в мире. Об этом компания сообщила в своём блоге.
Объявление Google является частью подготовки к ежегодному мероприятию по вводу-выводу, на котором компания планирует представить множество продуктов, основанных на искусственном интеллекте. Запланированное на май этого года мероприятие может позволить Google продемонстрировать более 20 продуктов с возможностями искусственного интеллекта, что является столь необходимым стимулом, поскольку компания, похоже, теряет позиции из-за агрессивного продвижения Microsoft продуктов OpenAI на базе GPT.
В ноябре 2022 года Google представила свою инициативу "1000 языков" - модель машинного обучения, цель которой - обеспечить инклюзивность миллиардам людей по всему миру, упростив доступ к тысяче наиболее распространенных языков.
Универсальная речевая модель (USM) - это семейство речевых моделей, включающее два миллиарда параметров, которые были обучены на 12 миллионах часов речи и 28 миллиардах предложений текста. В настоящее время модель основана на чуть более чем 300 языках, но уже используется в продуктах Google, таких как YouTube.
Исследователи утверждают, что фундаментальной трудностью в обучении такой модели, как USM, является доступ к достаточному количеству данных. При обычном подходе к обучению под наблюдением аудиоданные должны быть помечены вручную или собраны из уже существующей транскрипции. Это либо оказывается слишком дорогим, отнимающим много времени, либо труднодоступным, в зависимости от языка и его представления.
Вместо этого Google использовала подход к обучению с самоконтролем, который использовал только аудиоданные, которые были доступны в больших количествах на разных языках, что облегчало масштабирование.
Используя этот подход, Google обнаружила, что частота ошибок в словах составила менее 30% на 73 языках, что является достижением для компании. Для часто используемых языков, таких как английский в США, относительный показатель был на 6% ниже, чем в современной внутренней модели, используемой компанией.