Учёные обучили компьютерную модель распознавать речь на разных языках по губам

Исследователи из Имперского колледжа Лондона недавно разработали модель искусственного интеллекта, которая может визуально распознавать речь на нескольких языках путём анализа движений губ говорящего.

Автор исследования Пинчуань Ма, изучая то, как сочетать визуальную информацию со звуком для аудиовизуального распознавания речи и распознавать визуальную речь независимо от положения головы участников, обратил внимание на то, что подавляющее большинство исследований проводилось с использованием английского языка. Поэтому Ма и его коллеги решили натренировать модель глубокого обучения распознавать речь на других языках по движениям губ говорящих, а затем сравнить её производительность с эффективностью других моделей, обученных на английской речи.

«Наша модель принимает в качестве входных данных необработанные изображения без извлечения каких-либо признаков, а затем автоматически изучает, какие полезные свойства следует извлечь из этих изображений для выполнения задач визуального распознавания речи. Основная новинка этой работы заключается в том, что мы добавляем некоторые дополнительные методы увеличения данных и функции потерь», — сообщает Ма изданию TechXplore.

При первоначальных оценках методика, созданная Ма и его коллегами, работала на удивление хорошо, превосходя другие модели, обученные на гораздо больших наборах данных.

«Мы достигли самых современных результатов на нескольких языках, тщательно разработав модель, а не просто используя большие наборы данных, что является текущей тенденцией в других исследованиях. Другими словами, мы показали, что то, как спроектирована модель, не менее важно для её производительности, чем увеличение её размера или использование большего количества обучающих данных. Это потенциально может привести к изменению способов, которыми исследователи пытаются улучшить модели визуального распознавания речи», — отмечает автор исследования.

0 комментариев