Искусственный интеллект преобразует беззвучную речь в письменные слова

Новая система искусственного интеллекта, названная семантическим декодером, может преобразовывать мозговую активность в непрерывный текст. Система могла бы помочь людям, неспособным говорить из-за различных заболеваний, например, инсульта, пишет neurosciencenews.com.

Многие люди страдают из-за болезней не только по причине физических трудностей, с которыми они сталкиваются, но и потому, что они оказываются почти отрезанными от общества из-за невозможности общаться. Такие люди чувствуют себя подавленными, одинокими и никому не нужными, но новейшие научные разработки помогают справиться с этой проблемой. На данный момент наука и медицина достигли таких высот, что используют в своих изобретениях лингвистическую составляющую, поскольку язык является неотъемлемой частью жизни, без которой невозможно полноценно чувствовать себя в обществе. Кроме того, человеку для общения недостаточно простых понятных фраз на бытовые темы. Чем выше уровень интеллекта, тем более сложные темы затрагивает человек. Это тоже было учтено разработчиками новой системы. Она универсальна и подходит для любого человека вне зависимости от его потребностей: можно преобразовывать мысль о том, что хочется купить какую-то вещь, а можно и порассуждать о философских трактатах Ницше.

Искусственный интеллект — семантический декодер был разработан исследователями из Техасского университета в Остине. Он работает на основе модели трансформатора, аналогичной тем, которые используются в Open AI ChatGPT и Google Bard.

"Исследование доказало, что люди мыслят в большей степени словами, чем образами.Система имеет потенциал для использования с более портативными системами визуализации мозга, такими как функциональная спектроскопия ближнего инфракрасного диапазона. Этот неинвазивный подход использует данные МРТ-сканера, превращая мысли в текст без необходимости каких-либо хирургических имплантатов. Хотя эта система искусственного интеллекта и не идеальна, в половине случаев она успешно улавливает суть мыслей человека. Чтобы проверить её эффективность, был проведён эксперимент, участникам которого был предоставлен список слов, но они могли использовать слова не только из данного списка.Новая система искусственного интеллекта, называемая семантическим декодером, может преобразовывать мозговую активность человека — во время прослушивания речи или безмолвного представления того, как он рассказывает историю, — в непрерывный поток текста", — объяснил Джерри Тан.

Система, разработанная исследователями из Техасского университета в Остине, может помочь полноценно общаться людям, которые находятся в ясном сознании, но физически не способным к разборчивой речи.

Исследованием руководили докторант в области компьютерных наук Джерри Тан и доцент кафедры неврологии и компьютерных наук в Калифорнийском университете в Остине Алекс Хут.

Мозговая активность измеряется с помощью МРТ-сканера, перед чем проводится тщательная тренировка декодера, в ходе которой человек в течение долгих часов прослушивает подкасты в сканере. Позже, когда участник становится готов к расшифровке своих мыслей, он слушает новую запись или представляет, как рассказывает историю. Это позволяет машине генерировать соответствующий текст только на основе мозговой активности.

"Для неинвазивного метода это настоящий скачок вперед по сравнению с тем, что делалось раньше, когда обычно использовались отдельные слова или короткие предложения. Мы получаем модель для декодирования непрерывной речи, наполненной сложными идеями, в течение длительных периодов времени", — рассказал Алекс Хут.

В результате получается недословная расшифровка. Исследователи разработали декодер таким образом, чтобы улавливать суть того, что человек говорит или о чём думает, хотя система ещё не доведена до совершенства. Примерно в половине случаев, когда декодер обучен отслеживать мозговую активность участника, машина выдаёт текст, который близко (а иногда и точно) соответствует предполагаемому значению исходных слов.

Например, в экспериментах участница, слушавшая, как записанный голос говорит: "У меня ещё нет водительских прав", переводила эти мысли так: "Она ещё даже не начала учиться водить машину". Были и другие примеры недословной расшифровки мыслей, например, "Я хочу вкусно поесть" было переведено как "Хочу пойти в ресторан", "Мне нравится красный цвет в одежде" — "Хочу красное платье", "Надо идти в ногу со временем" — "Мне не нравятся старомодные люди". Это доказывает, что искусственный интеллект уже умеет в целом чётко понимать сформулированные идеи, но ещё находится на относительно низком уровне в умении распознавать тонкие оттенки и нюансы сказанного. Иными словами, система достигла уровня иностранца, который уже хорошо выучил какой-либо язык и может на нём достаточно свободно разговаривать, чтобы его понимали, но при этом ему ещё далеко до носителя изучаемого языка, для которого он является родным.

Начав с более ранней версии статьи, которая появилась в виде препринта в Интернете, исследователи обратились к вопросам о возможном неправильном использовании технологии. В документе описано, как декодирование работало только с теми, кто добровольно участвовал в обучении декодера.

Для людей, на которых декодер не был обучен, результаты были непонятными, и если участники, на которых декодер был обучен, позже вызывали сбой в работе машины — например, когда у них возникали другие мысли, — результаты также были непригодными для использования. В таком случае получался набор слов, не поддающийся никакой логике.

"Мы серьёзно опасаемся, что это может быть использовано в дурных целях, и работаем над тем, чтобы избежать этого. Мы хотим убедиться, что люди используют эти технологии только тогда, когда они этого хотят, и что это им помогает", — сказал Джерри Тан.

В дополнение к тому, что участники слушали истории или размышляли над ними, исследователи попросили испытуемых посмотреть четыре коротких немых видеоролика, находясь в сканере. Семантический декодер смог использовать их мозговую активность для точного описания определённых событий из видеозаписей.

В настоящее время система непрактична для использования вне лаборатории из-за её зависимости от временных затрат на аппарат ФМРТ, но исследователи полагают, что эта работа могла бы быть перенесена на другие, более портативные системы визуализации мозга, такие как функциональная спектроскопия ближнего инфракрасного диапазона (fNIRS).

"fNIRS измеряет, где в мозге больше или меньше кровотока в разные моменты времени, что, оказывается, является точно таким же сигналом, который измеряет МРТ. Таким образом, наш точный подход должен быть переведён на fNIRS, хотя разрешение с помощью fNIRS было бы ниже", — отметил Алекс Хут.

Эта работа была поддержана Фондом Уайтхолла, фондом Альфреда П. Слоуна и Фондом Берроуза Уэллкома. Другими соавторами исследования являются бывшая научная сотрудница лаборатории Хута Аманда Лебель и его аспирантка по информатике в Калифорнийском университете в Остине Шейли Джейн.

Джерри Тан объяснил, что интерфейс мозг–компьютер, который декодирует непрерывный язык из неинвазивных записей, имел бы множество научных и практических применений. Однако в настоящее время неинвазивные языковые декодеры могут идентифицировать стимулы только из небольшого набора слов или фраз. Здесь исследователи представили неинвазивный декодер, который реконструирует непрерывный язык по семантическим представлениям коры головного мозга, записанным с помощью функциональной магнитно-резонансной томографии (ФМРТ).

Поскольку интерфейсы мозг–компьютер должны соблюдать конфиденциальность данных, была проведена тщательная проверка, в результате которой обнаружилось, что сотрудничество субъекта требуется как для обучения, так и для применения декодера. Результаты исследования демонстрируют жизнеспособность неинвазивных языковых интерфейсов "мозг–компьютер".

Алекс Хут и Джерри Тан подали заявку на патент PCT, связанную с этой работой, которая стала настоящим прорывом в мире науки и медицины. Она может дать массу новых возможностей и здоровым людям, и имеющим различные заболевания, затрудняющие жизнь, а также позволит под другим углом посмотреть на вопросы лингвистики в свете нейрофизиологии и информатики. Эти две науки удалось совместить в одном эксперименте.

0 комментариев