Исследователям из Университета Радбоуда и Утрехтского университета удалось преобразовать сигналы мозга в слышимую речь. Декодируя сигналы мозга с помощью имплантатов и искусственного интеллекта, они смогли предсказывать слова, которые люди хотят произнести, с точностью от 92 до 100%. Результаты исследования опубликованы в журнале Journal of Neural Engineering в этом месяце.
По словам ведущего автора исследования Юлии Березуцкой, научного сотрудника Института мозга, познания и поведения имени Дондерса Университета Радбуда и Утрехтского университета, это исследование свидетельствует о многообещающем развитии в области интерфейсов «мозг-компьютер». Березуцкая и ее коллеги из UMC Utrecht и Radboud University использовали мозговые имплантаты у пациентов с эпилепсией, чтобы понять, что говорят люди.
«В итоге мы надеемся сделать эту технологию доступной для пациентов в заблокированном состоянии, которые парализованы и не могут общаться», — говорит Березуцкая. Эти люди теряют способность двигать мышцами, а значит, и говорить. Разработав интерфейс «мозг-компьютер», мы сможем проанализировать активность мозга и вернуть им голос».
В ходе эксперимента, о котором идет речь в новой работе, исследователи попросили непарализованных людей с временными мозговыми имплантами произнести вслух несколько слов, в то время как их мозговая активность измерялась. Березуцкая: «Мы смогли установить прямое соответствие между активностью мозга, с одной стороны, и речью, с другой стороны. Мы также использовали передовые модели искусственного интеллекта, чтобы перевести эту активность мозга непосредственно в слышимую речь. Это означает, что мы не просто угадывали, что говорят люди, а могли сразу же преобразовать эти слова в разборчивые, понятные звуки». Более того, реконструированная речь даже по тембру голоса и манере говорить была похожа на оригинальную».
Исследователи во всем мире работают над тем, как распознавать слова и предложения в мозговых паттернах. Исследователи смогли восстановить разборчивую речь на сравнительно небольшом наборе данных, показав, что их модели способны раскрыть сложную взаимосвязь между активностью мозга и речью при ограниченном количестве данных. Важно отметить, что для оценки степени распознаваемости синтезированных слов были проведены тесты на слух с участием добровольцев. Положительные результаты этих тестов свидетельствуют о том, что технология не только правильно распознает слова, но и передает их на слух и понимает, как настоящий голос.
«На сегодняшний день существует ряд ограничений», — предупреждает Березуцкая. «В этих экспериментах мы просили участников произнести вслух двенадцать слов, и именно эти слова мы пытались распознать. В целом, предсказание отдельных слов менее сложно, чем предсказание целых предложений. В будущем большие языковые модели, которые используются в исследованиях ИИ, могут оказаться полезными. Наша цель — предсказывать полные предложения и абзацы того, что пытается сказать человек, основываясь только на его мозговой активности. Чтобы достичь этой цели, нам понадобятся новые эксперименты, более совершенные имплантаты, большие массивы данных и продвинутые модели ИИ. Все эти процессы займут не один год, но, похоже, мы движемся в правильном направлении».