News Release

発話時の脳活動計測から数字を90%、 単音節を60%の精度で認識することに成功

Peer-Reviewed Publication

Toyohashi University of Technology (TUT)

Fig2 6(縦)×10(横)の脳領域で観察すると,音節により活性化する部分が異なる

image: 6(縦)×10(横)の脳領域で観察すると,   音節により活性化する部分が異なる. view more 

Credit: COPYRIGHT (C) TOYOHASHI UNIVERSITY OF TECHNOLOGY. ALL RIGHTS RESERVED.

豊橋技術科学大学の新田恒雄名誉教授、堀川順生教授・杉本俊二助教、および東京理科大学 桂田浩一准教授らの研究グループは、人が数字を発話している時の脳波から10数字を90% の精度で認識できる技術を開発しました。さらに、単音節を発声している時の脳波についても18種類の単音節で60%を越える精度を得ており,近い将来,脳波による音声タイプライターを実現できる可能性を示しました。

本研究成果の詳細は、8月にストックホルムで開催されるInterspeech2017 で発表される予定です。http://www.interspeech2017.org/

研究グループは、被験者が数字や単音節を発話している間の脳波データを収集しました。収集したデータについて、それが数字の何か、単音節の何に相当するのかを評定するために、音声認識実験を行いました。

これまで、脳波からの音声認識を難しくしてきた原因の一つに「脳波は音声と異なり、学習データが少ない」という点が挙げられます。データ量が少ないということは、ディープラーニングなどの機械学習と呼ばれる強力な手法が、脳波からの音声認識には使えないことを意味します。そこで研究グループは、比較的少量のデータで学習できるアプローチとして、脳の部分間の関連性を全体から分析でき、かつ耐雑音能力の高い解析法をベースに、音素類似度を評価する新たな手法を開発することで、学習データ量が少ない問題点を解決しました。さらに認識が難しい単音節の認識には、類似した音素間の差異を外積代数から評価する新しい手法を開発しました。

このように新たに開発した評価手法を使って行われた音声認識実験では、10数字を発話した際の脳波信号から、90%の認識率が得られました。また、18単音節についても認識率61%の精度を得ており、先行研究と比較しても一段高い性能を得ることができました(人間は単音節認識80%で文を了解できるとされています)。

新田名誉教授らは、今回の知見をさらに発展させ、発話を伴わない「音声想起型BCI(Brain Computer Interface)」の開発を目指しています。開発が成功すれば、病気や障害などで発話が困難になった人が、再び会話することができるようになるかもしれません。また、健常者にとっても、制約のない音声入力として、最も自然な入力手段になることが期待されます。

さらに、研究グループは5年後を目処に、より少ない電極で簡単に操作できる端末を実現し、スマートフォンと連携させたいと考えています。脳波による言語操作は、音声入力よりも多言語化しやすい利点があると考えており、関係機関と協力して脳波に関する音声データベースと開発ツールを整備することを検討しています。

###

<ファンディング情報>

 

本研究は,文部科学省・日本学術振興会科学研究費16K00251の補助を受けて遂行されました。

4月18日に記者会見を豊橋技術科学大学にて開催し、本研究の詳細について発表します。


Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.