Speech

「いつでも身近に音声情報処理を」

音声情報処理とは,人間の声をコンピュータに理解させる技術です.代表的な技術として,音声認識や音声合成が挙げられます.カーナビや家電,スマートフォンは音声認識によって人の声を命令として理解することで,簡単に操作できるようになりつつあります.将来的には,ウェアラブル端末が発達し,小さなコンピュータを人体に装着する時代が来るでしょう.そうなると,端末をタッチで操作するのではなく,人の声や体の動きを端末が読み取って操作することが主流になります.しかし,いつでも,どこでも音声情報処理を実現するには,未知の雑音が混入しても正しく処理できることが求められます.我々は,既存の音声認識や音声合成技術を雑音下でも実現することを目標として研究を行っています.

1.1 音声認識

音声認識(speech recognition)とは,コンピュータに入力された人間の声に含まれる意味情報を文字列に変換する技術です.現在の音声認識では,MFCC(Mel- Frequency Cepstram Coefficients)という,声の周波数情報に起因する特徴量を抽出し,隠れマルコフモデル(Hidden Markov Model,HMM)により認識を行うのが一般的です.また,深層学習を用いた音声認識の研究もしています.音声認識は,雑音のない静寂な環境で読み上げられた音声に対しては,発話内容にもよりますが,100%近い認識性能を発揮します.その一方,雑音が存在する環境や,人間同士が会話するような自然な発声に対しては,まだまだ性能は不十分です.そこで 速水・田村研究室では,より高い認識性能を目標に,音声認識の基礎および応用の研究をおこなっています.
リアルタイムな音声認識に向けて
音声認識をスマートフォン上で実現することができれば,より多くの人に,様々な場面で使ってもらうことができます.大事なことは,場所を問わずに一定水準の音声認識ができること,そしてリアルタイムに処理ができることです.我々は,音声認識のために唇の画像を取り入れて性能を挙げています.しかし,スマートフォンの処理性能は限界があります.いかにして,性能と処理速度(リアルタイム性)を両立させるかも重要な課題となっています.

人の声を検索する音声認識
我々は未知の情報を得るために,Web検索を利用します.Web検索に用いる検索語(クエリ)や,検索の対象とするWebページの多くはテキストと画像で出来ていますが,音声・動画コンテンツも増え続けています.クエリのかわりに音声を使い,音声コンテンツを検索する,音声による検索に関する研究も近年盛んに行われています.これを,音声文書検索といいます.速水・田村研究室では,音声認識とWeb検索の技術を音声文書検索に応用し,ワークショップにおいて好成績を残しています.

1.2 VAD-音声区間検出
音声区間検出(Voice Activity Detection,VAD)は,入力信号から音声区間(人が話している区間)を抽出する技術です.音声認識の前処理として行うことで,音声認識の処理時間短縮,精度の向上に役立ちます.人が話すときに唇が開閉することを利用し,VADも音声認識と同様にして音声と唇の画像を用いたマルチモーダルVADが研究されており,雑音下の音声について性能向上に貢献しています.

1.3 VC-声質変換

声質変換(Voice Conversion)は音声合成の一種です.声質変換とは,ある人の声を別の人の声へと変換する技術です.ある人の声と別の人の声の対応関係をモデル化することで,変換することができます.発声障がい者は人工喉頭を使って発声しますが,より人間らしい健常者と同等の声を出すために声質変換を行います.また,ボイスチェンジャーやカラオケなどのアミューズメント要素としても応用できます.声質変換は少々の雑音下でも性能が著しく低下するため,雑音下でも行える声質変換を目指して研究を行っています.声質変換も同様に,音声と口唇領域の画像を用いたマルチモーダル声質変換が研究されています.特徴量には,深層学習によるDBNFなどを使用しています.

1.4 Speaker Recognition-話者識別

話者識別は,入力した音声が誰の音声であるかを識別する技術です.特定の人物の音声に対して高い認識率で音声認識ができるようになります.