Multi-Modal

音声処理,画像処理を統合的に使用するなどの情報処理技術を組み合わせ,各処理単体で行うよりも精度を向上させることを目的とした研究をすすめています.

 

音声認識などの音声処理の発展のためには,雑音状況下・実環境下での対策が必要不可欠です.そこで,音声雑音の影響を受けない(口唇周辺の)画像情報も使用することで,雑音に強い頑健な音声情報処理を行う手法を構築しています.このように,音声と画像を用いる技術を総じてバイモーダル(bimodal)またはマルチモーダル(multimodal)情報処理といい,今後,期待の大きい研究分野の一つです.本研究室では,主にマルチモーダル音声認識マルチモーダルVADマルチモーダル声質変換などの研究を行っています.

 

音声認識の際,音声情報に加えて,発声時の口唇動画像の情報(読唇技術)を用いる音声認識の手法を研究しています.これにより,雑音下でも音声認識性能を向上させることができます.感覚的には,音声認識では困難な部分を口唇画像を使用した画像認識で補助するといったものになります.

1.認識モデル

発話内容を認識するために,認識モデルが必要となります.本研究室では,音声認識で広く用いられるHMM(Hidden Markov Model)を音声認識,画像認識(読唇)に対して,使用しています.また,現在は画像情報からの読唇の精度の向上を図るために深層学習を用いた研究もすすめています.

2.特徴量,マルチモーダルの統合法

発話情報を反映した画像特徴量や,音声と画像の効果的な統合方法の検討などを通じて,より性能の高い音声認識の実現を目指しています.音声特徴量においては,MFCC(Mel Frequency Cepstral Coefficient,メル周波数ケプストラム係数)を,画像特徴量には,深層学習によるDBNF(Deep BottleNeck Feature)などを使用しています.

3.大語彙マルチモーダル音声認識

マルチモーダル音声認識において数字発話タスク対象のコーパスは多数存在しています.しかし,大語彙マルチモーダル音声認識に利用可能なコーパスは少ないという現状があります.そこで,本研究室ではコーパスの構築など大語彙マルチモーダル音声認識についても研究をすすめています.

4.リアルタイム化

本研究室で研究してきたマルチモーダル音声認識の技術を用いて,リアルタイム処理が可能なマルチモーダル音声認識システムの構築を進めています.この研究では,Kinectを使用するので,今後,距離画像を用いることも検討しています.

 

声質変換においても音声情報と口周りの画像情報を統合したマルチモーダル声質変換を行っています.声質変換とは,入力された音声(元話者)を別の人の音声(目標話者)に変換する技術です.しかし,雑音下においては,入力音声の質が低下してしまうため,精度が低下してしまいます.そこで,他のマルチモーダル技術と同様に,口唇画像情報を用いることで,雑音下・実環境下における音質低下を抑えるマルチモーダル声質変換を研究しています.

声質変換の詳細