Multi-Modal

 音声処理,画像処理を統合的に使用するなどの情報処理技術を組み合わせ,各処理単体で行うよりも精度を向上させることを目的とした研究を進めています.

 音声認識などの音声処理の発展のためには,雑音状況下・実環境下での対策が必要不可欠です.そこで,音声雑音の影響を受けない(口唇周辺の)画像情報も使用することで,雑音に強い,頑健な音声情報処理を行う手法を構築しています.このように,音声と画像を用いる技術を総じてバイモーダル(bimodal)またはマルチモーダル(multimodal)情報処理といいます.本研究室では,主にマルチモーダル音声認識などの研究を行っています.

音声認識

 音声認識(speech recognition)とは,コンピュータに入力された人間の声に含まれる意味情報を文字列に変換する技術です.音声認識は,雑音のない静寂な環境で読み上げられた音声に対しては,発話内容にもよりますが,100%に近い認識性能を発揮します.その一方,雑音が存在する環境や,人間同士が会話するような自然な発声に対しては,まだまだ性能は不十分です.そこで田村研究室では,より高い認識性能を目標に,音声認識の基礎および応用の研究を行っています.

マルチモーダル音声認識

 音声認識の際,音声情報に加えて,発声時の口唇動画像の情報(読唇技術)を用いる音声認識の手法を研究しています.これにより,雑音下でも音声認識性能を向上させることができます.感覚的には,音声認識では困難な部分を口唇画像を使用した画像認識で補助するといったものになります.

1.認識モデル

 発話内容を認識するために,認識モデルが必要となります.本研究室では,深層学習を用いて音声認識,画像認識(読唇)を行っています.

2.特徴量,マルチモーダルの統合法

 発話情報を反映した画像特徴量や,音声と画像の効果的な統合方法の検討などを通じて,より性能の高い音声認識の実現を目指しています.音声特徴量においては,MFCC(Mel Frequency Cepstral Coefficient,メル周波数ケプストラム係数)を,画像特徴量には,深層学習によるDBNF(Deep BottleNeck Feature)などを使用しています.

3.大語彙マルチモーダル音声認識

 マルチモーダル音声認識において数字発話タスク対象のコーパスは多数存在しています.しかし,大語彙マルチモーダル音声認識に利用可能なコーパスは少ないという現状があります.そこで,本研究室ではコーパスの構築など大語彙マルチモーダル音声認識についても研究を進めています.

4.リアルタイム化

 本研究室で研究してきたマルチモーダル音声認識の技術を用いて,リアルタイム処理が可能なマルチモーダル音声認識システムの構築を進めています.この研究では,Kinectを使用し,距離画像を用いることも検討しています.

5.読唇モデルの日本語適応

 日本語以外の言語で構築されたデータセットが多いですが、日本語で構築されたデータセットは少ないという問題があります.そこで本研究室では既存の読唇モデルに対して少量の日本語を話している口唇画像を適応させることで,日本語用の読唇モデルの構築についても研究を行っております.

6.口唇画像生成モデルを用いたデータ拡張

 音声のみのデータは比較的入手しやすいですが、それらの音声と同期の取れた口唇画像は入手困難となっています。そのため、マルチモーダル音声認識モデルを構築する上でデータが不十分であるということが問題になっています。この問題に対して本研究室では音声から口唇画像を生成するモデルを構築及び生成された口唇画像がマルチモーダル音声認識の学習に有効的であるかを検証しています。