日本語 English
岐阜大学工学部 田村研究室
岐阜大学工学部 電気電子・情報工学科
田村研究室

Text

~概要~

自然言語処理

 自然言語処理とは、人間が日常的に使っている言葉(自然言語)をコンピューターによって処理する一連の技術のことを指します。言語(日本語や英語)の曖昧さ・不完全さをいかに処理するか、ということが自然言語処理の大きなテーマとなっています。

自然言語処理における機械学習

 音声や画像の分野において、もはや当たり前のように用いられる機械学習や深層学習ですが、自然言語処理でも用いられています。
 従来のルールベースによる処理と比較し、機械学習を用いることで文章の潜在的な意味まで捉える試みがなされています。それによって機械翻訳や情報検索等の分野でより高い精度を得られたという研究報告も数多く存在します。

単語の分散表現

 機械学習や深層学習を用いる上で、文章中の単語をベクトル化してコンピューターで処理しやすくしなければなりません。その技術の一つとして、単語の分散表現というものがあります。Word2vecは大量の文章を学習させることで単語の意味を表現する単語ベクトルを取得することができます。単語ベクトル間のコサイン類似度を計算することによって単語間の関連度を計算することもできます。

~研究分野~

検索技術

 現在広く利用されているインターネット検索の結果に対して追加処理を行うことによって、検索精度と結果の見やすさの向上を目指しています。すなわち、検索結果の要約情報を利用して、形態素解析・TF-IDF値の算出等の処理を行い、Webページそれぞれの特徴ベクトルを求めます。
 そこで得られた特徴ベクトルに対し、LSTM(Long Short-Term Memory)を始めとするニューラルネットワーク(Neural Network)で学習し、得られる固定長表現と検索クエリとの類似度(cos類似度等)を測ることで、従来のルールベースの検索システムより遥かに高い精度を実現しています。私たちは、学習データにWikipediaや料理レシピを利用したりするなど研究を進めています。

機械翻訳

 コンピュータを用いて人手を介さず自動的にある言語の文章から別の言語の文章に変換する方法を機械翻訳(Machine translation)と呼びます。2014年以降、系列変換モデルを枠組みに利用した機械翻訳をニューラル機械翻訳(Neural Machine Translation)と呼び、Google翻訳を始めとする多くの翻訳システムで活用され、高い精度を実現しています。
 私たちはニューラルネットを用いて、対訳データが不足した場合のニューラル機械翻訳に取り組んでいます。

話題語・キーワード抽出

 話題語抽出とは、文章中から話題を示す単語(キーワード)を抜き出す技術です。キーワードを抽出しコンテンツ内で提示することにより、そのコンテンツの理解を支援することができます。TF-IDFや形態素解析の情報などを用いて、文書からキーワードを自動的に取り出すことが可能です。また、文章のトピックを判断し、提示するような仕組みを研究しています。

Web解析

 昨今の情報社会において、Webサイトを閲覧して情報を集めることは当たり前となっています。それゆえ、世界中に散らばる大量の情報から、いかにしてユーザが求めるものを選別し提示するかということは、非常に重要なテーマといえます。
 また、InstagramやTwitterなどで、個人が自由に情報を発信することも一般的になっています。そのような情報を分類したり解析したりすることで、多くの有益な情報を抽出することが可能です。
 私たちは、これらWeb検索・解析に関する調査研究をおこなっています。

対話システム・チャットボット

 2000年代後半のSiriの登場を皮切りに対話システムが注目され、チャットボット等の対話システムに関する研究が多くの研究機関でされています。また、従来のシナリオを事前に定義し対話を行う、ルールベースのものだけでなく、LSTM等Deep Learningを利用して対話文を生成・選択するモデルが話題となっています。私たちはこれらのシステムの研究もおこなっています。