Text

~テキスト~

テキストマイニング

テキストマイニング(text mining)とは、大量の文章データから得られる新たな知見を抽出する技術です。特にWeb上の文章を扱うものを「Webマイニング」と呼んでいます。また、文章をコンピュータで扱うために自然言語処理・テキスト処理技術とともに、統計的な学習やデータ抽出技術などが必要となります。テキストマイニングはその膨大なデータの活用を通して社会全体にもメリットが反映されています。速水・田村研究室では、マイニング技術を医療分野へ応用することに取り組んでおり、電子カルテからテキストを抽出し、診療に関する評価の研究を行なっています。

Webマイニング

インターネットを使っていて、検索サイトを利用したことがない人はいないのではないでしょうか?情報検索は、私たちが生きる情報化社会においては、いまや必要不可欠な技術となっています。それゆえ、世界中に散らばる大量の情報から、いかにしてユーザが求める有効なものを選別し提示するかということは、非常に重要なテーマといえます。また、blogやTwitterなどで、個人が自由に情報を発信することも一般的になってきました。そのような情報を分類したり解析したりすることで、多くの有益な情報を抽出することが可能です。私たちは、これらWeb検索・解析に関する調査研究をおこなっています。

~コンテンツ~

★テキストマイニング★

話題語・キーワード抽出

話題語抽出とは、文章中から話題を示す単語(キーワード)を抜き出す技術です。キーワードを抽出しコンテンツ内で提示することにより、そのコンテンツの理解を支援することができます。そこで、TF*IDFや形態素解析の情報などを用いて、文書からキーワードを自動的に取り出す手法を提案しています。また、文章中に含まれない単語であっても、その文章で強調されている話題を示す単語であれば、提示することができるシステムを構築しています。

 

★Webマイニング★

Web 検索解析

インターネットを使っていて、検索サイトを利用したことがない人はいないのではないでしょうか?情報検索は、私たちが生きる情報化社会においては、いまや必要不可欠な技術となっています。それゆえ、世界中に散らばる大量の情報から、いかにしてユーザが求める有効なものを選別し提示するかということは、非常に重要なテーマといえます。また、blogやTwitterなどで、個人が自由に情報を発信することも一般的になってきました。そのような情報を分類したり解析したりすることで、多くの有益な情報を抽出することが可能です。私たちは、これらWeb検索・解析に関する調査研究をおこなっています。

 

 

検索技術

現在広く利用されているインターネット検索の結果に対して追加処理を行うことによって、検索精度と結果の見やすさの向上を目指しています。すなわち、検索結果の要約情報を利用して、形態素解析・TF*IDF値の算出等の処理を行い、Webページそれぞれの特徴ベクトルを求めます。そこで得られた特徴ベクトルに対し自己組織化マップ(Self-Organizing Map、SOM)等の処理を行い、似たWeb文書同士でグループ分けすることにより、検索の支援をする研究を行っています。一方、検索結果の適切さを判断し、適合した文書のみをユーザに提示することを検索文書識別といいます。 Web文書を適合文書かそうでない文書の2値に分類し、不要なWeb文書をあらかじめ除去することによって、検索の効率化を目指します。 2値分類の手法にサポートベクターマシン(SVM)を利用したり、学習データにWikipediaを利用したりするなど研究を進めています。

blog解析

商品情報を得る際、販売元からの広告やマスコミ情報だけでなく、レビューやblogでの口コミ情報を参考にする機会が増えています。口コミには、書き手の経験と嗜好に基づき、商品に対する肯定的・否定的な意見が実直に含まれているので、消費者はもとより生産者にとっても有益な情報です。 blog解析では、品詞のχ二乗値やSVMを使って、検索者が求める意見を抽出するために、blogの記事本文から発信者の属性情報や商品への評判情報を判別するための研究です。

~応用~

単語の分散表現

深層学習を用いた自然言語処理の技術として単語の分散表現というものがあります。その技術の一つであるWord2vecは大量の文章を学習させることで単語の意味を表現する単語ベクトルを取得することができます。単語ベクトル間のコサイン類似度を計算することによって単語間の関連度を計算することができます。

機械翻訳

コンピュータを用いて人手を介さず自動的にある言語の文章から別の言語の文章に変換する方法を機械翻訳(machine translation)と呼びます。2014年以降、系列変換モデルを枠組みに利用した機械翻訳をニューラル翻訳(neural machine translation)と呼びます。応用事例として、Google翻訳にはこの系列変換が使用されています。