受賞者と題名

各研究の概要

深層学習を用いた関連語・周辺語からの検索用語の予測

谷河息吹

近年、GoogleやYahoo等の検索エンジンはとても精度が高くなってきている。これらは適切な検索語で検索されることが前提条件となっているが、なかなか容易ではない。本研究では思い浮かんだ関連語・周辺語といった用語から適切な検索語を予測・提示するシステム(例えば「ハードディスク」、「代替」、「高速」から「SSD」)の開発を目標としている。

本研究は近年最も注目されている深層学習を用いた検索語の分野を限定した検索語の予測システムを提案した。また、提案したシステムと従来の機械学習手法(「Support Vector Machine(SVM)」、「Multi Layer Perceptron(MLP)」、「Bernoulli Naive Bayes(BNB)」)を用いたシステムとの比較を行い、深層学習の有効性の評価を行った。

深層学習の学習は事前学習(Pre-training)とFine-tuningの段階に分けられる。事前学習は教師なしデータから特徴を自動で抽出することを行う。事前学習は教師なし学習となるため、Fine-tuningでは教師ありデータから学習を行う。実験データには異なった特徴を持った3種類のデータ(辞書サイトデータ、検索エンジンデータ、擬似データ)を用意することで、深層学習にどのような影響を与えるかを確認する実験も行なった。

深層学習の事前学習には検索エンジンデータや擬似データを加えることが有効であることを示した。さらに、深層学習を用いたシステムは従来の機械学習手法のシステムより高精度であることを示した。また、正則化(L1正則化、L2正則化、Dropout)を加えても深層学習が最も良い精度であることに変化はなく、有意差検定(対応のあるT検定)では有意な差が見られた。

Highslide JS Highslide JS Highslide JS Highslide JS Highslide JS Highslide JS Highslide JS Highslide JS Highslide JS Highslide JS Highslide JS Highslide JS Highslide JS Highslide JS Highslide JS Highslide JS

Last Modified: Friday, 17-Mar-2017 19:04:41 JST