馬 青先生

コンピュータで言葉を!(=「自然言語処理」)
コンピュータは人間の言葉をどこまで理解できるのか

馬青

馬 青 Qing MA

筑波大学大学院博士課程工学研究科修了 工学博士〔筑波大学〕
独立行政法人通信総合研究所(現:情報通信研究機構)主任研究員を経て現職

コンピュータは人間の言葉をどこまで理解できるのか

先生の専門は情報科学ですが、どんな研究をしているのですか。

コンピュータで人間の言葉を取り扱う研究です。おもしろい例をあげますと、「今年から貝が胃に棲み始めました」―。これ は、日本漢字能力検定協会(京都市)の「漢検変換ミスコンテスト」の「年間変漢賞」に選ばれた文です。変換ミスは、なぜ起こるのでしょうか。言葉をコン ピュータで処理するためには、コンピュータが人間の言葉を単語に分割しています。日本語は英語と違い、単語の区切りが分かりにくいため、誤って認識される ことがあり、このような変換ミスが起こるのです。
また、コンピュータに「せんせいになった」を入力して変換すると、大抵は「先生になった」が表示されます。なぜ、「先生になった」であって、「先生担っ た」にはならないのでしょうか。私たちにとっては、その理由は単純明快で「先生担った」は正しい日本語ではないからなのですし、変換の確率からいっても、 「先生になった」の方が高いですよね。
私たちが、何かを入力して変換すると、ほしいものが出てくるのは、よく使われるものが確率的に計算されているからなのです。でも、コンピュータにそれを分 かってもらうのは、そう簡単なことではないのです。私たちが読み、書き、話す言葉を自然言語と言いますが、このような自然言語をいかにコンピュータに分 かってもらうかについて研究をしています。
言葉をコンピュータで処理することを、「自然言語処理」といいます。入力して、賢い変換をしているのは、自然言語処理技術によるものなのです。

Q.「2006年サッカーワールドカップ開催地はどこ?」
A.「ドイツ」

私たちが身近に使っている携帯電話やパソコンでの変換に、自然言語処理技術が使われているのですね。その他では、どんなところで使われているのでしょうか。
インターネットに検索エンジンがありますよね。インターネットは、さまざまな領域に関する情報を豊富に提供してくれるし、刻々と整備・更新されている知識 の宝庫です。知りたい情報をキーワードで入力すると、必要な情報を的確に抽出してくれますが、これは自然言語処理によってできることなのです。
私が取り組んでいるもう一つの研究に「質問応答システム」があります。これは、ユーザーが知りたいことを、例えば「2006年のサッカーワールドカップの 開催地はどこですか」といった質問に対して、インターネットの関連サイトを即時に調べて解析し、解析した結果(答え)を素早く的確に教えてくれるようなシ ステム開発の研究です。
開発したシステムの実行例は「http://www.math.ryukoku.ac.jp/~www-qma/lab/index.html」 をクリックしてみてください。質問に対して答えだけを出すものですが、その答えの裏付けとなる記事も載っていて、ユーザーが確認することができ、その答え が正しいか間違っているかも判断できます。このシステムはまもなく、私のサイトで公開する予定です。皆さんがいろいろな質問文を自由に入力し、本システム からどのような答えが返ってくるかを楽しめます。

質問応答システム

質問応答システム

「質問応答システム」の画面。
「サッカーワールドカップの開催地はどこ?」という質問にドイツという答えが出て、下にはそれを裏付ける記事が並んでいます。知りたいと思った事に対してより正確なものだけを選ぶ事ができるようになる、情報があふれている今、これは便利ですね。