タイトル | 農業用語形態素解析サーバ |
---|---|
担当機関 | モデル開発チーム |
研究期間 | 2003~2001 |
研究担当者 |
深津時広 大塚 彰 二宮正士 平藤雅之 法隆大輔 木浦卓治 |
発行年度 | 2004 |
要約 | 農業用語辞書を組み込むことにより、農業関連文書向けに単語への分割(形態素解析)の機能を提供するサーバを開発した。このサーバを利用することにより、農業関連の専門用語を多く含む文書を取り扱う場合に、専門用語を単語として抽出できる。--情報抽出、テキスト自動要約、テキスト自動分類などのテキストマイニングを行うシステムに部品としてこのサーバを組み込むことができる。2.接続法に関する解説とクラスファイルのダウンロードのためのページを作成し、公開している(http://zoushoku.narc.affrc.go.jp/~horyu/yougo/)。 |
キーワード | 農業用語、テキストマイニング、形態素解析 |
背景・ねらい | ネットワークを通じて大量のテキストデータが利用できるようになり、これらのテキストデータを有効に利用するためには、テキストマイニングの支援が不可欠となっている。テキストマイニングは、農業関連分野においても、例えば消費者への直接販売を導入している経営体等が顧客アンケートの集計により消費者ニーズを数量的に把握するなどの場面で有効なツールとなり得る。 テキストマイニングの過程の一部である形態素解析では、辞書を参照し、その中の単語との照合を行って、単語への分割や語形変化の解析を行う。このため、用いる辞書によって形態素解析の結果は変化する。専門用語を多く含む文書を対象に形態素解析を行う場合には、専門用語の辞書を組み込むことで、これらの専門用語を単語として抽出できる。抽出された専門用語が、その後の処理の結果を改善する場合もあると考えられる。こうした事情をふまえ、農業関連分野における日本語の文書のテキストマイニングを支援するツールとして、農業用語辞書を用いた形態素解析の機能を提供するサーバの開発を行った。このサーバを利用することにより、農業関連の専門用語を多く含む文書を対象としている場合には、形態素解析の結果として辞書に含まれる農業関連の専門用語が現れるようになる。 |
成果の内容・特徴 | 1. 本サーバは利用者から送られた文字列を対象に形態素解析を行い、解析結果を利用者に返すシステムである。形態素解析の過程で、農業関連の専門用語を認識する。 2. 図1に示した。 3. 形態素解析プログラムには「茶筌」を、一般用語の辞書に情報処理振興事業協会品詞体系日本語辞書(IPADIC)を使用している。農業用語辞書として、大塚・北村(1999)による約57,000語(IPADICとの重複等を除いて整理した後の語数)の辞書を使用している。 4. 図2に示したようなjava.lang.Stringの文字列として返される。 |
成果の活用面・留意点 | 1. 情報抽出、テキスト自動要約、テキスト自動分類などのテキストマイニングを行うシステムに部品としてこのサーバを組み込むことができる。 2. 接続法に関する解説とクラスファイルのダウンロードのためのページを作成し、公開している(http://zoushoku.narc.affrc.go.jp/~horyu/yougo/)。 3. 本サーバは、プログラム中に組み込むシステムであり、直接の利用者としては主にプログラムの開発者を想定している。 |
カテゴリ | 経営管理 茶 |