日本農業シソーラスは計算機による用語の認識精度を高める

タイトル 日本農業シソーラスは計算機による用語の認識精度を高める
担当機関 (独)農業・食品産業技術総合研究機構 中央農業総合研究センター
研究期間 2006~2010
研究担当者 岡辺明子(技会
斉藤三行(技会
竹﨑あかね(技会
筑波事務所)
法隆大輔
木浦卓治
発行年度 2008
要約  国際連合食糧農業機関が管理するAGROVOCに、日本固有の農林水産業・食品およびその関連分野の用語を追加した日本農業シソーラス(JAT)を開発した。JATを基に編修した形態素解析辞書は茶筌による用語の解析精度を高める。
キーワード 日本農業シソーラス、文献検索、形態素解析、AGROVOC
背景・ねらい  膨大な流通文書から、目的とする情報を効率的に入手するには、計算機による文章の解析能力を高める必要がある。その方策の一つとして、シソーラス等の言語知識を計算機に与えて、文章の理解や解析を支援することが考えられる。そこで、農林水産関連分野の情報検索向上に資する日本農業シソーラス(JAT)を開発する。また、文章解析の基盤技術である、文章を「形態素(意味のある最小単位)」へ分解する、形態素解析に着目し、JATから編集した形態素解析用辞書による解析精度の向上効果を検証した。
成果の内容・特徴
  1. 国際連合食糧農業機関が管理する多言語シソーラス、AGROVOCに、日本固有の農林水産業・食品およびその関連分野の用語等を追加した日本農業シソーラス(JAT;Japan Agriculture Thesaurus)を開発した(図1)。JATは、約48,000語を日本語・英語で収録し、AGROVOCに準じて階層関係・等価関係の構造を有している(図2)。
  2. 新たに編修した形態素解析辞書(改良JAT)は、JATに収録された日本語の用語、および品種登録ホームページ(http://www.hinsyu.maff.go.jp/)に掲載されている農林水産植物(作物・野菜・果樹・草花・観賞樹等)の登録品種名(約16,000語)を普通名詞として登録している。
  3. 日本農業記事索引データベース(JASI)を形態解析器のひとつ茶筌を用いた解析で、改良JATを、一般用語を収録した形態素解析辞書(IPADIC)と共に利用すると、IPADICのみと比較して茶筌が認識できない用語(未知語)が少なくなる(図3)。
  4. 未知語から抽出した新用語を改良JATに追加する作業を繰り返すと、後の解析における未知語率[(IPADIC+改良JATでの未知語数)/(IPADICでの未知語数)×100]は低下する(図4)。
  5. JATを基に編修した形態素解析辞書を解析に利用すると、茶筌による用語の解析精度が向上する。また、未知語と判定された中から、新しい用語を追加することで、形態素解析辞書を効率的に充実させることができる。
成果の活用面・留意点
  1. 形態素解析器「茶筌」を用いた検証結果であるが、他の形態素解析器でも原理的に同じ傾向になると思われる。
  2. 改良JATは、現在JASIシステムへ実装し解析精度を検証している。
  3. JATは検索語の拡張などに利用可能であるが、拡張後の精度向上については今後の検証が必要である。
  4. JAT、および改良JATは研究目的での利用希望者に配布予定である。
  5. JATに追加した用語は、AGROVOCへの収録を働きかける予定である。
  6. 中央農研との協力のもと、筑波事務所が主体となって実施した成果である。

図表1 211732-1.gif
図表2 211732-2.gif
図表3 211732-3.gif
図表4 211732-4.gif
カテゴリ しそ データベース 品種

こんにちは!お手伝いします。

メッセージを送信する

こんにちは!お手伝いします。

リサちゃんに問い合わせる