自動抽出した語彙関係と既存シソーラスによるシソーラスの構築・更新支援

タイトル 自動抽出した語彙関係と既存シソーラスによるシソーラスの構築・更新支援
担当機関 (独)農業・食品産業技術総合研究機構 中央農業総合研究センター
研究期間 2007~2009
研究担当者 竹﨑あかね
法隆大輔
木浦卓治
斉藤三行
倉嶋明子
発行年度 2009
要約 大量のテキストの中から自動で抽出された単語間の上位下位関係の情報と、既存のシソーラスを関連づけることで、専門分野ごとの詳細なシソーラスの構築や、既存のシソーラスの更新を支援することができる。
キーワード シソーラス、AGROVOC、自動抽出
背景・ねらい シソーラスは、同義語、類義語や単語の上位下位関係などを体系化したもので、情報検索における基盤的な情報として利用される。農業分野の代表的なシソーラスとしては、FAOが中心となって整備するAGROVOCがある。しかしながら、シソーラスの構築には人手と多大な時間と労力を要するため、AGROVOCでは専門分野ごとの詳細なシソーラスの構築には至っていない。 一方、大量のテキストの中からシソーラスを構成する情報を自動抽出する技術がある。この自動抽出を利用すれば負担を軽減できると考えられるが、自動抽出した情報は断片的なものになるため、そのままでは体系的なシソーラスとして利用できない。 自動抽出によって得られた断片的な情報を既存のシソーラスと関連づけ、詳細なシソーラスが構築できれば、その体系の一部を専門シソーラスとして利用できる。また、既存のシソーラスにおいては、自動抽出した情報を新しい関係の候補として利用でき、シソーラスの更新が効率化できると期待される。
成果の内容・特徴
  1. 自動抽出の方法として、主に定型表現を用いて語の上位下位関係を抽出する方法を用いた。定型表現を用いる方法は、文章中の「AなどのBが」という表現からBを上位語、Aを下位語として抽出するものである。テキストデータとしてインターネット上のファイルを約2万5千文字相当収集し、自動抽出を行ったところ237件の関係が抽出された。このうち96件が上位下位関係にある関係であることを確認した。ファイルは農業分野の専門的なテーマを設定して収集した。
  2. 96件をAGROVOCと比較したところ、24件は既にAGROVOCに収録されている関係と一致した。残りの72件のうち、39件がAGROVOCと関連づけできる関係であった。39件の内訳は、上位語も下位語もAGROVOCにある場合(図1のa)が17件、上位語のみがAGROVOCにある場合(図1のb)が6件、下位語のみがAGROVOCにある場合(図1のc)が16件であった。
  3. 今回の実験では抽出された上位下位関係の約半数をAGROVOCと関連づけることができ、自動抽出の結果とAGROVOCを関連づけることが現実的であることが示された。本手法を用いることで、専門シソーラスの構築や、既存シソーラスの更新が支援できる。
成果の活用面・留意点
  1. AGROVOCの整備に関わる機関での利用を想定しているが、他のシソーラスを対象としている場合にも利用できる。
  2. 特別なプログラムが無くても利用できるが、上位下位関係を抽出する際には、集計のためのプログラムや形態素解析、構文解析のソフトウェアがあれば作業が効率化できる。
  3. 抽出対象のテキストは、抽出したい語の分野・専門性に合わせて収集する必要がある。
図表1 233768-1.png
カテゴリ しそ

こんにちは!お手伝いします。

メッセージを送信する

こんにちは!お手伝いします。

リサちゃんに問い合わせる