タイトル | 文書から自動抽出した用語を選別する方法 |
---|---|
担当機関 | (独)農業・食品産業技術総合研究機構 中央農業総合研究センター |
研究期間 | 2006~2007 |
研究担当者 |
二宮正士 法隆大輔 |
発行年度 | 2007 |
要約 | 農業関連文書を対象としたテキストマイニングでの利用を想定して、文書から自動抽出した用語をさらに選別する方法を開発する。対象とする分野の2種類の文書群を用意すれば、自動で用語の選別が行える。-- テキストマイニングは、大量のテキストデータを分類、要約したり、統計的な処理を行うことによって、そのテキストデータの中にどのようなことが書かれているか簡潔に提示するための一連の技術である。多くのテキストデータが蓄積されるようになったことから、テキストマイニングの技術が重要になっている。テキストマイニングでは、テキスト中の単語を認識する過程があり、このとき辞書が参照される。この辞書に専門分野の用語が含まれている方が、テキストマイニングの結果が良くなる場合があるが、専門分野の用語を集めることは容易ではない。 既存の自動抽出の技術を利用すれば、文書から用語を自動で抽出できる。これを利用して、テキストマイニングで対象とする分野の用語を事前に用意し、辞書に含めておくこともできる。しかし、この方法で抽出を行っただけでは、語の断片や無意味な文字列などが含まれていて、そのままでは利用できない。例えば、図1の右上は果樹に関する文書を対象に用語の自動抽出を行った例であるが、「かん」、「ザ」などの意味不明な文字列が多数含まれている。したがって、利用の前に何らかの選別を行い、こうした意味不明な文字列を排除する必要がある。このような選別を自動で行う方法を開発する。[成果の内容・特徴] |
キーワード | 用語、自動抽出、選別、文書群 |
背景・ねらい | テキストマイニングは、大量のテキストデータを分類、要約したり、統計的な処理を行うことによって、そのテキストデータの中にどのようなことが書かれているか簡潔に提示するための一連の技術である。多くのテキストデータが蓄積されるようになったことから、テキストマイニングの技術が重要になっている。テキストマイニングでは、テキスト中の単語を認識する過程があり、このとき辞書が参照される。この辞書に専門分野の用語が含まれている方が、テキストマイニングの結果が良くなる場合があるが、専門分野の用語を集めることは容易ではない。 既存の自動抽出の技術を利用すれば、文書から用語を自動で抽出できる。これを利用して、テキストマイニングで対象とする分野の用語を事前に用意し、辞書に含めておくこともできる。しかし、この方法で抽出を行っただけでは、語の断片や無意味な文字列などが含まれていて、そのままでは利用できない。例えば、図1の右上は果樹に関する文書を対象に用語の自動抽出を行った例であるが、「かん」、「ザ」などの意味不明な文字列が多数含まれている。したがって、利用の前に何らかの選別を行い、こうした意味不明な文字列を排除する必要がある。このような選別を自動で行う方法を開発する。 |
成果の内容・特徴 |
|
成果の活用面・留意点 |
|
図表1 | |
カテゴリ |