超大量文書・超大型辞書でも利用できる概念検索エンジン

タイトル	超大量文書・超大型辞書でも利用できる概念検索エンジン
担当機関	（独）農業・生物系特定産業技術研究機構中央農業総合研究センター
研究期間	2004～2005
研究担当者	深津時広大塚　彰二宮正士法隆大輔孟　紅岩
発行年度	2005
要約	文書群から意味概念が類似の文書を効率的に検索する概念検索エンジン。既開発のインデクス作成方式等を全面的に改良し、インデクス演算速度が約100倍で、100万文書、辞書サイズ50万単語でも実用的に利用できる。
キーワード	テキストマイニング、農林水産現地情報、成果情報、SDD
背景・ねらい	これまでに、テキストで蓄積される膨大な農業情報から、類似した内容の文書を効率的に発見し意志決定に役立てるしくみとして、概念検索エンジンを開発した（平成10年成果情報）。しかし、検索用のインデクス作成に多大な計算能力が必要で、同時に扱える文書数や、文書から単語を切り出す辞書のサイズに制約があった。そこで、インデクス構築のための行列演算方式を全面的に見直すことや、文書データベースの複数計算機への分散化によって、100万文書、辞書サイズ50万語程度でも実用的に利用できる概念検索エンジンを開発する。
成果の内容・特徴	１. 既開発の概念検索エンジンで検索インデクス作成に用いたSVD-LSI（Singular Value Decomposition特異値分解- Latent Semantic Indexing）の持っていた計算上の制約（最大文書数、最大辞書単語数、演算時間）を大幅に緩和する目的でSDD（Semidiscrete Matrix Decomposition，演算にはSDDPack（http://www.cs.umd. edu/users/oleary/SDDPACK/）を利用）とLSIの組合せによる検索システムを開発。既開発のものに比べ、インデクス演算速度が約80∼100倍となり、同時に100万文書、辞書サイズ50万単語でも実用的に演算できる。２. これまでの茶筅標準辞書，農業専門語辞書（平成10年成果情報）に加え，専門用語自動抽出システム（http://www.forest.eis.ynu.ac.jp/Forest/ja/term-extraction.html）を利用して，専門語辞書の充実をすることで、検索精度の向上ができる。３. 文書データベースのサイズを最大５万文書に分割し、かつデータベースは異なるサーバに分散配置が可能であるようアーキテクチャを実現する（図1）。インデクス生成や検索はそれぞれのデータベース毎に行い、検索サーバは結果をとりまとめてクライアントに返す（図2）。データベースサイズを5万文書程度に細分化することで、インデクス生成のための総計時間が20万文書、10万単語の場合で、50分の１と大幅に短縮すると同時に、行列の小型化で検索精度も向上する。
成果の活用面・留意点	１. 対象文書群として「農林水産現地情報」、「成果情報」、「レクラス」、「有機・自然農法DB」、「病害虫生理障害情報」をサンプルに試験公開（http://pc110.narc.affrc.go.jp/ AgrInfo/）。２. 公開・非公開を問わず試験運用したい文書群（コーパス）がある場合は、担当者に連絡する。
図表1
図表2
カテゴリ	害虫生理障害茶データベース