タイトル | 野菜商品レビューの内容を把握する概念抽出工程の提案 |
---|---|
担当機関 | (国)農業・食品産業技術総合研究機構 中央農業総合研究センター |
研究期間 | 2011~2015 |
研究担当者 |
竹崎あかね 木浦卓治 法隆大輔 林武司 |
発行年度 | 2015 |
要約 | 農産物関連の代表的なテキストデータであるインターネット通販の野菜商品レビューを対象に、記述内容を把握するための概念抽出工程を提案した。 |
キーワード | 野菜商品レビュー、形態素解析、構文解析、否定概念の欠落、同義語 |
背景・ねらい | テキストマイニングは農産物に対する消費者の多様な価値観を探る有効な手段である。テキストマイニング技術の一つ、テキストから記述内容を抽出する自然言語処理は、分野特有の言語表現による精度の低下が報告されている。農産物関連テキストについても「作物の名称」等の表現により自然言語処理精度は低いと予想されるが適応事例が少なく明らかでない。そこで、自然言語処理(形態素解析、構文解析)を農産物関連テキストへ適応した場合の問題点を明らかにし、記述内容を抽出する概念抽出工程を提案した。 |
成果の内容・特徴 |
1)解析対象に合致した参照辞書を構築して形態素解析を行う。参照辞書には語の分割精度が低い品種名などを中心に収録する。 2)構文解析後、動詞"する"は、その直前に出現する名詞と一語に集約し、具体的動作を 示す動詞に変換する。 3)否定概念の欠落を防ぐため、助動詞"ぬ"、"無"などの接頭辞、接尾辞"ない"について語の変換、集約処理をする。特に接頭辞"無"は否定概念欠落の影響が大きいため(例;"農薬"の出現頻度は1,033、"無農薬"の出現頻度3,362)集約処理が重要である。 4)同義語を正規化する。特に漢字・平仮名・カタカナ、およびそれらの混合で表記される作物の名称は、正規化が重要である。 5)解析対象に合わせて係り受け関係の語を抽出する。
|
成果の活用面・留意点 |
|
図表1 | ![]() |
研究内容 | http://www.naro.affrc.go.jp/project/results/laboratory/narc/2015/narc15_s34.html |
カテゴリ | 病害虫 チンゲンサイ 農薬 品種 |