野菜商品レビューの内容を把握する概念抽出工程の提案

タイトル	野菜商品レビューの内容を把握する概念抽出工程の提案
担当機関	（国）農業・食品産業技術総合研究機構中央農業総合研究センター
研究期間	2011～2015
研究担当者	竹崎あかね木浦卓治法隆大輔林武司
発行年度	2015
要約	農産物関連の代表的なテキストデータであるインターネット通販の野菜商品レビューを対象に、記述内容を把握するための概念抽出工程を提案した。
キーワード	野菜商品レビュー、形態素解析、構文解析、否定概念の欠落、同義語
背景・ねらい	テキストマイニングは農産物に対する消費者の多様な価値観を探る有効な手段である。テキストマイニング技術の一つ、テキストから記述内容を抽出する自然言語処理は、分野特有の言語表現による精度の低下が報告されている。農産物関連テキストについても「作物の名称」等の表現により自然言語処理精度は低いと予想されるが適応事例が少なく明らかでない。そこで、自然言語処理(形態素解析、構文解析)を農産物関連テキストへ適応した場合の問題点を明らかにし、記述内容を抽出する概念抽出工程を提案した。
成果の内容・特徴	農産物関連の代表的なテキストデータであるインターネット通販の野菜商品レビューを対象とした場合、付属辞書を参照した形態素解析だけでは、語の分割精度が低いこと(例;"安納芋"は"安":"納":"芋"と分割)、具体的動作を示さない動詞"する"の出現頻度が高いこと、同義語が別の語と判定されること(例;同義関係にある"青梗菜";出現頻度1,262、"チンゲンサイ" ;450、"チンゲン菜";1,071が別の語と判定)、否定概念が欠落すること(例;出現頻度3,362の"無農薬"は、"無":"農薬"と分割され否定概念が欠落)、形容詞の対象が不明確であること("安い" は値段が対象だが"高い"は値段以外も対象)により、レビューからの概念抽出精度が低くなる。 1.の問題を解決する、自然言語処理済みテキストからの概念抽出工程を提案する(図)。 1)解析対象に合致した参照辞書を構築して形態素解析を行う。参照辞書には語の分割精度が低い品種名などを中心に収録する。 2)構文解析後、動詞"する"は、その直前に出現する名詞と一語に集約し、具体的動作を示す動詞に変換する。 3)否定概念の欠落を防ぐため、助動詞"ぬ"、"無"などの接頭辞、接尾辞"ない"について語の変換、集約処理をする。特に接頭辞"無"は否定概念欠落の影響が大きいため(例;"農薬"の出現頻度は1,033、"無農薬"の出現頻度3,362)集約処理が重要である。 4)同義語を正規化する。特に漢字・平仮名・カタカナ、およびそれらの混合で表記される作物の名称は、正規化が重要である。 5)解析対象に合わせて係り受け関係の語を抽出する。
成果の活用面・留意点	インターネット通販大手楽天市場の3年間(2010年1月1日～2012年12月31日)の「野菜・キノコ」ジャンル商品レビュー293,586件を利用した結果である。意味を持つ最小単位:形態素列にテキストを分割する形態素解析器にはJUMANを、分割した単語を句や節にまとめ、それらの間の文法的関係を同定する構文解析器にはJUMANの出力を前提とするKNPを利用した。
図表1
研究内容	http://www.naro.affrc.go.jp/project/results/laboratory/narc/2015/narc15_s34.html
カテゴリ	病害虫チンゲンサイ農薬品種