モデル選択のためのペナルティ付きクロスバリデーション

タイトル	モデル選択のためのペナルティ付きクロスバリデーション
担当機関	（独）農業・生物系特定産業技術研究機構中央農業総合研究センター
研究期間	2003～2003
研究担当者	竹澤邦夫
発行年度	2003
要約	モデルを選択するための統計量として、クロスバリデーションにペナルティ項を加えたものを用いることによって、凸凹が多すぎる推定値を与えるモデルが選択されるのを防ぐ。ペナルティ項の大きさをデータに立脚して決める。
キーワード	クロスバリデーション、モデル選択、ノンパラメトリック回帰、予測
背景・ねらい	各地で蓄積されたデータやモデルを総合的に利用して、信頼性の高い予測や制御を可能にするためには、様々な要素を加味した複合的なモデルが必要になる。その際、従来のモデル選択基準を用いてモデル選択を行うと適切なモデルが得られないことが多くなる。そこで、クロスバリデーションとクロスモデルバリデーションの関連に着目することによって得られる新しいモデル選択基準が必要になる。
成果の内容・特徴	１．これまでモデル選択基準として広く利用されてきたクロスバリデーションに、モデルの複雑さに比例するペナルティ項を加えたものをモデル選択基準として用いる方法を提案する。この方法を、pCV（penalized Cross-Validation, pCV=CV+αc、cがモデルの複雑さを表す正の値）と呼ぶ。pCVに対してペナルティ項を正の値にするという制約を加えたものがpCV⁺（penalized Cross-Validation plus、「+」は「プラス」と読む）である。いずれにおいても、ペナルティ項の比例定数をデータを用いて決定するので、データに適応的な(data adaptive)方法と言える。また、CMV(Cross Model Validation)とCMV⁺(Cross Model Validation plus)は、それぞれpCVとpCV+の前身と見なせる。２．これらの手法を比較するために、重回帰式の変数選択を行うためのプログラムをVisual Basic 6.0Jを用いて作製し、実行した結果が図1である。以下の式によるシミュレーションデータを用いている。 yi = 2 + ei ここで、xi5が予測変数で、0と1の間の値をとる一様乱数の実現値である。eiは、平均が0、標準偏差が0.1の正規分布の実現値である。それぞれのデータ数は30個（1≦i≦30）で、疑似乱数の初期値を替えて作製した500組のシミュレーションデータを用いている。ここでの予測誤差とは以下のものである。 30 Σ( yi - ei - yi 2+.gif ＊ )²/30 （ yi はyi　に対応する予測値） i=1　３．図1は、pCV⁺が最も優れた結果をもたらすことを示している。また、このシミュレーションに関する限り、CMVは優れた方法ではない。 4. 多項式回帰において、CV、pCV、pCV⁺が最も優れた結果を与えている。
成果の活用面・留意点	１． pCV+とpCVは、複雑な回帰式におけるモデル選択においてより有効だと考えられる。２． pCV+あるいはpCVをそのまま用いると計算量が多くなりすぎることがあるので、クロスバリデーションの代わりに10群クロスバリデーションを使うなどの工夫が必要になる。３．消費者だけでなく、流通・販売業者もインターネットを通して各商品の生産履歴データを確認できるため、商品の荷受けや検品作業を行う際にも本システムを利用できる。
図表1
カテゴリ