交差妥当化 (cross validation)

定義

交差妥当化(cross validation)とは、統計モデルが、そのモデルを構築する際に使用したデータ=学習データ)とは別のデータセットに対してどの程度、一般化可能であるかを評価する手法である。要するに統計モデルの評価法の外的妥当性 (external validity)の評価方の1つである。

具体的には、モデルの当てはめ(=母数の推定)に用いるデータとは別のデータを用意し、この別データに対して作成されたデータの当てはまり具合を評価する。

一般に、十分な標本数がある場合、データマイニングではデータを「学習用データ(=母数推定用データ)」「交差妥当用データ」「検証用データ」の3つに分割しておくと最も有効な分析を行うことができる。

計量心理学における交差妥当化

計量心理学において、交差妥当化の概念は、構成概念の妥当性の研究の中から生まれた。

しかし従来はデータ収集のコストが高く、標本数が少なかったため、概念はあったものの実際に使用できるケースはまれであった。近年のITの進歩によりデータ収集のコストが低下したため、データマイニングの世界では交差妥当化は日常的な手続きとなった。

参考

データマイニング入門

 

コメント