プルーニング(pruning)

同義語

プルーニング、枝刈り、剪定、pruning

定義

プルーニングとは複雑なモデルをあえて単純化させることにより、実運用上、よりあてはまりのよいモデルを構築する手続きのことである。

解説

一般に統計モデルのあてはまり(fitting)を改善する方法としては、(1)単純なモデルを複雑化する (2)複雑なモデルを単純化する、という2つの方向がある。プルーニングは(2)に該当する手法である。

回帰モデルではモデルを複雑化すればするほどfittingが改善する。例えば重回帰分析であれば、説明変数の数を増やせば重相関係数が1に近くなる。

データマイニングにおいても、ニューラルネットワークや回帰木など、モデルを複雑化すればするほどfittingが改善する(前者では中間層を増やす、後者では枝の数を増やすなど)。

しかし複雑なモデルは、そのモデル構築に使用したデータ(=学習データ)に対してはあてはまりがよいが、同一母集団から抽出した別標本(=交差妥当化用データや検証用データ)に対しては単純なモデルよりあてはまりが悪いことが少なくない(過剰学習の問題)。

モデル構築の真の目的が学習データの効率のよい説明ではなく、新しいデータに対する正しい予測、分類であるなら、過剰学習の問題を解決しなければならない。

その解決策があえてモデルを単純化することであり、データマイニングの文脈ではプルーニングと呼ばれるのである。

 

コメント