クラスター分析(cluster analysis)

定義

観測対象を、いくつかの似た者同士のグループ(=クラスター)に分類するデータマイニングのデータマイニングの1手法である。

クラスター分析の分類

クラスター分析は「階層的手法」と「非階層的手法」に分類される。

階層的クラスター分析では全ての観測対象を枝分かれしていく1本の木(ツリー構造)に分類する。結果はデンドログラムで表現される。

非階層的クラスター分析は分析者が予めクラスター数を指定し、全観測対象をそのいずれかのクラスターに分類する方法である。即ちこのクラスター間は並列であり階層関係はない。

具体的な非階層的クラスター分析の手法にk-means法がある。k-means法は、分析者が指定したk個のクラスターに分類する方法である。

階層的 vs 非階層的クラスター分析の長所と短所

手法長所短所
階層的クラスター数の指定が必要ないこと計算に時間を要すること

実際に使用するのはデンドログラムの頂点付近だけであり、その他のものは使用しないことが多いため無駄が多いこと

非階層的計算が早いこと

オブザベーションが大量でも対応しやすいこと

クラスター数を分析者が指定しなければならないこと

初期クラースターの初期値に最終結果が依存するため、解析結果が毎回変わること

 

コメント