定義
観測対象を、いくつかの似た者同士のグループ(=クラスター)に分類するデータマイニングのデータマイニングの1手法である。
クラスター分析の分類
クラスター分析は「階層的手法」と「非階層的手法」に分類される。
階層的クラスター分析では全ての観測対象を枝分かれしていく1本の木(ツリー構造)に分類する。結果はデンドログラムで表現される。
非階層的クラスター分析は分析者が予めクラスター数を指定し、全観測対象をそのいずれかのクラスターに分類する方法である。即ちこのクラスター間は並列であり階層関係はない。
具体的な非階層的クラスター分析の手法にk-means法がある。k-means法は、分析者が指定したk個のクラスターに分類する方法である。
階層的 vs 非階層的クラスター分析の長所と短所
手法 | 長所 | 短所 |
階層的 | クラスター数の指定が必要ないこと | 計算に時間を要すること 実際に使用するのはデンドログラムの頂点付近だけであり、その他のものは使用しないことが多いため無駄が多いこと |
非階層的 | 計算が早いこと オブザベーションが大量でも対応しやすいこと | クラスター数を分析者が指定しなければならないこと 初期クラースターの初期値に最終結果が依存するため、解析結果が毎回変わること |
コメント