ダミーコーディング(dummy coding)

[latexpage]

定義

ダミーコーディング(dummy coding)とは、ダミー変数を使用して質的変数を表現する操作のことである。ダミーコーディングの目的は質的変数を統計モデルに含めることである。

ダミーコーディングの例

例として、A、B、Cという3つの水準のある質的変数Xをダミーコーディングすることを考える。ダミー変数としてd1、d2、d3という3つの変数を使用する方法が考えられる。

表1:ダミーコーディングの例(3水準の質的変数の場合)

質的変数Xd1d2d3
A100
B010
C001

1つの質的変数を3つの量的変数(2値変数)の組み合わせで表現する方法である。

ダミーコーディングにおける多重共線性の問題

表1をよく観察すると、実はd3はなくても、即ちd1とd2のみでA、B、Cが表現可能であることがわかる。d3の値は、d1、d2の値が決まると自動的に決定するとも言える。

d3とd1、d2の間に多重共線性が発生している。多重共線性があると線形モデルのパラメータは正しく推定できない。

従って、実際にダミー変数を利用して統計モデルを構築するためには、多重共線性を回避する工夫が必要になる。その方法は2つある。

(1) 端点制約によるパラメータ化(corner-point parameterization)

(2) 零和制約によるパラメータ化(sum-to-zero constraint parameterization)

d1,d2,d3を使用したモデル式は以下のように表現できる。

$${ y }_{ i }={ \beta  }_{ 0 }+{ \beta  }_{ 1 }{ x }_{ i1 }+{ { \beta  }_{ 2 }{ x }_{ i2 } }+{ \beta  }_{ 3 }{ x }_{ i3 }+{ \varepsilon  }_{ i }$$

端点制約によるパラメータ化とは${ \beta  }_{ 1 },{ \beta  }_{ 2 },{ \beta  }_{ 3 }$のいずれか1つを0とする方法である。

零和制約によるパラメータ化とは${ \beta  }_{ 1 }+{ \beta  }_{ 2 }+{ \beta  }_{ 3 }=0$とする方法である。

いずれにしても結果的にダミー変数の数が1つ減り、これによって多重共線性を回避するkとができる。

端点制約によるパラメータ化と零和制約によるパラメータ化では、モデル式およびパラメータの値が異なるが、モデルの予測値は同じである。

コメント