[latexpage]
同義語
GLMと略される。ちなみにRでの関数名もそのままglm()である。
定義
一般化線形モデル(generalized linear model)とは、目的変数が指数分布族の分布(二項分布、ポワソン分布、正規分布、ガンマ分布など)に従うデータに対して、一般線形モデル(general linear model)を拡張したモデルである。
一般線形モデルは目的変数が正規分布に従うことを仮定している。正規分布は指数分布族に属するため、一般化線形モデルの枠組みの中で扱うことも可能である。
モデル化の実際にあたっては、目的変数のとる確率値pに対して連結関数(リンク関数)と呼ばれる関数を考え、リンク関数(p) = 線形予測子、とする。
一般化線形モデルのモデル式表現
一般化線形モデルは以下のように記述できる。
$$E({ y }_{ i })={ \theta }_{ i }$$
$$g({ { \theta }_{ i } })=x_{ i }\prime b$$
g()が連結関数である。xはデザイン行列である。bはパラメータベクトルである。
目的変数の分布と連結関数の対応
目的変数の従う分布 | リンク関数 | 分析手法の名称 | 例 |
二項分布 | ロジット関数 | ロジスティック回帰分析 | 目的変数は離散型の二値データ。 ベルヌーイ試行、何回中何回成功したか、何人中何人に有効であったかなど。 |
ポワソン分布 | 対数関数 | ポワソン回帰分析 | 目的変数は離散型の非負整数。 計数(カウント)データ、クロス表の頻度など。 |
モデリングの実際
一般化線形モデルのモデリングでは、目的変数がどの分布に従うと仮定するか、分布の選択がキモとなる。目的変数が離散型か連続型か、取りうる値の範囲は何か、といったポイントから分布を選択していくことになる。
また実際の統計処理においては想定する分布によって用意すべきデータフレームが異なるので、どのような形式のデータフレームを準備すればよいのかを整理することもポイントとなる。
関連
指数分布族
コメント