一般線形モデル(general linear model)

[latexpage]

同義語

正規線形モデル(normal linear model)

定義(モデル式)

一般線形モデル(general linear model)は以下のモデル式で表現される統計モデルである。

(1) 行列を使用しない表現

$$y={ \beta  }_{ 0 }+{ \beta  }_{ 1 }{ x }_{ 1 }+{ \beta  }_{ 2 }{ x }_{ 2 }+\cdots +{ \beta  }_{ x }{ x }_{ n }+\varepsilon$$

Yは目的変数(objective variable)

X = (X1, …, Xp) はp個の説明変数(explanatory variable)

(β0, …, βp) は未知の母集団の回帰係数(regression coefficient)あるいはパラメータ。

εは誤差(error)。この誤差は平均=0、分散=定数σ2である正規分布に従う。これは N(0, σ2)と表記される。

(2) 行列を使用した表現

$$y=Xb+e$$

モデル式の補足

i番目の観察対象(observation)に対する応答変数の値をyi、その予測値(predicted value)を ŷiと表記する。両者の間の残差がri = yiŷiである。

誤差分散は誤差の2乗の平均値(mean squared error ; MSE)で推定される。即ち、

MSE = Σri2/(np − 1)  nはサンプルサイズ、pは予測変数の数である。

分類

一般線形モデルは説明変数の数と種類によって以下のように分類可能である。

単回帰モデル(simple linear regression):説明変数が1つのみのモデル。

重回帰モデル(multiple regression):説明変数が2つ以上あるモデル。

回帰分析(regression analysis):説明変数が量的変数のみであるモデル。

分散分析モデル(analysis of variance : ANOVA):説明変数が質的変数のみであるモデル。

共分散分析モデル(analysis of covariance : ANCOVA):説明変数に量的変数と質的変数が混在するモデル。

一般線形モデルの仮定(assumptions)

線形回帰モデルでは誤差の加法性(additive)、正規性(normality)、独立性(independent)、期待値=0であること、分散が定数値であることなどが仮定されている。

(1) 誤差の期待値(あるいは合計値)はゼロである: E[ε] = 0

全観測データの誤差を合計するとゼロになる。

(2) 誤差の分散は全ての説明変数において等しい

説明変数の1つ1つの具体的な値(例えばxが1の時、2の時、…)に対応する目的変数のグループを考える時、どのグループにおける目的変数の分散も等しい1つの値をとる。

(3) 誤差項の相関係数(あるいは共分散)はゼロである: 

異なるデータ間の誤差の共分散はゼロ(=無相関)である。

モデル診断(diagnostics)

一般線形モデルの仮定が一般線形モデルの信頼区間の推定の根拠となっているため、線形回帰モデル分析を行う場合には、残差が実際にこれらの仮定に従っているかどうかを評価する必要がある。この評価する作業を回帰診断(regression diagnostics)と呼ぶ。

この仮定を満たなさい場合、一般化線形モデルなど別の統計モデルの使用を考えるべきである。

関連

一般線形モデル

単回帰分析 (single regression analysis)

重回帰分析

回帰分析

分散分析

共分散分析

一般化線形モデル

参考

Regression diagnostics - Nature Methods
Residual plots can be used to validate assumptions about the regression model.