統計学辞典

分散分析

ダミー変数(dummy variable)

定義 ダミー変数(dummy variable)とは、質的変数を統計モデルに投入するために使用する便宜的な変数のことである。 質的変数はそのままでは統計モデルに投入することができない(投入できるのは量的変数のみである)。統計モデルで...
一般線形モデル

一般線形モデルの拡張

一般線形モデルは、(1)応答変数が正規分布に従うこと、(2)説明変数に変量効果が存在しないこと(=全ての測定値が独立であること)の2つを仮定している。 (1),(2)それぞれの仮定を外すことにより、一般線形モデルは以下のように拡張する...
モデル選択

オッカムの剃刀(Occam’s razor)

同義語 節約の原理 定義 (統計学における)オッカムの剃刀(Occam’s razor)とは、複数の予測力が同等のモデルが存在する場合、説明変数の数がより少ないものを優れているとみなすモデル選択の原則のことである。 実際にオッカ...
モデル選択

フルモデル(full model)

定義 【用法1】ネストしたモデル(nested model)間のモデル選択の文脈において フルモデルは最も多くの説明変数を含んだモデルのことである。 【用法2】オーバーフィッティングの文脈において フルモデル(full ...
一般線形モデル

クックの距離(Cook’s distance)

定義 クックの距離(Cook's distance)とは、一般線形モデルにおいて各測定値がモデル推定に与える影響の大きさを表す数値のことである。 クックの距離は以下の式で計算される。 $$ { d }_{ i }=\...
一般線形モデル

標準化残差(standardized residual)

定義 標準化残差(standardized residual)とは、一般線形モデルにおける残差を標準化したものである。 標準化残差(ri)は以下の式で計算される。 $$ { r }_{ i }=\frac { { y...
一般線形モデル

テコ比(leverage)

定義 テコ比とは、データの個々の測定値が、モデル(のパラメータ、ひいては予測値)に与えている影響の大きさを表す数値である。例えば一般的な傾向から大きくハズレたデータはそれ1つでモデルに大きな影響を及ぼすため大きなテコ比率を持つ。 ...
一般線形モデル

予測値と残差のプロット

定義 予測値と残差のプロットはy軸を残差、x軸を予測値とするグラフである。 予測値と残差のプロットは、一般線形モデルのモデル診断に使用されるグラフの1つである。 一般線形モデルの仮定(残差の独立・正規・等分散)が成立しているな...
一般線形モデル

QQプロット

同義語 Q-Qプロット、正規確率ブロット 定義 QQプロットはy軸を標準化残差(standardized residual)、x軸を理論的分位点(theoretical quantiles)とするグラフである。 QQプロットは、...
一般線形モデル

最小二乗法(least square method)

定義 最小二乗法(least square method)とは、統計モデルのパラメータ推定法の1つである。即ち統計モデルに基づく予測値と実測値の差が最小になるパラメータ値を計算し、これをパラメータの推定値とする方法である。 一般線形...
離散分布

central moment

定義 central momemtとは以下の数式で定義される量${ \mu }_{ r }$である。 $${ \mu }_{ r }^{ }=E{ (X-\mu ) }^{ r },\quad r=1,2,\dots $$ ...
離散分布

raw moment

定義 raw momentとは確率変数Xのr乗(X^r)の期待値である。原点まわりのXのr次モーメントとも呼ぶ。 $$ { M }_{ X }^{ (r) }(0)=E{ ({ X }^{ r }) }={ \mu  }_{ r...
離散分布

モーメント母関数(moment generating function : MGF)

定義 $$ { M }_{ X }(t)=E({ e }^{ tX })=\sum _{ x\in S }^{ }{ { e }^{ tx }{ f }_{ X }(x) } $$ MGFはラプラス変換(Laplace Tran...
離散分布

二項分布(binominal distribution)

定義 成功確率pのベルヌーイ試行をn回繰り返した時にx回成功する確率を表す分布 表記 $$X\quad \sim \quad binom(size=n,\quad prob=p)$$ PMF $${ f }_{ X }(x)=...
離散分布

一様分布(discrete uniform distribution)

定義 整数1,2,...,mから1つの整数を選ぶ場合にある整数が選ばれる確率の分布 表記 $$X\quad \sim \quad disunif(m)$$ PMF $$ { f }_{ X }(x)=\frac { 1 }{ ...
多変数分布

独立な確率変数の計算法則

独立な確率変数について以下の命題が成立する E(u(X)v(Y)) = E(u(X)) E(v(Y))
多変数分布

joint cumulative distribution function

joint cumulative distribution function とは確率変数X、Yに関して以下の式で定義される関数である。 $${ F }_{ X,Y }(x,y)=P(X\le x,\quad Y\le y),...
多変数分布

独立な確率変数のモーメント母関数

定義 独立な確率変数X、Yがある時、その合成変数X+Yのモーメント母関数は以下の式で与えられる。 $${ M }_{ X+Y }(t)={ M }_{ x }(t)\cdot { M }_{ y }(t)$$ 参考 Intr...
多変数分布

joint probability mass function

離散型の確率変数X、Yがあり、それぞれのサポートがSX、SY、PMFがfX、fXであるとする。すなわち以下の表の関係があるとする。 確率変数 サポート PMF X SX fX Y SY ...
多変数分布

交換可能な確率変数(exchangeable random variables)

定義 確率変数X、Yは、そのjoint CDFが引数に関してシンメトリック(対称的)な関数である場合、交換可能(exchangeable)と呼ばれる。 { F }_{ X,Y }(x,y)={ F }_{ X,Y }(y,x),\q...
確率論

サポート(support)

定義 確率論におけるサポート(support)とは、ある試行(trial)における実現値(realization)に値を割り当てたとして、それら割り当てられた値の集合のことである。
数学用語(補遺)

関数の連続(continuous)、右連続(right-continuous)、左連続(left-continuous)

ある関数が以下の条件を満たす時、その関数はある点aで連続(continuous)であると呼ばれる。 $$\underset { x\rightarrow a }{ lim } f(x)=f(a)$$ ある関数が以下の条件...
連続分布

分位点関数(quantile function)

同義語 percent-point function, inverse cumulative distribution function. 日本語の訳は定まっていないようである。分位関数、分位点関数、分位数関数などと翻訳可能と考えた...
離散分布

empirical probability mass function (EPMF)

定義 empirical probability mass function (EPMF)とは、サポートx1,x2,...xnの各値に確率質量(probability mass) 1/nを割り当てる関数である。数式で書けば以下の通り。 ...
離散分布

ポワソン分布(Poisson distribution)

定義 時間間隔に事象が起きる平均回数をλとする。当該時間間隔に事象が発生する回数Xをサポートとする分布である。 表記 X~pois(lambda=λ) PMF(確率質量関数) $${ f }_{ X }(x)=P(X=x)={...
離散分布

負の二項分布(negative binominal distribution)

定義 ベルヌーイ試行を繰り返した際に、r回成功するまでに出現した失敗の回数をXをサポートとする分布である。 別定義:ベルヌーイ試行を繰り返した際に、r回成功するまでに実施した全試行回数をYをサポートとする分布とする流儀もある。こ...
離散分布

幾何分布(geometric distribution)

定義 幾何分布(geometric distribution)とは、ベルヌーイ試行を繰り返した際に、最初に成功するまでに出現した失敗の回数をXをサポートとする分布である。 別定義:ベルヌーイ試行を繰り返した際に、最初に成功するま...
離散分布

超幾何分布(hypergeometric distribution)

定義 例えば、白玉M個、黒玉N個を含む袋から"復元なし"でK個を抽出する場合に、白玉がx個である確率を表す分布である。 表記 X~hyper(m=M、n=N、k=K) PMF(確率質量関数) $${ f }_{ X }(x)=...
確率論

事象(event)

定義 事象(event)とは、ランダム実験における結果の集合である。即ち標本空有の部分集合(subset)である。 事象A1,A2,A3...があり、どのペアに関してもAi ∩ Aj = Φである時、これらの事象は相互排他(mutu...
確率論

標本抽出(sampling)

定義 標本抽出(sampling)とは母集団からいくつかの標本を選び出すことである。 標本抽出の分類(1):復元抽出と非復元抽出 母集団から複数の標本を取り出す時、1つ標本を取り出しては母集団に戻し、次の1つの標本を取り出すことを繰り...
確率論

標本空間(sample space)

定義 標本空間(sample space)とはランダム実験(random experiment)Eにおいて起こりうる全ての結果の集合のことである。 標本空間 (sample space)とは試行(trial)の結果として起こりうる全...
確率論

random experiment

定義 random experimentとは、事前に結果を予測することの出来ない実験のことである。 統計学においてはexperimentを、deterministic experiment(事前に確実に結果を予測できる実験)とran...
記述統計(1変数)

5要約統計量(five number summary)

同義語 Tukey's five number summary 定義 5要約統計量(five number summary)とはあるデータセットの最小値(minimum)、下位ヒンジ(lower-hinge)、中央値(median...
記述統計(1変数)

尖度(kurtosis)

定義 尖度(kurtosis)は分布の尖り具合の指標である。 平たい分布をplatykurtic、尖った分布をleptokurtic、両者の中間の分布をmesokurticと呼ぶ。 分類 例 platyku...
記述統計(1変数)

歪度(skewness)

定義 歪度(skewness)は分布の非対称性の指標である。以下の式のg1で定義される。 $$ { g }_{ 1 }=\frac { 1 }{ n } \frac { \sum _{ i=1 }^{ n }{ { ({ ...
記述統計(1変数)

順序統計(order statistic)

定義 順序統計(order statistic)とは、x1,x2,x3...,xnからなるデータセットがある時、データを昇順で並び替えて作った以下のものことである。 $$ { x }_{ (1) }\le { x }_{ (2)...
記述統計(1変数)

CUSS (Center, Unusual features, spread, and shape)

定義 CUSS (Center, Unusual features, Spread, and Shape)とは、分布の特徴を表す4つの指標の略語(acronym)である。 Center(中心):分布の中心を表す値。平均や中央値(me...
記述統計(1変数)

データの型(types of data)

Kernsの分類 データの型の分類方法には様々なものがあるが、Kernsは以下の分類を提唱している。 量的(qualitative) 連続(continuous) 離散(discrete) 質的(quantitative) ...
仮説検定

Wilcoxon rank-sum test

同義語 Mann-Whitney test、Mann-Whitney-Wilcoxon test 定義 Wilcoxon rank-sum testは2群のt検定(two-sample t-test)のノンパラメトリック版である。 ...
仮説検定

符合検定(sign test)

定義 sign testは、one-sample t-testのノンパラメトリック版である。 帰無仮説(H0):標本の中央値mxは、比較対象の中央値Mと等しい。 帰無仮説の元では、Mより大きい標本の数と、Mより小さい標本の数は...
仮説検定

q値 (q-value)

定義 q値とは、ある検定結果が有意と判断される最小のFDR(false discovery rate)値のことである。 例えばq=0.01を有意とみなすことは、q<=0.01である複数の検定(多重検定)全体のFDRとして最大0...
仮説検定

FWER (family-wise error rate)

定義 FWER (family-wise error rate)とは、多重検定において、1回でもαエラーを起こす確率のことである。 例えば1000回の多重検定を行なう際のFWERが0.05であるとすれば、1000回の検定のうち1回で...
仮説検定

FNR (false nondiscovery rate)

定義 FNR(false nondiscovery rate)とは、多重検定において、下した全てのnegative inference(有意差なしと判断した回数)の中で誤っている判断の割合のことである。 FDR = 誤ったnegat...
仮説検定

FDR(false discovery rate)

定義 false discovery rateとは、多重検定において、下した全てのpositive inference(有意差ありと判断した検定結果)の中で誤っているものの割合のことである。 FDR = 誤ったpositive in...
仮説検定

検出力(power)

同義語 検定力、検出力、power、statistical power 感度(sensitivity) 定義 検出力(power)とは、検定において、データが対立分布(HA)から抽出されている場合に、適切に帰無仮説(H0)を棄却...
仮説検定

pooled variance

同義語 pooled variance, combined variance, composite variance, overall variance $ s_{p}^{2} $と表記される。 定義 複数の母集団が存在する...
生存時間分析

Cox回帰における残差

生存分析のデータには打ち切りデータが含まれているため、その残差分析は一般線形回帰モデルの残差分析に較べて複雑である。 生存時間分析における残差には複数の種類(定義)がある。代表的なものは以下である。 マルチンゲール残差(ma...
記述統計(1変数)

箱ひげ図(box plots)

定義 箱ひげ図(box plots)はデータの分布を視覚的に表現する図の1種である。 箱ひげ図では以下の数値が表現される。 25th パーセンタイル=lower quartile (Q1) 50th パーセンタイル=medi...
仮説検定

訴追者の誤謬(prosecutor’s fallacy)

定義 訴追者の誤謬(prosecutor's fallacy)とは、「p値とは帰無仮説(H0)が真である確率である」という誤解のことである。 法廷の議論で頻出する間違いであるためこの名前がある。 p値は帰無仮説(H0)が真でと仮定...
仮説検定

対立分布(alternative distribution)

定義 対立分布(alternative distribution)とは対立仮説を具体化した分布。 帰無分布の形を保ったまま、推定する効果量に応じて位置をシフトさせた分布を想定することが一般的である。 関連 効果量
スポンサーリンク