統計学辞典

仮説検定

帰無分布(null distribution)

定義 帰無分布とは帰無仮説(null hypothesis : H0)を具体化した分布のことである。 検定の理論は、実測値が帰無分布上のどこに位置するのかを求め、実測値と同じあるいはそれ以上の外れ値が出現する確率をp値として返すとい...
連続分布

正規分布(normal distribution)

同義語 Gaussian、bell-shaped distribution 関連 標準正規分布
推定

エラーバー(error bars)

定義 エラーバー(error bars)とは、統計学的推定における不確実性を視覚的に表現する方法1つである。伝統的に頻用される図であるが、その解釈は非直観的なものであり、取扱には注意を要する。 エラーバーの種類 エラーバーには3つの種...
重回帰分析

VIF(variance inflation factor)

同義語 分散拡大要因(variance inflation factor ; VIF) 定義 VIF(X) = 1/(1 – R^2) VIF(variance inflation factor)は多重共線性(multicoll...
一般線形モデル

等分散性(homoscedasticity)

定義 等分散性(homoscedasticity)とは、誤差(残差)の分散が一定である(constant noise variance)という性質あるいはその仮定のことである。 一般線形モデル(general linear mode...
仮説検定

パラメトリック検定(parametric test)

定義 パラメトリック検定とは、データの分布に仮定をおく検定手法の総称である。 検定には、データの分布に仮定をおくものとおかないものがある。データの分布におく仮定とは例えば、データが正規分布に従うというような仮定である。
メタ分析

[R] rma(),lm(),lme(),lmer()の違い

metaforプロジェクトの記事のエッセンスをまとめる。 メタアナリシスモデル(meta-analytic model)は、線形(混合効果)モデル linear(mixed-effects)model の特殊形である。メタアナリシスモ...
標本分布

サンプルの分散(sample variance)とサンプリングの分散(sampling variance)

同義語 日本語訳としていずれも定まっていないが、sampleとsamplingを明確に区別することが必須である。そのためここではsampleを"サンプルの"、samplingを"サンプリングの"と直訳した。 定義 Sample var...
生存時間分析

time-varying exposure

定義 time-varying exposureとは、疫学研究における曝露の中で、同一対象に対する曝露状況が経時的に変化する(しうる)曝露のことである。例えば、ある時期には薬を飲んでいたが別の時期には飲んでいないというような状況における内...
ロジスティック回帰分析

ロジット(logit)

定義 ロジット(Logit)とは、0から1の値をとるp に対し、以下の式で定義される値である。 logit(p) = log {p / (1-p)} = log(p) - log(1-p) 対数の底は1より大きければ何でもよい。 ...
モデル選択

ネストしたモデル(nested model)

定義 2つの統計モデルがある時に、一方のモデルに含まれる説明変数のセットが他方のモデルの説明変数の部分集合になっている時、この2つのモデルをネストしたモデルと呼ぶ。 全ての説明変数を含むモデルを飽和モデル(saturated mod...
重回帰分析

対数尤度(log likelihood)

定義 対数尤度(log likehood)とは尤度(likelihood)の対数のことである。 わざわざ尤度(ないし尤度関数)の対数を取るのは、そうすることでその後の数式処理が楽になるからである。具体的には尤度関数は積の形で表される...
生存時間分析

subdistribution hazard

定義 subdistribution hazardとは、ある主体が競合リスク存在下において、ある原因(リスク)によるfailureを起こすハザードのこと。 subdistributionは競合リスク分析の鍵となる概念である。 関連...
メタ分析

メタ分析 (meta-analysis)

同義語 メタアナリシス、meta-analysis 定義 メタアナリシスとは、同一のテーマを扱う複数の研究結果を集約・対比することを目的とする、統計学的方法に裏打ちされた系統的文献レビューのことである(Glass 1976)。 メタ...
生存時間分析

post-randomization covariate

定義 post-randomization covariateとは、ランダム化の後で測定された共変量のことである。 post-randomization covariateと対になるのは、ランダム化以前に測定された/存在していた共変...
重回帰分析

デザインマトリックス (design matrix)

同義語 regressor matrix(リグレッサーマトリックス), model matrix(モデルマトリックス) 定義 デザインマトリックスとは、説明変数をまとめたマトリックス(行列)のことである。しばしばXと表記される。 ...
重回帰分析

尤度(likelihood)

定義 尤度(正確には、あるデータのあるモデルに対する尤度)とは、モデルのあてはまりの良さ(goodness of fit)(正確には、あるデータに対するあるモデルのあてはまりの良さ)を定量的に示す数値のことである。 尤度とoverfit...
重回帰分析

baseline codification

定義 複数の水準を持つ因子型変数を説明変数として持つ統計モデルを多変量解析で扱うためには、その因子型変数をダミー変数に変換する必要がある。baseline codificationはダミー変数に変換する方法の1つであり、最もよく使用される...
モデル選択

BIC(Bayesian information criteria)

定義 BIC = -2l +log(n)d (l: ログ尤度の最大値、n:オブザベーション数、 d:推定される自由パラメータの数) AICよりもBICの方が、パラメータ数の数に対して強いペナルティを課している。 数学的には、...
生存時間分析

競合リスクイベント (competing risk event)

定義 競合リスクイベント(competing risk event)とは、生存時間分析のイベント(=アウトカム、failure)の中で、排他的な複数の原因(causes of failure)を持ちうるイベントのことのである。 競合...
生存時間分析

Conditional Landmark Analysis

同義語 ランドマーク分析、条件付きランドマーク分析 定義 Conditional Landmark Analysisは、guarantee-time bias (GTB)を取り除くために用いられる統計手法の1つである。 Cond...
生存時間分析

guarantee-time bias (GTB)

同義語 immortal time bias, survivor treatment selection bias, survivor bias 定義 guarantee-time bias (GTB)とは、生存時間解析において、群間...
モデル選択

モデルのあてはまりのよさ(goodness of fit)

定義 モデルのあてはまりの良さとは、実際のデータに対して、理論的仮説である統計モデルがどの程度あてはまっているかを示す概念である。 複数の定量的指標が定義されている。代表的なものを以下に挙げる。 goodness of fit...
ベイジアンネットワーク

ベイジアンネットワーク(Bayesian network : BN)

同義語 ベイジアンネットワーク(Bayesian network : BN)、信念ネットワーク(belief network) 定義 ベイジアンネットワーク(Bayesian network : BN)は、多変数間の確率的依存関係を視...
因子分析

因子分析におけるカテゴリ数の多寡と分析手法の選択(因子分析 vs 質的因子分析)

カテゴリ変数を連続変数とみなして通常の因子分析を実行する場合、カテゴリ変数のカテゴリ数の多寡によって、因子分析か質的因子分析を使い分けることが推奨される。 カテゴリ変数が5値以上の場合、通常の因子分析を実行しても推定結果の偏りは大きく...
因子分析

次元削減(dimension reduction)

定義 次元削減とは、多次元(多変数)のデータを、より少ない数の因子で要約的に表現する統計学の手法のことである。 計量心理学では次元削減が用いられることが多い。具体的な次元削減の手法としては、因子分析、クラスター分析、主成分分析などが...
一般線形モデル

交絡要約スコア(confounder summary score)

定義 交絡要約スコア(confounder summary score)とは、複数の交絡因子の情報を要約した1つのスコア(要するに1つの合成変数)のことである。 交絡要約スコアを使用するメリット 交絡要約スコアのメリットは2つある。 ...
一般線形モデル

因子化(factoring)

定義 因子化(factoring)とは、連続変数を複数の範囲に区切った複数の因子からなる変数に変換することである。 例えば年齢であれば、10歳ごとに区切り、10代、20代、30代...とするような操作である。
モデル選択

オーバーフィッティング(overfitting)

同義語 過学習 定義 統計モデルのあてはめ(fitting)においては説明変数の数を増やせば増やすほど、モデルのあてはまりがよくなるという性質がある。しかし説明変数の数が多すぎるとそのモデルは将来の予測には役立たないものとなる。 ...
モデル選択

ステップワイズ法

定義 ステップワイズ法は、多変量回帰分析において、最終モデルに投入する予測変数を自動選択するアルゴリズムである。 ステップワイズモデルは、因果モデルよりも、予測モデルを構築する際に意義があると考えられている。
重回帰分析

層別解析と多変量回帰分析の使い分け

ロスマンによれば、疫学における主要な分析方法は層別解析であり、多変量解析は補助的手段である。 層別解析では扱えないほど交絡因子が多い場合、多変量解析はよい道具である。しかし交絡因子だと思ったものが実際に重要な交絡因子であるかどうかは、実際...
一般線形モデル

変数変換

定義 統計学における変数変換は、モデルフィッティングによって得らえるパラメータの推定値が、実際のデータの意味に照らして意味のある範囲内に収まるように制約をかけるために行う、変数の変換処理のことである。 変数変換の例 例1.対数変換 ...
標本抽出法

統計学的代表性(statistical representativeness)

定義 統計学的代表性(statistical representativeness)とは、統計学的な観点から、標本が母集団の代表になっている程度を意味する概念である。 統計学的代表性の担保と、標本抽出および調査に要するコスト(効率性...
生存時間分析

ハザード(hazard)

定義 ハザード(hazard)とは、これまでに発生していない事象(event)が新たに発生する速度のことである。 関連 ハザード比
確率論

ベルヌイ試行(Bernoulli trial)

定義 ベルヌイ試行(Bernoulli trial)とは、結果が2値で、(いずれかの結果が出る)確率が常に一定で、(連続して試行した場合に)互いに独立である試行のことである。 平たく言えば、勝つか負けるかの一発勝負のようなものである...
確率論

累積分布関数(cumulative distribution function ; CDF)

同義語 分布関数(distribution function) 累積分布関数(cumulative distribution function, CDF) 定義 累積分布関数とは、確率変数の実現値としてx以下が観察される確率を返...
確率論

確率質量関数(probability mass function ; PMF)

同義語 確率質量関数(probability mass function : PMF) 確率関数(stochastic function, probability function) 定義 確率質量関数(probabilit...
記述統計(1変数)

最頻値(mode)

定義 最頻値(mode)とは、データの値ごとの出現回数を数えた場合に、最も出現回数の多い値のことである。最頻値は代表値の1種である。最頻値を平均値の1種とする流儀もある。 関連 代表値 平均値
記述統計(1変数)

中央値(median)

同義語 中位数、中央値、メディアン、median 定義 中央値(median)とは、データを大きさの順に並べた時に、ちょうど真ん中に位置するデータの値のことである。データ数nが奇数の場合は(n+1)/2番目のデータ、データ数nが偶数の...
記述統計(1変数)

平均(mean)

定義 平均値は代表値の1種である。 平均の分類 実際には平均値にはいくつかの種類(定義)がある。単に平均といった場合、算術平均を意味する。 算術平均 (arithmetic mean)(=相加平均) 幾何平均(geomet...
記述統計(1変数)

平方平均の平方根(root mean square : RMS)

定義 平方平均の平方根(root mean square : RMS)とは、以下の数式で定義される平均(の1種)である。 $${m_{RS}} = \sqrt {\tfrac{1}{n}\sum\limits_{i = 1}^n...
記述統計(1変数)

絶対平均(mean absolute value)

定義 絶対平均(mean asbolute value ; mA)とは、データの絶対値の算術平均である。 $${m_A} = \tfrac{1}{n}\sum\limits_{i = 1}^n {\left| {{x_i}} \...
記述統計(1変数)

調和平均(harmonic mean)

定義 調和平均mHは以下の式で定義される平均(の1種)である。 $${m_H} = \frac{1}{{\frac{1}{n}\sum\limits_{i = 1}^n {(\frac{1}{{{x_i}}}} )}} = \f...
記述統計(1変数)

幾何平均(geometric mean)

定義 幾何平均(geometric mean)とは、以下の数式で定義される平均(の1種)である。 $${m_G} = \root n \of {{x_1}{x_2} \cdots {x_n}}  = {(\prod\limits...
確率論

理論分布(theoretical distribution)

定義 理論分布 (theoretical distribution)とは、確率分布を生成する関数である。 関連 確率分布 (probability distribution)
ベイス統計

公的分析(public analysis)

定義 公的分析 (public analysis)とは、分析結果を公的に社会に還元することを目的として行う分析のことである。 ベイズ統計学では事前確率として主観確率を用いることから、私的分析と公的分析では、使用する事前確率に要求され...
ベイス統計

私的分析(private analysis)

定義 私的分析(private analysis)とは、分析者が分析結果を自ら私的に利用することを目的として行う分析のことである。 ベイズ統計学では事前確率として主観確率を用いることから、私的分析と公的分析では、使用する事前確率に要...
確率論

母数(parameter)

定義 母数 (parameter) とは、統計モデル(確率分布を含む)を特徴づける数的指標のことである。 関連 回帰母数 (regression parameter)
ベイス統計

理由不十分の原則(principle of insufficient reason)

定義 理由不十分の原則(principle of insufficient reason)とは、事象の発生確率の予測が全くできない場合に、全ての事象の発生確率が等しいと仮定するベイズ統計学の原則のことである。 事前分布の設定において...
記述統計(1変数)

分散(variance)

定義 分散(variance)とは、偏差(実現値-期待値)の二乗の平均値のことである。 ある変数Xの分散はVと表記され、以下の数式で定義される。 V=E)^2] 関連 期待値 (expectation value) ...
スポンサーリンク