Dr.Clover’s Computer Clinic

抑制変数

定義重回帰分析においては、目的変数と直接には無相関な変数を説明変数に加える事でモデル全体の分散説明率を高められることがある。このような目的変数と直接には無相関であるにも関わらず、説明変数としてモデルの分散説明率を高める変数を抑制変数...

2016.04.06

重回帰分析

標準偏回帰係数

標準回帰係数は、目的変数と説明変数を全てz得点に変換した上で求めた偏回帰係数である。偏回帰係数をb1, b2 , ...、対応する標準偏回帰係数をb1*, b2*, ...と表記することにする。線形予測子として、y = b0 + b...

2016.04.06

重回帰分析

共分散分析 (analysis of covariance : ANCOVA)

定義共分散分析モデルは、説明変数に量的変数と質的変数の両方を含む一般線形モデルである。実際の共分散分析では、質的変数に主たる関心があり、量的変数は統制されるべき変数（＝剰余変数）とみなされることが多い。即ち、各群の...

2016.04.06

分散分析

バランスデザインとアンバランスデザイン

分散分析の文脈では、対象となるデータの構造から、実験デザインは、バランスデザインとアンバランスデザインに分類される。バランスデザインとは、各水準のサンプル数が等しい実験デザインのことである。アンバランスデザインとは、各水準の...

2016.04.06

分散分析

Aipo 8.1 (Windows版)の自動起動を停止する方法

Windows10にAipo8.1をインストールするとサービスとして自動起動するように設定される。通常運用するにはこの設定で正しく、これを変更する必要はない。しかし試験的に運用などでは自動起動ではなく手動起動に切り替えたいこともある。そのや...

2016.04.06

その他ウェブアプリ

日本の肺がん診断時ステージ割合の年次推移

日本における肺癌の診断時ステージ割合は経時的に変化しているのであろうか？がん情報サービス（がん登録・統計）で公開されている全国データをもとに分析を行った。元データには「不明」「空欄」という項目があるが今回の集計では除外し、0...

2016.04.05

がんの疫学

日本の胃がん診断時ステージ割合の年次推移

日本における胃癌の診断時ステージ割合は経時的に変化しているのであろうか？がん情報サービス（がん登録・統計）で公開されている全国データをもとに分析を行った。元データには「不明」「空欄」という項目があるが今回の集計では除外し、0~Ⅳ期の...

2016.04.05

がんの疫学

[R] {utils} data() 組み込みデータセットを扱う関数

Rには組み込みデータセット（要するにサンプル・データ）が用意されている。utils::data()関数を使用することでデータセットの一覧を取得したり、使用したいデータセットを読みこんだりすることができる。 # 利用可能な全てのデータセット...

2016.04.04

{utils}

ブートストラップ法

リサンプリングとコンピュータによる大量の反復計算による、推定量の標本分布を導出する手法。複雑な数理を必要とせず、一般的な方法であらゆる標本分布を導出可能な点で優れている。関連精密標本分布論漸近展開

2016.04.04

標本分布

漸近展開

精密な標本分布を数理的に導出できない統計量に対して近似的な標本分布を導出する手法。エッジワース展開、コーニッシュ＝フィッシャー展開などが代表的な手法である。歴史的には精密標本分布論に続けて発達した。関連精密標本分布論

2016.04.04

標本分布

精密標本分布論

精密標本分布論とは：小~中サイズの標本に対する精密な標本分布を求める学問分野。大きな標本の場合、多くの統計量（平均、分散、比率etc)の標本分布は正規分布で近似できるが、中小標本はその限りではない。そのためこの分野が発達した。ゴセッ...

2016.04.04

標本分布

相関比η (correlation ratio)

同義語相関比 (correlation ratio)、η(エータと読む) 定義「分散分析の相関比η」は「重回帰分析の重相関係数R」に相当する概念である。 (相関比)2 = 決定係数R2 相関比ηは分散分析は以下の式で定...

2016.04.03

分散分析

要因(factor) と水準(level)

定義「要因」は一般統計学でいう「質的説明変数」のことである。「水準」は要因内で取りうる実際の値のことである。分散分析では一般統計学と同一の概念が独特の名称で呼ばれることが多い。「要因」と「水準」も分散分析の独特の用語である。要因...

2016.04.03

分散分析

同値モデル

定義同値モデルとは：同じデータに対して、適合度が必ず同じになる複数のモデルのこと。

2016.04.03

共分散構造分析

モデルの識別性

定義モデルの識別性とは、共分散構造分析において、モデルの未知母数の推定値が１つに定まるかどうか、という意味である。共分散構造分析において、モデルから導かれる共分散構造と、観測されたデータの共分散の値を等しいと仮定した連立方程式への適...

2016.04.03

共分散構造分析

平均構造

定義平均構造とは、観測変数の平均を母数の関数として表現したものである。共分散構造分析ではモデルに平均構造を含める場合と含めない場合がある。平均構造を平均構造をモデルに含めた共分散構造分析は「平均・共分散構造分析」と呼ばれる。

2016.04.03

共分散構造分析

共分散構造分析

定義共分散構造分析とは「共分散構造」と実際のデータから計算される共分散の値の差が最小化するように母数の値を推定する統計手法の総称である。「共分散構造」とは、モデルに含まれる母数を使用して、観測変数間の共分散を理論的に表現したもの...

2016.04.03

共分散構造分析

共通性(communality)

共通性とは、観測変数の分散のうち、共通因子で説明できる成分の割合のこと。共通性の２乗＋独自性の２乗＝１となるように定められている。

2016.04.03

因子分析

[SSL] 無料のSSL証明書を取得して自宅サーバーをhttps対応させる方法

WoSignという会社が３年間有効なSSL証明書を無料で発行してくれる。以下、無料のSSL証明書の取得とサーバーへの配置までの手順を説明する。 WoSign社の無料SSL発行ページにアクセス SSL対応させたいドメイン、証明書の有効期...

2016.04.03

Apache

WordPressのマルチサイトの親サイトのサイトURLを書き換える方法

WordPressをマルチサイトで運用していて、途中でSSL(Https)を導入する場合など、サイトURLを書き換える必要が出ることがある。この際、子サイトに関しては、サイト管理者のダッシュボードからサイトURL(Site URL)を書...

2016.04.02

WordPress本体

Windows10でtelnetクライアントを使用する方法

Windows10ではコマンドプロンプト(管理者)からtelnetクライアントを使用可能である。しかしデフォルトではこの機能は使用できないようになっている。試しにtelnetと入力してみると以下のエラーメッセージが出る。 'te...

2016.04.02

Windows10

過剰診断とは何か？

正しいがん検診はがん死の予防に有効ですがんによる死を避けるためには早期発見、早期治療が有効です。進行したがんは治療が難しく、また症状が出た時にはがんは進行していることも稀ではないからです。実は、欧米ではがんによる死亡は既に頭打ち...

2016.04.02

2次予防(検診)

『過剰診断: 健康診断があなたを病気にする』

過剰診断とは何か？ということについて、がん検診の視点からまとめた記事はコチラをご覧ください。過剰診断の問題はがん検診に限った話ではありません。検診には生活習慣病の検診もありますし（むしろこちらの方がメジャー）、最近では遺伝子検査が商業...

2016.04.02

本

独学者のための統計学を学ぶ本

独学者は何をどういう順番で読んだらいいのかもわからないものです。自分自身も独学者なので、自ずと目を通す本の数はどうしても多くなります。後から振り返ると、この本をこういう順番で読めばもっと効率的だったんじゃなかろうかと気づくわけですが。 ...

2016.03.31

本

[R]{psych} ICC()で級内相関係数を計算する方法：どんな形式のデータを渡せばいいのか？

RではpsychパッケージのICC()関数を使用して級内相関係数を計算できる。 psychのICC()の公式説明ヘルプには以下のスクリプト例が紹介されている。 sf <- matrix(c(9, 2, 5, 8, ...

2016.03.31

{psych}

[R] {lme4} lmer()を使用して最小モデルのICCを計算する手順

Rではlmer()を用いてマルチレベル分析を実行できる。マルチレベル分析では最初に最小モデルの級内相関係数(ICC)を計算し、その値に基づいてマルチレベル分析に進むかどうかを決定する。以下にlmer()の出力とそれを元にIC...

2016.03.30

{lme4}

傾きを基準変数とするモデル (slope-as-outcome model)

マルチレベル分析において、ランダム切片・係数モデル分析の結果、上位グループによる差異の存在が明らかになった状況を考える。この分析に続いて、更にランダム切片および各ランダム係数について、上位レベルの説明変数での解析を試みる手法が「傾きを基準変...

2016.03.30

マルチレベル分析

マルチレベル分析におけるモデルの分類（最小モデル、ランダム切片モデル、ランダム係数モデル、ランダム切片・係数モデル）

マルチレベル分析におけるモデルは5つに分類できる。 (1) 最小モデル (2) ランダム切片モデル(RIモデル) (3) ランダム係数モデル (RCモデル) (4) ランダム切片・係数モデル (RICモデル) (5) フルモデル ...

2016.03.30

マルチレベル分析

最小モデル

定義最小モデルはマルチレベル分析におけるレベルの１種である。最小モデルは下位レベル（レベル１）において切片と誤差項からのみなる線形予測子を仮定し、この切片に変量効果を仮定するモデルである。即ち説明変数の項を含まないモデルである。 ...

2016.03.30

マルチレベル分析

メタアナリシスのモデル

メタアナリシスやマルチレベル分析には３つの統計モデルがある。 (1) ランダム効果モデル(random effect model) (2) 混合効果モデル(mixed effect model) (3) 固定効果モデル(f...

2016.03.30

メタ分析

プールド・データ (pooled data)

階層データは、階層を無視して全部ひとまとめのデータと考えることもできる。この全部をひとまとめにしたデータを「プールド・データ」と呼ぶ。

2016.03.30

マルチレベル分析

[mod_rewrite] mod_rewriteのログを出力する方法

Windows-Xampp-Apacheでmod_rewriteのログを出力する方法を示す。 Apacheの設定ファイル（「httpd.conf」など）にディレクティブを記述することでmod_rewriteのログを出力することができる...

2016.03.30

Apache

[R] {base} prop.table() : 相対頻度表を作成する関数

概要集計表がある時、各セルを周辺度数に対する割合に変換した表を作成するためにRでは{base}パッケージのprop.table()関数を使用する。 # 構文 prop.table(x, margin = NULL) 引数 x...

2016.03.29

{base}

[R]{utils} sessionInfo() : Rのバージョン、OS情報、アタッチまたはロードされているパッケージの情報を表示する関数

現在のRセッションに関する情報、具体的には、Rのバージョン、OS情報、アタッチまたはロードされているパッケージの情報を表示するには{utils}パッケージのsessionInfo()関数を使う。以下に実行例を示す。 > sessio...

2016.03.29

{utils}

イプサティブデータ (ipsative data)

イプサティブデータ(ipsative data)とは、同一被験者からの（複数の条件での）反復測定により収集されたデータのうち、どの被験者においても被検者内反復測定データの和が一定値となるタイプのデータのこと。例えば、好きなものに順位付け...

2016.03.29

分散分析

球面性の仮定

球面性の仮定とは「被験者内の水準間の差の分散（＝ある要因の水準から任意の２つずつを対にして従属変数の差を取った時に、ブロックや被験者の母集団におけるその差の分散）が、どの水準対でも同じになる」という仮定である。球面性の仮定は、対応のある...

2016.03.29

分散分析

標準化(standardization)

定義標準化(standardization)とは、各データから平均値を引いた上で（即ち中心化した上で）、更にその結果を標準偏差で割ることである。使用方法標準化は統計学のあらゆる分野で使用される。正規分布に従うデータを標準化す...

2016.03.29

記述統計(1変数)

回帰係数の等質性の仮定

回帰係数が等質である＝（ある要因とある共変量の間に）交互作用が存在しないある要因の各水準で、従属変数を共変数で予測する回帰直線を作成する → これらの回帰直線の傾きが全て等しい（＝全回帰直線が平行である）かどうかを調べたい → 要因と共...

2016.03.29

分散分析

分散分析の事後検定

分散分析ではその結果に基づき事後検定が行われるのが一般的である。分散分析にて群間に有意差がありとの結果が出た場合 → 主効果の事後検定として「多重検定」に進む。この多重検定には諸々の手法があるが、代表的なものにテューキーの多重検定がある...

2016.03.29

分散分析

２次の交互作用

３つの要因がある分散分析を考える。このうち２つの要因間の（一次の）交互作用のあり方が、第３の要因の水準によって異なる時、「２次の交互作用がある」と言う。

2016.03.29

分散分析

交互作用 (interaction)

同義語交互作用(interaction) 定義交互作用(がある)とは、多要因分散分析の文脈において、ある要因の特性値に対する効果が、他の要因の水準によって異なることを意味する。即ち、交互作用があるとは、多要因分散分析におい...

2016.03.28

分散分析

交絡 (confounding)

定義交絡(confounding)は、２つ以上の要因が連動して変化するため、そのうちのどれが結果に影響しているのかを判断できない状態である。ある目的変数yへのある説明変数xの影響を知りたいシナリオを考える。交絡があるとは第３の変数（＝剰...

2016.03.28

バイアス

「分散分析」と「テューキーの多重検定」の関係

「分散分析」と「テューキーの多重検定」の結果には必ずしも整合性がない。分散分析で有意差があるのに、テューキーの多重検定ではどの群間にも有意差なしとの結果が出ることがある。逆に分散分析で有意差がないのに、テューキーの多重検定ではどこか...

2016.03.28

分散分析

分散分析表

定義分散分析表は分散分析の結果を要約した表である。一般に以下のような形式を取る。変動要因自由度 (Df) 平方和 (Sum Sq) 平均平方 (Mean Sq) 統計量 F Va...

2016.03.28

分散分析

自由度調整済み重相関係数

一般に独立変数の数を増やせば増やすほど、母集団の重相関係数は過大評価されやすいことが知られている。これを補正したものが「自由度調整済み重相関係数」である。

2016.03.28

重回帰分析

偏相関係数と部分相関係数

定義（単純）相関変数は２つの量的変数間の関係性を評価する指標である。これに対し、偏相関係数と部分相関係数は、３つ以上の変数がある場合に、この中から取り出した２変数の相関係数であるが、２変数の単純相関係数ではなく、第３の変数の影響を除...

2016.03.28

重回帰分析

多重共線性(multicollinearity)

同義語マルチコ定義多重共線性(multicollinearity)とは、重回帰分析において予測変数間の相関が高すぎる状態のことである。多重共線性を含む直線回帰モデルでは、その予測値は安定しているが、回帰係数の推定量が不安...

2016.03.28

重回帰分析

重回帰分析における各独立変数の有意性の検定

帰無仮説２通りの表現が可能であるが、数理的な内容は同一である。 (1) 母集団において全ての独立変数を用いて予測した時の重相関係数と、ある変数(例えばx1)を除外してその他の全ての変数を使って予測した時の重相関係数は等しい。 (2)...

2016.03.28

重回帰分析

重相関係数の有意性の検定

帰無仮説：母集団の重相関係数はゼロである検定統計量：F値(分子の自由度df1=p、分母の自由度df2=N-p-1) F = (R2/p) / {(1-R2)/(N-p-1)} ここでpは独立変数の個数、Nはサンプル数(=レコード数)...

2016.03.28

重回帰分析

重相関係数R (multiple R-squared)

重相関係数とは、従属変数yとその予測値y_hatとの相関係数である。 Rと表記されるのが一般的である。関連自由度調整済み重相関係数(adjusted multiple R-squared) 重相関係数の有意性の検定 R2は「分...

2016.03.28

重回帰分析

1…24 252627 28…34

抑制変数

標準偏回帰係数

共分散分析 (analysis of covariance : ANCOVA)

バランスデザインとアンバランスデザイン

Aipo 8.1 (Windows版)の自動起動を停止する方法

日本の肺がん診断時ステージ割合の年次推移

日本の胃がん診断時ステージ割合の年次推移

[R] {utils} data() 組み込みデータセットを扱う関数

ブートストラップ法

漸近展開

精密標本分布論

相関比η (correlation ratio)

要因(factor) と 水準(level)

同値モデル

モデルの識別性

平均構造

共分散構造分析

共通性(communality)

[SSL] 無料のSSL証明書を取得して自宅サーバーをhttps対応させる方法

WordPressのマルチサイトの親サイトのサイトURLを書き換える方法

Windows10でtelnetクライアントを使用する方法

過剰診断とは何か？

『過剰診断: 健康診断があなたを病気にする』

独学者のための統計学を学ぶ本

[R]{psych} ICC()で級内相関係数を計算する方法：どんな形式のデータを渡せばいいのか？

[R] {lme4} lmer()を使用して最小モデルのICCを計算する手順

傾きを基準変数とするモデル (slope-as-outcome model)

マルチレベル分析におけるモデルの分類（最小モデル、ランダム切片モデル、ランダム係数モデル、ランダム切片・係数モデル）

最小モデル

メタアナリシスのモデル

プールド・データ (pooled data)

[mod_rewrite] mod_rewriteのログを出力する方法

[R] {base} prop.table() : 相対頻度表を作成する関数

[R]{utils} sessionInfo() : Rのバージョン、OS情報、アタッチまたはロードされているパッケージの情報を表示する関数

イプサティブデータ (ipsative data)

球面性の仮定

標準化(standardization)

回帰係数の等質性の仮定

分散分析の事後検定

２次の交互作用

交互作用 (interaction)

交絡 (confounding)

「分散分析」と「テューキーの多重検定」の関係

分散分析表

自由度調整済み重相関係数

偏相関係数と部分相関係数

多重共線性(multicollinearity)

重回帰分析における各独立変数の有意性の検定

重相関係数の有意性の検定

重相関係数R (multiple R-squared)

要因(factor) と水準(level)