Technically Impossible

Lets look at the weak link in your statement. Anything "Technically Impossible" basically means we haven't figured out how yet.

PYR102 week 9, 10 回帰分析

特定テーマに限定したWikiを立ち上げる必要もなく、ブログの様に私見をまとめる必要もない、

  • 講義の予習ノート
  • 読書ノート
  • メモ

などの雑記帳Wikiから移行した投稿。

統計クラスの予習ノート。

用語

cross validation 交差検証
determination coefficient 決定係数
directional test 方向性検定
片側検定、あるいは両側検定。
global test 包括検定
hetero- 異なる~
heterogeneity 不均一
heteroscedasticity 不均一分散
least Squares principle 最小二乗法の原理
LOOCV Leave-One_out Cross Validation
一個抜き交差検証
multicollinearity 多重共線性
multivariate analysis 多変量解析
multiple correlation coefficient 相関係数
OLS Ordinary Least Squares regression
最小二乗回帰
regression coefficient 回帰係数
regression diagnostic 回帰診断
residual 残差
残差=観測値―予測値
傾き slope
tilt
証明する give proof
obtain proof
prove

回帰

単回帰分析 一つの従属変数(目的変数)を、一つの独立変数(説明変数)で予測する。
重回帰分析 一つの従属変数(目的変数)を、複数の独立変数(説明変数)で予測する。
どの説明変数が、目的変数にどの程度の影響を与えているかを知ることができる。
linear regression 線形回帰
multiple regression 重回帰
dummy regression
dummy variable regression
ダミー変数を用いる分析


y = a + bx_{1} + cx_{2} + dx_{3}

y objective variable 目的変数 予測したい変数
物事の結果と解釈できる。
^ dependent variable 従属変数 ^
x explanatory variable 説明変数 目的変数を説明する変数
物事の原因と解釈できる。
^ independent variable 独立変数 ^
a intercept 切片
b
c
d
regression coefficient 回帰係数
偏回帰係数

最小二乗法の原理

誤差を伴う測定値の処理において、誤差の二乗の和を最小にすることで、最も確からしい関係式を求める。
データの組 (x, y) が多数与えられたとき、xとyの関係を表すもっともらしい関数y = f(x)を求める。

最小二乗法(直線)の簡単な説明 | 高校数学の美しい物語
最小二乗法の意味と計算方法 - 回帰直線の求め方

決定係数

モデルの当てはまりの良さを表す指標。
目的変数(従属変数)の変動のうち、回帰によって説明された変動の割合。
目的変数Yが説明変数Xによってどれだけ説明できているか、ということ。

ESS 説明変数の平方和 予測値から観測値までの距離 回帰モデルでは説明できない範囲
RSS 残差の平方和 平均値から予測値までの距離 回帰モデルで説明できる範囲
TSS 全体の平方和 平均値から観測値までの距離 説明変数の個体差
R^2 決定係数
R 相関係数


TSS = ESS + RSS \\
R^{2} = \frac{ESS}{TSS} = \frac{ESS}{ESS + RSS} = 1 - \frac{RSS}{TSS}

TEX

TSS = ESS + RSS \\
R^{2} = \frac{ESS}{TSS} = \frac{ESS}{ESS + RSS} = 1 - \frac{RSS}{TSS}

ESS / TSS 回帰モデルでは説明できない範囲 / 回帰モデル全体
1 - RSS / TSS 1 - (回帰モデルで説明できる範囲 / 回帰モデル全体


0≦R^{2}≦1
R^2が1に近いほど、回帰モデルは有効である。
回帰モデル全体の内、回帰モデルで説明できる範囲が多くを占めている。
R^2 = 1のとき、RSS = 0。RSS = 0とは、残差が0の状態であり、それは全ての観測値が直線状に並ぶことを意味する。

説明変数の個数が増加すると、決定係数も増加する。→説明変数の個数が増加するほど、決定係数は1に近づく。
説明変数の個数の増加を修正する必要がある。

k 説明変数の個数
n 観測値の個数
R^2 決定係数
R^2` 自由度修正済み決定係数


\begin{align}
R^{2`} &= 1 - (1 - R^{2}) \frac{n - 1}{n - k - 1} \\
&= 1 - \frac{ \frac{ RSS }{ n - (k + 1) } }{ \frac{ TSS }{ n - 1 } } \\
&= 1 - \frac{ RSS }{ n - (k + 1) }  \frac{ n - 1 }{ TSS }
\end{align}

TEX

\begin{align}
R^{2`} &= 1 - (1 - R^{2}) \frac{n - 1}{n - k - 1} \\
&= 1 - \frac{ \frac{ RSS }{ n - (k + 1) } }{ \frac{ TSS }{ n - 1 } } \\
&= 1 - \frac{ RSS }{ n - (k + 1) }  \frac{ n - 1 }{ TSS }
\end{align}


仮説検定

2つの検定

個々の係数に関する仮説検定
切片と回帰係数の検定
t検定を用いる。
複合仮説
決定係数の検定。
model utility test
f検定(分散分析)を用いる。
切片と回帰係数に関する検定

切片も回帰係数も確率変数である。
真の係数が0のとき、従属変数(目的変数)と独立変数(説明変数)は無関係である。
切片と回帰係数に関する検定を実施する。

両側検定 H0 真の回帰係数=0
真の回帰係数=回帰係数=0
^ H1 not H0
片側検定 H0 真の回帰係数=0
真の回帰係数=回帰係数=0
^ H1 回帰係数>真の回帰係数
p > α H0が採用され、H1が棄却される。
p <= α H0が棄却され、H1が支持される。
決定係数の検定(model utility test)

決定係数も確率変数である。
真の係数が0のとき、従属変数(目的変数)と独立変数(説明変数)は無関係である。
決定係数に関する検定を実施する。

H0 すべての回帰係数=0
すべての説明変数に説明力がない。
説明変数は目的変数に影響を与えていない。
H1 not H0
少なくとも一つの回帰係数≠0
少なくとも一つの説明変数が説明力を持つ。
少なくとも一つの説明変数は目的変数に影響を与えている。
p > α H0が採用され、H1が棄却される。
p <= α H0が棄却され、H1が支持される。

多重共線性

説明変数間で相関係数が高い時に発生する現象。

一次従属 説明変数間の線形関係
共線性 一次従属が認められること
多重共線性 複数の共線性が認められること

完全な多重共線性が存在する場合、偏回帰係数を求めることができない。

複数の説明変数が比例関係にある→それらの変数が本質的に同じ情報を持ち、冗長である。

症状

  • 分析結果における係数の標準誤差が大きくなる。
  • t値が小さくなる。
  • 決定係数が大きくなる。
  • 回帰係数の正負が本来のものと逆転する。

多重共線性が起こりやすい状況

  • 説明変数間の相関係数が±1に近い組み合わせが含まれる。
  • 説明変数の個数がサンプル数に比べて大きい。
対応方針 相関関係が高いと考えられる説明変数を外す。
対応方法 関係する説明変数を一つずつ除外し、分析を繰り返す。
除外の基準 主観
分析結果を比較し、t値の高い方を残す。

多重共線性とは? 〜 概要と対応方法 〜 | 株式会社サイカ
多重共線性 | 統計用語集 | 統計WEB
EBPT用語集 - 日本理学療法士学会

回帰診断

回帰分析の仮定を検証する。
回帰分析の後に実施する、事後診断である。
たとえ回帰モデルの決定係数が1に近くとも、回帰分析の仮定が満たされないことがある。

次の仮定を検証する。

多重共線性 説明変数間の散布図を用いる。
線形性 目的変数と説明変数の関係は直線で近似できる。 目的変数と説明変数間の散布図を用いる。
独立性 標本は互いに独立である。 残差プロットを用いる。
等分散性 誤差項の分散、目的変数の分散はσ^2で一定である。 残差プロットを用いる。
正規性 誤差項はN(0, σ^2)の正規分布に従う。 残差のQQプロットを用いる。
残差が直線状に並ぶかを確認する。

残差プロット:縦軸に残差、横軸に目的変数を用いる。

ダミー変数

量的な意味のない、見せかけの変数。
数字ではないデータを、数字に変換する手法。
数字は0か1のみ。

二者択一の場合

0 はい 含まれる 合格 成功
1 いいえ 含まれない 不合格 失敗

男ダミー(1, 0)、女ダミー(1, 0)とはしない。
両ダミー間に多重共線性が生じる。

複数から選択する場合

~ 月曜日ダミー 火曜日ダミー 水曜日ダミー 木曜日ダミー 金曜日ダミー 土曜日ダミー 日曜日ダミー
0 月曜日 火曜日 水曜日 木曜日 金曜日 土曜日 日曜日
1 月曜日以外 火曜日以外 水曜日以外 木曜日以外 金曜日以外 土曜日以外 日曜日以外

ダミーは全て用いない。
必要なダミー数=カテゴリー数-1

~ dummy A dummy B dummy C
0 not A not B not C
1 A B C

dummy A = 0、dummy B = 0のときCと解釈すれば、dummy Cは不要。

目的変数がダミー変数の場合
線形確率モデル 線形回帰モデル LPM
Linear Probability Model
説明変数の線形関数によって、目的変数の期待値が決まると仮定。
非線形確率モデル ロジット・モデル ロジスティック分布を用いたモデル。
^ プロビット・モデル 標準正規分布を用いたモデル。

統計分析を理解しよう-ロジスティック回帰分析の概要- |ニッセイ基礎研究所

R

lm function | R Documentation 線形モデルの近似
predict.lm function | R Documentation モデル予測
scale function | R Documentation データの正規化
standardize function | R Documentation データの正規化
library(robustHD)
gvlma package | R Documentation Global Validation of Linear Models Assumptions
回帰診断
データの正規化
センタリング データの平均を0にする。
スケーリング データの分散を1にする。

R scale関数でデータフレームを正規化 - Qiita

GVLMA (Global Validation of Linear Models Assumptions)

Global Validation of Linear Model Assumptions
GVLMAの紹介-Rでの残差を用いた線形モデルの包括的検査 - Technically Impossible

  • 線形モデルの残差に注目し、その分布を検証する。
  • 交差検証を実施する。→パッケージ中でdeletionと呼ばれるもので、leave-one-out(一個抜き交差検証)を実施する。

leave-one-out cross-validation (LOOCV,一個抜き交差検証) は、標本群から1つの事例だけを抜き出してテスト事例とし、残りを訓練事例とする。これを全事例が一回ずつテスト事例となるよう検証を繰り返す。これはK-分割交差検証の K を標本サイズにした場合と同じである。

交差検証 - Wikipedia

gvlma GVLMAオブジェクトの生成
deletion.gvlma 一個抜き交差検証を実行する。
外れ値を抽出する。
gvlmaDelオブジェクトを返す。
gvlmaDelオブジェクト=一個抜き交差検証実行後のgvlmaオブジェクト

summary.gvlmaの読み方

                     Value p-value                   Decision
Global Stat        9.08857 0.05892    Assumptions acceptable.
Skewness           2.31988 0.12773    Assumptions acceptable.
Kurtosis           0.05758 0.81036    Assumptions acceptable.
Link Function      2.81911 0.09315    Assumptions acceptable.
Heteroscedasticity 3.89200 0.04852 Assumptions NOT satisfied!
Global Stat 線形性の検定
目的変数と説明変数が線形関係にあるか?
p >= 0.05 Assumptions acceptable. 線形関係
^ ^ p < 0.05 Assumptions NOT satisfied! 非線形関係
Skewness 残差分布の正規性の検定
歪度
p >= 0.05 Assumptions acceptable. 正規性
^ ^ p < 0.05 Assumptions NOT satisfied! 非正規性
Kurtosis 残差分布の正規性の検定
尖度
p >= 0.05 Assumptions acceptable. 正規性
^ ^ p < 0.05 Assumptions NOT satisfied! 非正規性
Link Function 目的変数の分布の検定
リンク関数の誤用
p >= 0.05 Assumptions acceptable. 正規性
^ ^ p < 0.05 Assumptions NOT satisfied! 非正規性
リンク関数の誤用→説明変数の取捨選択を誤っている可能性を示唆する。
Heteroscedasticity 残差分布の等分散性の検定:不均一分散 p >= 0.05 Assumptions acceptable. 分散が均一である。
^ ^ p < 0.05 Assumptions NOT satisfied! 分散が一定ではない。
残差の分散が不均一である。
説明変数の特定範囲において、予測が良かったり、悪かったりする。

regression - Using and interpreting output from gvlma - Stack Overflow

R、Pythonの線形回帰、対応関係

~R > R lm value Python LinearRegression attribute, method
lm Residuals 残差のサマリー
summary($residuals)
^ Coefficients 回帰係数 $coefficients coef_
intercept_
^ Residual standard error      
^ R-squared 決定係数 summary()$r.squared score()
^ Adjusted R-squared 調整済み決定係数 summary()$adj.r.squared
^ F-statistic F値 summary()$fstatistic
^ p-value P値
^ 実行時の呼び出し $call  
predict.lm 予測値   predict()