PYR102 week 9, 10 回帰分析 - Technically Impossible

特定テーマに限定したWikiを立ち上げる必要もなく、ブログの様に私見をまとめる必要もない、

講義の予習ノート
読書ノート
メモ

などの雑記帳Wikiから移行した投稿。

統計クラスの予習ノート。

用語
回帰

用語

cross validation	交差検証
determination coefficient	決定係数
directional test	方向性検定片側検定、あるいは両側検定。
global test	包括検定
hetero-	異なる～
heterogeneity	不均一
heteroscedasticity	不均一分散
least Squares principle	最小二乗法の原理
LOOCV	Leave-One_out Cross Validation 一個抜き交差検証
multicollinearity	多重共線性
multivariate analysis	多変量解析
multiple correlation coefficient	重相関係数
OLS	Ordinary Least Squares regression 最小二乗回帰
regression coefficient	回帰係数
regression diagnostic	回帰診断
residual	残差残差＝観測値―予測値

傾き	slope tilt
証明する	give proof obtain proof prove

回帰

単回帰分析	一つの従属変数（目的変数）を、一つの独立変数（説明変数）で予測する。
重回帰分析	一つの従属変数（目的変数）を、複数の独立変数（説明変数）で予測する。どの説明変数が、目的変数にどの程度の影響を与えているかを知ることができる。

linear regression	線形回帰
multiple regression	重回帰
dummy regression dummy variable regression	ダミー変数を用いる分析

$y = a + bx_{1} + cx_{2} + dx_{3}$

y	objective variable	目的変数	予測したい変数物事の結果と解釈できる。
^	dependent variable	従属変数	^
x	explanatory variable	説明変数	目的変数を説明する変数物事の原因と解釈できる。
^	independent variable	独立変数	^
a	intercept	切片
b c d	regression coefficient	回帰係数偏回帰係数

最小二乗法の原理

誤差を伴う測定値の処理において、誤差の二乗の和を最小にすることで、最も確からしい関係式を求める。
データの組 (x, y) が多数与えられたとき、xとyの関係を表すもっともらしい関数y = f(x)を求める。

最小二乗法（直線）の簡単な説明 | 高校数学の美しい物語
 最小二乗法の意味と計算方法 - 回帰直線の求め方

決定係数

モデルの当てはまりの良さを表す指標。
目的変数（従属変数）の変動のうち、回帰によって説明された変動の割合。
目的変数Yが説明変数Xによってどれだけ説明できているか、ということ。

ESS	説明変数の平方和	予測値から観測値までの距離	回帰モデルでは説明できない範囲
RSS	残差の平方和	平均値から予測値までの距離	回帰モデルで説明できる範囲
TSS	全体の平方和	平均値から観測値までの距離	説明変数の個体差
R^2	決定係数
R	重相関係数

$TSS = ESS + RSS \\ R^{2} = \frac{ESS}{TSS} = \frac{ESS}{ESS + RSS} = 1 - \frac{RSS}{TSS}$

🔎TEX

TSS = ESS + RSS \\
R^{2} = \frac{ESS}{TSS} = \frac{ESS}{ESS + RSS} = 1 - \frac{RSS}{TSS}

ESS / TSS	回帰モデルでは説明できない範囲 / 回帰モデル全体
1 - RSS / TSS	1 - (回帰モデルで説明できる範囲 / 回帰モデル全体

$0≦R^{2}≦1$
R^2が1に近いほど、回帰モデルは有効である。
回帰モデル全体の内、回帰モデルで説明できる範囲が多くを占めている。
R^2 = 1のとき、RSS = 0。RSS = 0とは、残差が0の状態であり、それは全ての観測値が直線状に並ぶことを意味する。

説明変数の個数が増加すると、決定係数も増加する。→説明変数の個数が増加するほど、決定係数は1に近づく。
説明変数の個数の増加を修正する必要がある。

k	説明変数の個数
n	観測値の個数
R^2	決定係数
R^2`	自由度修正済み決定係数

$\begin{align} R^{2`} &= 1 - (1 - R^{2}) \frac{n - 1}{n - k - 1} \\ &= 1 - \frac{ \frac{ RSS }{ n - (k + 1) } }{ \frac{ TSS }{ n - 1 } } \\ &= 1 - \frac{ RSS }{ n - (k + 1) } \frac{ n - 1 }{ TSS } \end{align}$

🔎TEX

\begin{align}
R^{2`} &= 1 - (1 - R^{2}) \frac{n - 1}{n - k - 1} \\
&= 1 - \frac{ \frac{ RSS }{ n - (k + 1) } }{ \frac{ TSS }{ n - 1 } } \\
&= 1 - \frac{ RSS }{ n - (k + 1) }  \frac{ n - 1 }{ TSS }
\end{align}

仮説検定

2つの検定

個々の係数に関する仮説検定切片と回帰係数の検定	t検定を用いる。
複合仮説決定係数の検定。 model utility test	f検定（分散分析）を用いる。

切片と回帰係数に関する検定

切片も回帰係数も確率変数である。
真の係数が0のとき、従属変数（目的変数）と独立変数（説明変数）は無関係である。
切片と回帰係数に関する検定を実施する。

両側検定	H0	真の回帰係数＝0 真の回帰係数＝回帰係数＝0
^	H1	not H0
片側検定	H0	真の回帰係数＝0 真の回帰係数＝回帰係数＝0
^	H1	回帰係数＞真の回帰係数

p > α	H0が採用され、H1が棄却される。
p <= α	H0が棄却され、H1が支持される。

決定係数の検定（model utility test）

決定係数も確率変数である。
真の係数が0のとき、従属変数（目的変数）と独立変数（説明変数）は無関係である。
決定係数に関する検定を実施する。

H0	すべての回帰係数＝0 すべての説明変数に説明力がない。説明変数は目的変数に影響を与えていない。
H1	not H0 少なくとも一つの回帰係数≠0 少なくとも一つの説明変数が説明力を持つ。少なくとも一つの説明変数は目的変数に影響を与えている。

p > α	H0が採用され、H1が棄却される。
p <= α	H0が棄却され、H1が支持される。

多重共線性

説明変数間で相関係数が高い時に発生する現象。

一次従属	説明変数間の線形関係
共線性	一次従属が認められること
多重共線性	複数の共線性が認められること

完全な多重共線性が存在する場合、偏回帰係数を求めることができない。

複数の説明変数が比例関係にある→それらの変数が本質的に同じ情報を持ち、冗長である。

症状

分析結果における係数の標準誤差が大きくなる。
t値が小さくなる。
決定係数が大きくなる。
回帰係数の正負が本来のものと逆転する。

多重共線性が起こりやすい状況

説明変数間の相関係数が±1に近い組み合わせが含まれる。
説明変数の個数がサンプル数に比べて大きい。

対応方針	相関関係が高いと考えられる説明変数を外す。
対応方法	関係する説明変数を一つずつ除外し、分析を繰り返す。
除外の基準	主観分析結果を比較し、t値の高い方を残す。

https://xica.net/vno4ul5p/
多重共線性 | 統計用語集 | 統計WEB
EBPT用語集 - 日本理学療法士学会

回帰診断

回帰分析の仮定を検証する。
回帰分析の後に実施する、事後診断である。
たとえ回帰モデルの決定係数が1に近くとも、回帰分析の仮定が満たされないことがある。

次の仮定を検証する。

多重共線性		説明変数間の散布図を用いる。
線形性	目的変数と説明変数の関係は直線で近似できる。	目的変数と説明変数間の散布図を用いる。
独立性	標本は互いに独立である。	残差プロットを用いる。
等分散性	誤差項の分散、目的変数の分散はσ^2で一定である。	残差プロットを用いる。
正規性	誤差項はN(0, σ^2)の正規分布に従う。	残差のQQプロットを用いる。残差が直線状に並ぶかを確認する。

残差プロット：縦軸に残差、横軸に目的変数を用いる。

ダミー変数

量的な意味のない、見せかけの変数。
数字ではないデータを、数字に変換する手法。
数字は0か1のみ。

二者択一の場合

0	はい	男	含まれる	合格	成功
1	いいえ	女	含まれない	不合格	失敗

男ダミー(1, 0)、女ダミー(1, 0)とはしない。
両ダミー間に多重共線性が生じる。

複数から選択する場合

~	月曜日ダミー	火曜日ダミー	水曜日ダミー	木曜日ダミー	金曜日ダミー	土曜日ダミー	日曜日ダミー
0	月曜日	火曜日	水曜日	木曜日	金曜日	土曜日	日曜日
1	月曜日以外	火曜日以外	水曜日以外	木曜日以外	金曜日以外	土曜日以外	日曜日以外

ダミーは全て用いない。
必要なダミー数＝カテゴリー数－1
例

~	dummy A	dummy B	dummy C
0	not A	not B	not C
1	A	B	C

dummy A = 0、dummy B = 0のときCと解釈すれば、dummy Cは不要。

目的変数がダミー変数の場合

線形確率モデル	線形回帰モデル	LPM Linear Probability Model 説明変数の線形関数によって、目的変数の期待値が決まると仮定。
非線形確率モデル	ロジット・モデル	ロジスティック分布を用いたモデル。
^	プロビット・モデル	標準正規分布を用いたモデル。

統計分析を理解しよう-ロジスティック回帰分析の概要- |ニッセイ基礎研究所

R

lm function - RDocumentation	線形モデルの近似
predict.lm function - RDocumentation	モデル予測
scale function - RDocumentation	データの正規化
standardize function - RDocumentation	データの正規化 library(robustHD)
gvlma package - RDocumentation	Global Validation of Linear Models Assumptions 回帰診断

データの正規化

センタリング	データの平均を0にする。
スケーリング	データの分散を1にする。

R scale関数でデータフレームを正規化 - Qiita

GVLMA (Global Validation of Linear Models Assumptions)

Global Validation of Linear Model Assumptions - PMC
GVLMAの紹介－Rでの残差を用いた線形モデルの包括的検査 - Technically Impossible

線形モデルの残差に注目し、その分布を検証する。
交差検証を実施する。→パッケージ中でdeletionと呼ばれるもので、leave-one-out（一個抜き交差検証）を実施する。

leave-one-out cross-validation (LOOCV，一個抜き交差検証) は、標本群から1つの事例だけを抜き出してテスト事例とし、残りを訓練事例とする。これを全事例が一回ずつテスト事例となるよう検証を繰り返す。これはK-分割交差検証の K を標本サイズにした場合と同じである。

交差検証 - Wikipedia

gvlma	GVLMAオブジェクトの生成
deletion.gvlma	一個抜き交差検証を実行する。外れ値を抽出する。 gvlmaDelオブジェクトを返す。 gvlmaDelオブジェクト＝一個抜き交差検証実行後のgvlmaオブジェクト

summary.gvlmaの読み方

                     Value p-value                   Decision
Global Stat        9.08857 0.05892    Assumptions acceptable.
Skewness           2.31988 0.12773    Assumptions acceptable.
Kurtosis           0.05758 0.81036    Assumptions acceptable.
Link Function      2.81911 0.09315    Assumptions acceptable.
Heteroscedasticity 3.89200 0.04852 Assumptions NOT satisfied!

Global Stat	線形性の検定目的変数と説明変数が線形関係にあるか？	p >= 0.05	Assumptions acceptable.	線形関係
^	^	p < 0.05	Assumptions NOT satisfied!	非線形関係
Skewness	残差分布の正規性の検定歪度	p >= 0.05	Assumptions acceptable.	正規性
^	^	p < 0.05	Assumptions NOT satisfied!	非正規性
Kurtosis	残差分布の正規性の検定尖度	p >= 0.05	Assumptions acceptable.	正規性
^	^	p < 0.05	Assumptions NOT satisfied!	非正規性
Link Function	目的変数の分布の検定リンク関数の誤用	p >= 0.05	Assumptions acceptable.	正規性
^	^	p < 0.05	Assumptions NOT satisfied!	非正規性リンク関数の誤用→説明変数の取捨選択を誤っている可能性を示唆する。
Heteroscedasticity	残差分布の等分散性の検定：不均一分散	p >= 0.05	Assumptions acceptable.	分散が均一である。
^	^	p < 0.05	Assumptions NOT satisfied!	分散が一定ではない。残差の分散が不均一である。説明変数の特定範囲において、予測が良かったり、悪かったりする。

regression - Using and interpreting output from gvlma - Stack Overflow

Python

sklearn.linear_model.LinearRegression — scikit-learn 1.2.2 documentation

線形回帰

R、Pythonの線形回帰、対応関係

~R	>		R lm value	Python LinearRegression attribute, method
lm	Residuals	残差のサマリー	summary($residuals)
^	Coefficients	回帰係数	$coefficients	coef_ intercept_
^	Residual standard error
^	R-squared	決定係数	summary()$r.squared	score()
^	Adjusted R-squared	調整済み決定係数	summary()$adj.r.squared
^	F-statistic	F値	summary()$fstatistic
^	p-value	P値
^		実行時の呼び出し	$call
predict.lm		予測値		predict()