Technically Impossible

Lets look at the weak link in your statement. Anything "Technically Impossible" basically means we haven't figured out how yet.

PYR103 week 4, 5 ベイズ、ダミー、ロジスティック回帰

特定テーマに限定したWikiを立ち上げる必要もなく、ブログの様に私見をまとめる必要もない、

  • 講義の予習ノート
  • 読書ノート
  • メモ

などの雑記帳Wikiから移行した投稿。

統計クラスの予習ノート。

#contents

用語

AMPE
Average Marginal Probability Effect
平均限界効果
平均確率限界効果
autocorrelation 自己相関
coefficient of determination 決定係数
disturbance 偶然誤差
EMPE
Expected Marginal Probability Effect
期待限界効果
fitted value 説明変数の、回帰式から求めた値。
説明変数の、回帰直線上の値。
least square principle 最小二乗の原理
multiple correlation coefficient 相関係数
OLS
Ordinary Least Squares
最小二乗法
VIF
Variance Inflation Factor
分散拡大要因
分散拡大係数
homo- 同質の
hetero- 異質の

回帰

回帰:変数間の関係を関数で表すこと。
そして計算しやすさは最小二乗法のままで,2つめの仮定をもっと柔軟にできるようにしたのが「線形回帰」です。そこで,次回の後編ではこの「線形回帰」を紹介します。

  • 多変量解析
    • 予測
    • 因果関係
    • 仮説検定
    • 外れ値の特定
単回帰 2変数(目的変数、説明変数)で表現する。
重回帰 3変数以上で表現する。
線形回帰 直線で表現する。
被線形回帰 曲線で表現する。
最小二乗法 回帰方程式を導出する。
回帰係数 回帰方程式の残差を最小にする係数。

回帰方程式の残差を最小にする。→回帰方程式の各係数の偏微分=0

最小二乗法による推定における暗黙の仮定

~仮定
変数間の関係を関数で表す。
関数のモデルは直線(1次式)を考える。 変数の値は有限である。
モデルを線形結合(一次結合)で表す。
線形結合(一次結合):ベクトルの定数倍、組合わせ。
パラメータを選ぶ基準として二乗誤差を用いる。 変数の値を誤差を伴う。
誤差の分散を最小化する。→最小二乗法

仮定の妥当性は、与えられたデータだけでは判断できない。

  • 回帰式
    • 説明変数の重要性(影響力)=回帰係数の大小
    • 観測値の平均=予測値の平均
    • 観測値の分散=予測値の分散+残差の分散
    • 回帰直線は(説明変数の平均, 目的変数の平均)を通る。→(説明変数の平均, 目的変数の平均)が回帰直線の重心。
    • 残差の平均は0。
  • 決定係数

回帰モデルの当てはまりの良さを判定する。

R 相関係数
R^2 決定係数 0 <= R^2 <= 1

決定係数はR^2。Rではない。

R^2=説明変数の分散/目的変数の分散=説明変数の分散/(説明変数の分散+残差の分散)

目的変数=予測値
説明変数=観測値
決定係数は予測値の分散と、観測値の分散の比率。→説明変数によって、目的変数をどれだけ説明できるのか、を表す。

27-4. 決定係数と重相関係数 | 統計学の時間 | 統計WEB

仮説検定

t検定 切片と回帰係数の検定
f検定 決定係数の検定

切片と回帰係数の検定
真の係数が0のとき、目的変数と説明変数は無関係である。

両側検定 H0 真の回帰係数=0
全ての係数=0
^ H1 not H0
少なくとも一つの係数は0ではない。
片側検定 H0 真の回帰係数=0
^ H1 回帰係数>真の回帰係数
p > α H0が採用され、H1が棄却される。
p <= α H0が棄却され、H1が支持される。

決定係数の検定(model utility test)
真の係数が0のとき、従属変数(目的変数)と独立変数(説明変数)は無関係である。

H0 すべての回帰係数=0
すべての説明変数に説明力がない。
説明変数は目的変数に影響を与えていない。
H1 not H0
少なくとも一つの回帰係数≠0
少なくとも一つの説明変数が説明力を持つ。
少なくとも一つの説明変数は目的変数に影響を与えている。
p > α H0が採用され、H1が棄却される。
p <= α H0が棄却され、H1が支持される。

回帰分析モデルの前提

標本の独立性 標本は互いに独立である。 残差プロットを用いる。
分散の均一性 等分散性
残差の分散、目的変数の分散が一定である。
残差プロットを用いる。
誤差の正規性 残差は正規分布する。
残差のQQプロットを用いる。
残差が直線状に並ぶかを確認する。
モデルの線形性 目的変数と説明変数の関係は直線で近似できる。
目的変数と説明変数間の散布図を用いる。
多重共線性 説明変数間の散布図を用いる。

VIF (Variance Inflation Factor)

多重共線性が生じているかの判断指標
VIF > 10で多重共線性の可能性を疑う。


VIF = \frac{1}{1 - R^{2}}

TEX

VIF = \frac{1}{1 - R^{2}}


許容度=分散拡大係数の逆数(VIF^-1)

ちなみにVIF=5の場合は、 r2=0.8 つまりr≒±0.89で、 相関係数はだいたい0.9くらい。
VIF = 3の場合は、 r2≒0.67 つまり r≒±0.82で、 相関係数はだいたい0.8くらい。
閾値(しきいち)候補として、 3, 5, 10の相関係数のイメージをもっておけばいいのではないか。

多重共線性をチェックするVIFを計算するには? - 統計ER

クックの距離

テコ比 測定値が、モデル(のパラメータ、ひいては予測値)に与えている影響の大きさを表す数値
クックの距離 一般線形モデルにおいて各測定値がモデル推定に与える影響の大きさを表す数値。

テコ比

  • 他のデータと比べて異常な予測値を持つ観測値を識別する。
  • 観測値xから、全禅観測値の平均までの距離。
  • テコ比の大きな観測値は、有意な係数が有意に見せない原因になることがある。


h_{ii} = \frac{1}{n} + \frac{ (x_{i}-\overline{x})^2 }{ \sum_{i}^{n} (x_{i}-\overline{x})^2 }

TEX

h_{ii} = \frac{1}{n} + \frac{ (x_{i}-\overline{x})^2 }{ \sum_{i}^{n} (x_{i}-\overline{x})^2 }

クックの距離

  • 他のデータと比べて異常な予測値を持つ観測値や、モデルがあまり適合できない観測値を識別する。
  • i番目の観測値を使用して計算された係数と、観測値を使用しないで計算された係数との間の距離に対する測度。
  • F分布の中央値であるF(0.5, p, n - p)よりもD値が大きい場合の観測値を調べる。
  • クックの距離が大きな測定値=外れ後の可能性が大きな測定値
h テコ比
k 回帰モデルの工数(定数項を含む) × 平均二乗誤差(誤差の平均平方)
r 標準化された残差


D_{i}=\frac{e_{i}^{2}}{ps^{2}} \frac{h_{i}}{(1 - h_{i})^2}

TEX

D_{i}=\frac{e_{i}^{2}}{ps^{2}} \frac{h_{i}}{(1 - h_{i})^2}

異常な観測値

p 定数項を含む、モデルの工数
n 観測値の数。
h テコ比
D クックの距離
h > 3p/n
h > 0.99
D > 0.5 影響力有
D > 1 特異に大きい

横軸は梃子値で、縦軸は標準化した残差。点線でクックの距離0.5を示している。

回帰分析と分散分析に外れ値を特定する方法 - Minitab
回帰モデルの適合の診断測度の方法と計算式 - Minitab
Rで線形単回帰分析 - matsuou1の日記

ベイズ線形回帰

ベイズの定理>PYR102 week 3

線形回帰 二乗誤差を最小にする係数を求める。
ベイジアン 尤度を最大にする係数を求める。
最高確率の係数を求める。

ベイジアンは線形回帰を、確率の問題に読みかえている。

ベイズ推定

手順

Y 目的変数
X 説明変数
Y = a + bX + N(0, σ) 回帰直線
Ynew 予測値
予測値の平均 a + bXnew
予測値の分散 σ


p(a, b, \sigma | Y, X)\\
Y=a+bX+N(0, \sigma)\\
p(a, b, \sigma | Y, X) = \frac{p(Y, X | a, b, \sigma) p(a, b, \sigma)}{p(Y, X)}\\

p(Y_{new} | a, b, \sigma) = Y_{new}\sim N(a + bX_{new}, \sigma)

TEX

p(a, b, \sigma | Y, X)\\
Y=a+bX+N(0, \sigma)\\
p(a, b, \sigma | Y, X) = \frac{p(Y, X | a, b, \sigma) p(a, b, \sigma)}{p(Y, X)}\\

p(Y_{new} | a, b, \sigma) = Y_{new}\sim N(a + bX_{new}, \sigma)


  • 既知の目的変数、説明変数から、回帰直線パラメータの確率分布を求める。

p(Y, X)を定数とすると、p(a, b, σ | Y, X)はp(a, b, σ)に比例する。
p(Y, X | a, b, σ)は尤度関数。
確率の総乗(掛け算)を総和(足し算)に変換するため、両辺を対数化することがある。→対数尤度関数

p(a, b, \sigma | Y, X) = \frac{p(Y, X | a, b, \sigma) p(a, b, \sigma)}{p(Y, X)}\\
p(a, b, \sigma | Y, X) \propto p(Y, X | a, b, \sigma) p(a, b, \sigma)\\
\mu_n = a + bX_n\\
Yn \propto N(\mu_n, \sigma)\\
p(Y, X | a, b, \sigma) = \Pi_{n=1}^N N(\mu_n, \sigma)\\
p(a, b, \sigma | Y, X) \propto \Pi_{n=1}^N N(\mu_n, \sigma) \times p(a, b, \sigma)

TEX

p(a, b, \sigma | Y, X) = \frac{p(Y, X | a, b, \sigma) p(a, b, \sigma)}{p(Y, X)}\\
p(a, b, \sigma | Y, X) \propto p(Y, X | a, b, \sigma) p(a, b, \sigma)\\
\mu_n = a + bX_n\\
Yn \propto N(\mu_n, \sigma)\\
p(Y, X | a, b, \sigma) = \Pi_{n=1}^N N(\mu_n, \sigma)\\
p(a, b, \sigma | Y, X) \propto \Pi_{n=1}^N N(\mu_n, \sigma) \times p(a, b, \sigma)


  • 予測値を、正規分布に従う確率分布として求める。

求めたパラメータに基づいて、予測値を求める。

σ ノイズの精度
真の値からずれても良い範囲を表す。
μnew 回帰直線の予測値


\mu_{new} = a + bX_{new}\\
Y_{new} \sim N(\mu_{new}, \sigma)

TEX

\mu_{new} = a + bX_{new}\\
Y_{new} \sim N(\mu_{new}, \sigma)

ベイズ推定で単回帰分析~概略から実践まで~ - 医療職からデータサイエンティストへ

ダミー回帰

ダミー変数

PYR102 week 9, 10 - Technically Impossible
量的な意味のない、見せかけの変数。
数字ではないデータを、数字に変換する手法。
数字は0か1のみ。

二者択一の場合

0 はい 含まれる 合格 成功
1 いいえ 含まれない 不合格 失敗

男ダミー(1, 0)、女ダミー(1, 0)とはしない。
両ダミー間に多重共線性が生じる。

複数から選択する場合

~ 月曜日ダミー 火曜日ダミー 水曜日ダミー 木曜日ダミー 金曜日ダミー 土曜日ダミー 日曜日ダミー
0 月曜日 火曜日 水曜日 木曜日 金曜日 土曜日 日曜日
1 月曜日以外 火曜日以外 水曜日以外 木曜日以外 金曜日以外 土曜日以外 日曜日以外

ダミーは全て用いない。
必要なダミー数=カテゴリー数-1

~ dummy A dummy B dummy C
0 not A not B not C
1 A B C

dummy A = 0、dummy B = 0のときCと解釈すれば、dummy Cは不要。

目的変数がダミー変数の場合
線形確率モデル 線形回帰モデル LPM
Linear Probability Model
説明変数の線形関数によって、目的変数の期待値が決まると仮定。
非線形確率モデル ロジット・モデル ロジスティック分布を用いたモデル。
^ プロビット・モデル 標準正規分布を用いたモデル。

ダミー変数を用いる回帰

回帰式 y = α + βx + ε
ダミー変数 D
ダミー変数値の違い グループの違い
ダミー変数=0のグループ 基準グループ
reference group

グループによる、回帰式の切片の差

回帰式 y = α + γD + βx + ε
D = 0 y = α + βx + ε
D = 1 y = α + γD + βx + ε

グループによる、回帰式の傾きの差

回帰式 y = α + γDx + βx + ε
D = 0 y = α + βx + ε
D = 1 y = α + (γD + β)x + ε

グループ間による、切片、傾きが異なる回帰式

回帰式 y = α + γD + βx + δDx + ε
y = (α + γD) + (β + δD)x + ε
D = 0 y = α + βx + ε
D = 1 y = (α + γ) + (β + δ)x + ε
交互作用項 δDx

交互作用項は、xの効果がDによって変化することを示している。→交互作用効果
交互作用項はx、Dによる変数であり、お互いの相関が高くなる。→多重共線性の可能性
交互作用項を含む重回帰分析を行う場合、事前に交互作用項の中心化を実施する必要がある。

中心化:変数の平均値を0にする変換
中心化により、主効果項と交互作用項の相関による多重共線性を回避することができる。
中心化は多重共線性を回避する手段ではないことに注意。

ロジスティック回帰

20190920 ロジスティック回帰 - Technically Impossible

  • プロビット回帰の簡易版
  • 二項変数のロジットを予測するモデル

ロジスティック関数=シグモイド関数
仮定:シグモイド関数の出力を確率と見なす。

プロビット probit
Probability Unit
ロジット logit
Logistic Unit
Log of Odds

シグモイド関数

\sigma(t)=\frac{1}{1 + \exp(-t)}

TEX

\sigma(t)=\frac{1}{1 + \exp(-t)}


一般線形モデル ordinary linear model 目的変数と説明変数の間に線形関係があることを仮定する。
目的変数が量的データである。
目的変数は正規分布する。
一般化線形モデル GLM
Generalized Linear Model
目的変数を適切な関数に置換し、説明変数との関係を推計する。
目的変数が質的データであっても分析できるよう、一般線形モデルを拡張した。
目的変数の分布を予測する。

一般化線形モデル

目的変数が2値 二項ロジスティック分析
目的変数が2値以上 他項ロジスティック分析
目的変数が順序変数 順序ロジスティック分析

オッズ

ある事象の発生確率 p 0 < p < 1
範囲が限られているため、回帰分析できない。
ある事象が発生しない確率 1 - p
オッズ 発生しない確率に対する、発生確率の比率。 0 < ODDs < ∞
負の数がないため回帰分析できない。
ロジット オッズの対数。
ロジスティック関数の逆数。
-∞ < Logit < ∞
どんな数でも取れるため、回帰分析できる。
オッズ比 2つのオッズの比率。
2つのロジットの差。
exp(係数)
変数の値の変化量に対する、オッズの変化量。→変数の値が1増えると、オッズは何倍になるか?
ロジスティック曲線では、オッズ比は一定である。


ODDs = \frac{p}{1-p}\\
Logit = \log(\frac{p}{1-p})=\log(p) - \log(1 - p)

TEX

ODDs = \frac{p}{1-p}\\
Logit = \log(\frac{p}{1-p})=\log(p) - \log(1 - p)


ロジット
オッズ 0から∞の値を取る。 確率は0から1の値を取る。
オッズ=∞ 発生する。 発生確率=1 Logit = ∞
オッズ>1 発生確率が大きい。 オッズが大きいほど、発生確率は1に近づく。 Logit > 0
オッズ=1 発生する、しない確率が等しい。 発生確率=0.5 Logit = 0
オッズ<1 発生しない確率が大きい。 オッズが小さいほど、発生確率は0に近づく。 Logit < 0
オッズ=0 発生しない。 発生確率=0 Logit = -∞

平均限界効果(平均限界確率効果)

限界効果 ロジスティック曲線の接線の傾き。
平均限界効果 限界効果の平均。

ロジスティック曲線上の接線は、点によって傾きが異なる。→平均して単一指標にする。

期待限界効果
変数の期待値で評価する。

統計分析を理解しよう-ロジスティック回帰分析の概要- |ニッセイ基礎研究所
ロボティクスにおける対数オッズについて - MyEnigma
ロジット・プロビットの限界効果とRでの計算 - データ分析メモと北欧生活



Python

sklearn.linear_model.LogisticRegression — scikit-learn 0.24.0 documentation
1.1. Linear Models — scikit-learn 0.24.0 documentation

パラメータ

fit_intercept Falseの場合、切片を求めない。
目的変数が原点を通る性質のデータの場合に利用する。
max_iter 最適解探索の際の最大探索回数。
multi_class 二項分類か他項分類かの選択。
random_state データのシャッフルに使用される疑似乱数生成のシード値。
solverにsag、liblinearが選択されたときに参照される。
solver 最適解の探索方法。
multi_class auto データが2値の場合、ovr。
solverにliblinearが選択された場合、multinominal
^ multinomial 他項分類
^ ovr 二項分類

アトリビュート

coef_ 回帰式の係数
intercept_ 回帰式の切片

メソッド

fit() 学習
predict() 予測
predict_log_proba() 確率評価の対数
predict_proba() 確率評価
score() 決定係数R^2
平均精度

Scikit-learnによるロジスティック回帰