Technically Impossible

Lets look at the weak link in your statement. Anything "Technically Impossible" basically means we haven't figured out how yet.

PYR102 week 2

特定テーマに限定したWikiを立ち上げる必要もなく、ブログの様に私見をまとめる必要もない、

  • 講義の予習ノート
  • 読書ノート
  • メモ

などの雑記帳Wikiから移行した投稿。

統計クラスの予習ノート。

用語

binarization 二値化
coefficient 係数
confirmatory 確認の
covariance 共分散
descriptive 記述的な
descriptive statistics 記述統計学
explanatory 説明的な
hypo test hypothesis test
仮設検定
interquartile range 四分位範囲
kurtosis 尖度
observation 観察
percentile 百分位数
quantile 分位数
skew 歪度

データの種類

f:id:espio999:20210123181918p:plain

分類

~分類1 分類2 特徴 分布の中心 グラフ 分布のばらつき
Quantitative data
量的データ
間隔尺度
interval data
値の間隔に意味がある 気温、体温 mean
平均
ヒストグラム 標準偏差
^ 比尺度
ratio
比率に意味がある
0が起点となる
経過時間、速度、身長 ^ ^ ^
Qualitative data
質的データ
名義データ
nominal data
区別することに意味がある ID、性別 mode
最頻値
棒グラフ
円グラフ
二項分布~多項分布
^ 順序データ
ordinal data
順序に意味がある よい/どちらでもない/わるい median
中央値
棒グラフ
ヒストグラム
四分位範囲

温度は間隔尺度である。温度にとって10度、15度の間隔(5度)に意味はあるが、その比率(50%)に意味はない。

f:id:espio999:20210123181949p:plain

データ

数値データ
numerical data
時系列データ
time-series data
特定期間のデータ
GNP、失業率、株価推移
^ 横断的データ
cross-sectional data
特定時点のデータ
人口調査、消費者調査、世論調査
^ 統合データ
pooled data
時系列データと横断的データの組み合わせ
10か国、20年間の失業率推移


データの要約

分布 度数分布 バー・チャート
ヒストグラム
^ 正規性 時系列グラフ、Q-Qプロット
二変数 積み重ねバー・チャート
散布図
^ 分散
バラツキ
箱ひげ図
平均 最頻値
中央値
平均値
分散
バラツキ
偏差
分散
標準偏差
品質改善 パレート図
mean chart
range chart
S chart
control chart

標本分散と標準偏差

標準偏差

0.3413
0.4772
0.4987
±1σ 0.6826 68.26%
±2σ 0.9544 95.44%
±3σ 0.9974 99.74%
±1σ - ±2σ 0.2718 27.18%
±1σ - ±2σ - ±3σ 0.0430 4.30%
標準偏差が小さい 平均値周辺に集中している分布
標準偏差が大きい 平均値から離れて分布している

標準化=平均値を0、標準偏差を1として変換する。

正規分布と歪度、尖度

歪度 > 0 分布は左に偏る。 分布の先端が最頻値、その右に中央値、さらに右に平均値。 圧倒的多数は給料が少なく(左に偏った分布)、少数(右の裾野)の給料は多い。
歪度 = 0 正規分布 分布の中心が最頻値、中央値、平均値。 平均的な給与額が多数派、給料の少ない者、多い者が少数派として存在する。
歪度 < 0 分布は右に偏る。 分布の先端が最頻値、その左に中央値、さらに左に平均値。 例:圧倒的多数は製品寿命が長く(右に偏った分布)、少数(左の裾野)の製品寿命は短い。
尖度 > 0 尖った分布 分布が平均に集中している。
尖度 = 0 正規分布
尖度 < 0 お椀上の分布 分布が散らばっている。

モーメント(積率)

分布の特徴を表す。

1次のモーメント 平均 分布の値
2次のモーメント 分散 分布の広がり、散らばり
3次のモーメント 対称性、歪度 正規分布と比較した、分布の偏り
4次のモーメント 尖度 正規分布と比較した、平均の集中

箱ひげ図

分散(バラツキ)を見るのに適している。

第1四分位 25th percentile
第2四分位 median
50th percentile
第3四分位 75th percentile
四分位範囲 75th percentile - 25th percentile

相関

共分散

2つの対応するデータ間の、偏差の積の平均。
2つの変数の関係を示す。
&fukidashi(espio999,right){偏差の積なので、単純に価の大小だけで関係の強度を決めることはできない。}

相関係数

共分散同士を直接比較することはできないため、相関係数を用いて比較する。
2変数の共分散を、それぞれの偏差の積で割ることで求める。
相関係数は-1から1の間の値を取る。両端に値に近いほど、強い関係性を示す。

~相関係数 強さ
-1~-0.7 強い負の相関
-0.7~-0.4 かなりの負の相関
-0.4~-0.2 やや負の相関
-0.2~0.2 ほとんど相関無し
0.2~0.4 やや正の相関
0.4~0.7 かなりの正の相関
0.7~1 強い正の相関