特定テーマに限定したWikiを立ち上げる必要もなく、ブログの様に私見をまとめる必要もない、
- 講義の予習ノート
- 読書ノート
- メモ
などの雑記帳Wikiから移行した投稿。
統計クラスの予習ノート。
用語
binarization | 二値化 |
coefficient | 係数 |
confirmatory | 確認の |
covariance | 共分散 |
descriptive | 記述的な |
descriptive statistics | 記述統計学 |
explanatory | 説明的な |
hypo test | hypothesis test仮設検定 |
interquartile range | 四分位範囲 |
kurtosis | 尖度 |
observation | 観察 |
percentile | 百分位数 |
quantile | 分位数 |
skew | 歪度 |
データの種類
🔎分類
~分類1 | 分類2 | 特徴 | 例 | 分布の中心 | グラフ | 分布のばらつき |
Quantitative data量的データ | 間隔尺度interval data | 値の間隔に意味がある | 気温、体温 | mean平均 | ヒストグラム | 標準偏差 |
^ | 比尺度ratio | 比率に意味がある0が起点となる | 経過時間、速度、身長 | ^ | ^ | ^ |
Qualitative data質的データ | 名義データnominal data | 区別することに意味がある | ID、性別 | mode最頻値 | 棒グラフ円グラフ | 二項分布~多項分布 |
^ | 順序データordinal data | 順序に意味がある | よい/どちらでもない/わるい | median中央値 | 棒グラフヒストグラム | 四分位範囲 |
温度は間隔尺度である。温度にとって10度、15度の間隔(5度)に意味はあるが、その比率(50%)に意味はない。
🔎データ
数値データnumerical data | 時系列データtime-series data | 特定期間のデータGNP、失業率、株価推移 |
^ | 横断的データcross-sectional data | 特定時点のデータ人口調査、消費者調査、世論調査 |
^ | 統合データpooled data | 時系列データと横断的データの組み合わせ10か国、20年間の失業率推移 |
データの要約
分布 | 度数分布 | バー・チャートヒストグラム |
^ | 正規性 | 時系列グラフ、Q-Qプロット |
二変数 | 積み重ねバー・チャート散布図 | |
^ | 分散バラツキ | 箱ひげ図 |
平均 | 最頻値中央値平均値 | |
分散バラツキ | 偏差分散標準偏差 | |
品質改善 | パレート図mean chartrange chartS chartcontrol chart |
標本分散と標準偏差
正規分布と歪度、尖度
歪度 > 0 | 分布は左に偏る。 | 分布の先端が最頻値、その右に中央値、さらに右に平均値。 | 圧倒的多数は給料が少なく(左に偏った分布)、少数(右の裾野)の給料は多い。 |
歪度 = 0 | 正規分布 | 分布の中心が最頻値、中央値、平均値。 | 平均的な給与額が多数派、給料の少ない者、多い者が少数派として存在する。 |
歪度 < 0 | 分布は右に偏る。 | 分布の先端が最頻値、その左に中央値、さらに左に平均値。 | 例:圧倒的多数は製品寿命が長く(右に偏った分布)、少数(左の裾野)の製品寿命は短い。 |
尖度 > 0 | 尖った分布 | 分布が平均に集中している。 |
尖度 = 0 | 正規分布 | |
尖度 < 0 | お椀上の分布 | 分布が散らばっている。 |
箱ひげ図
分散(バラツキ)を見るのに適している。
第1四分位 | 25th percentile |
第2四分位 | median50th percentile |
第3四分位 | 75th percentile |
四分位範囲 | 75th percentile - 25th percentile |
相関
共分散
2つの対応するデータ間の、偏差の積の平均。
2つの変数の関係を示す。
&fukidashi(espio999,right){偏差の積なので、単純に価の大小だけで関係の強度を決めることはできない。}