Web Analytics

Technically Impossible

Lets look at the weak link in your statement. Anything "Technically Impossible" basically means we haven't figured out how yet.

20191113 クラスター分析

特定テーマに限定したWikiを立ち上げる必要もなく、ブログの様に私見をまとめる必要もない、

  • 講義の予習ノート
  • 読書ノート
  • メモ

などの雑記帳Wikiから移行した投稿。

YouTubeクラスター分析講義のノート。


【機械学習】クラスター分析|階層的クラスタリング、k-meansクラスタリング

クラスタ分析

クラスタ 似ているもの同士の集合。
クラスタ分析 似ているデータ同士をグループ化する。

階層的クラスタリング

凝集型 似ているデータ同士を結び付けていく手法。
分割型 似ていないデータ同士を分離させていく手法。

似ている、似ていないの判断根拠→類似度の測定
類似度=ユークリッド距離=樹形図の足の長さ
データ同士を結び付けていくとクラスタが形成される。

A:a=(a_1, a_2, ..., a_n)\\
B:b=(b_1, b_2, ..., b_n)\\
d(A, B) = \sqrt{(a_1-b_1)^2 + (a_2-b_2)^2 + ... (a_n - b_n)^2}

🔎TEX

A:a=(a_1, a_2, ..., a_n)\\
B:b=(b_1, b_2, ..., b_n)\\
d(A, B) = \sqrt{(a_1-b_1)^2 + (a_2-b_2)^2 + ... (a_n - b_n)^2}


クラスター同士の距離

最短距離法 異なるクラスタの内、最も近いデータ同士の距離を、クラスタ間の距離とする。
最長距離法 異なるクラスタの内、最も遠いデータ同士の距離を、クラスタ間の距離とする。
群平均法 異なるクラスタの全データ同士の距離の平均を、クラスタ間の距離とする。
重心法 異なるクラスタの重心(データの平均)同士の距離を、クラスタ間の距離とする。

距離行列
データa, b, d, d, e間の距離行列。

~ a b c d e
!a 0 8 3 7 10
!b 8 0 6 5 12
!c 3 6 0 11 2
!d 7 5 11 0 9
!e 10 12 2 9 0

c, e間の距離が最も近いので、(c、e)を単一クラスタとする。→最短距離法
クラスタ(c, e)と、他のデータとの最短距離を選択する。

~ (c, e) a b d
!(c, e) 0 3 6 9
!a 3 0 8 7
!b 6 8 0 5
!d 9 7 5 0

非階層的クラスタリング

k-means k平均法
  1. ランダムにkこのクラスタの重心を決める。
  2. 定めたクラスタの重心に基づいて、データを最も近い重心へ分ける。→データがk個のクラスタに分割される。
  3. クラスタの重心を求める。
  4. 新たな重心に基づいて、データを最も近い重心へ分ける。
  5. 分割できなくなるまで、処理を繰り返す。