特定テーマに限定したWikiを立ち上げる必要もなく、ブログの様に私見をまとめる必要もない、
- 講義の予習ノート
- 読書ノート
- メモ
などの雑記帳Wikiから移行した投稿。
【機械学習】クラスター分析|階層的クラスタリング、k-meansクラスタリング
クラスタ分析
クラスタ | 似ているもの同士の集合。 |
クラスタ分析 | 似ているデータ同士をグループ化する。 |
階層的クラスタリング
凝集型 | 似ているデータ同士を結び付けていく手法。 |
分割型 | 似ていないデータ同士を分離させていく手法。 |
似ている、似ていないの判断根拠→類似度の測定
類似度=ユークリッド距離=樹形図の足の長さ
データ同士を結び付けていくとクラスタが形成される。
🔎TEX
A:a=(a_1, a_2, ..., a_n)\\ B:b=(b_1, b_2, ..., b_n)\\ d(A, B) = \sqrt{(a_1-b_1)^2 + (a_2-b_2)^2 + ... (a_n - b_n)^2}
クラスター同士の距離
最短距離法 | 異なるクラスタの内、最も近いデータ同士の距離を、クラスタ間の距離とする。 |
最長距離法 | 異なるクラスタの内、最も遠いデータ同士の距離を、クラスタ間の距離とする。 |
群平均法 | 異なるクラスタの全データ同士の距離の平均を、クラスタ間の距離とする。 |
重心法 | 異なるクラスタの重心(データの平均)同士の距離を、クラスタ間の距離とする。 |
距離行列
データa, b, d, d, e間の距離行列。
~ | a | b | c | d | e |
!a | 0 | 8 | 3 | 7 | 10 |
!b | 8 | 0 | 6 | 5 | 12 |
!c | 3 | 6 | 0 | 11 | 2 |
!d | 7 | 5 | 11 | 0 | 9 |
!e | 10 | 12 | 2 | 9 | 0 |
c, e間の距離が最も近いので、(c、e)を単一クラスタとする。→最短距離法
クラスタ(c, e)と、他のデータとの最短距離を選択する。
~ | (c, e) | a | b | d |
!(c, e) | 0 | 3 | 6 | 9 |
!a | 3 | 0 | 8 | 7 |
!b | 6 | 8 | 0 | 5 |
!d | 9 | 7 | 5 | 0 |