数理科学続論J
(Press ?
for help, n
and p
for next and previous slide)
村田 昇
2019.12.13
2つの個体 \(i,i'\) の 近さ=損失 を距離の二乗で評価
損失関数 \(W(C)\): クラスター内の平均の近さを評価
クラスター \(l\) に属する個体の平均:
損失関数 \(W(C)\) の等価な表現:
基本的な考え方: Lloyd-Forgyのアルゴリズム
(標本平均と変動の平方和の性質を利用)
各データの所属クラスター番号 \(C(i)\) を求める
各クラスター中心 \(\boldsymbol{\mu}_l\;(l=1,2,\dotsc,k)\) を更新する
(\(n_l\) は \(C(i)=l\) となるデータの総数)
kmeans( )
centers
で指定algorithm
で最適化アルゴリズムを指定 nstart
で初期値の候補の数を指定データ \(\boldsymbol{x}_i\) と最初に統合されたクラスター \(C\) の距離:
最後に統合された2つのクラスター \(C',C''\) の距離:
凝集係数 \(AC\):
シルエット係数 \(S_i\):