基本的な考え方と階層的方法
(Press ?
for help, n
and p
for next and previous slide)
村田 昇
データ https://noboru-murata.github.io/multivariate-analysis/data/japan_social.csv
Pref : 都道府県名 Forest : 森林面積割合 (%) 2014年 Agri : 就業者1人当たり農業産出額(販売農家)(万円) 2014年 Ratio : 全国総人口に占める人口割合 (%) 2015年 Land : 土地生産性(耕地面積1ヘクタール当たり)(万円) 2014年 Goods : 商業年間商品販売額[卸売業+小売業](事業所当たり)(百万円) 2013年 Area : 地方区分
Pref | Forest | Agri | Ratio | Land | Goods | Area |
Hokkaido | 67.9 | 1150.6 | 4.23 | 96.8 | 283.3 | 1 |
Aomori | 63.8 | 444.7 | 1.03 | 186 | 183 | 2 |
Iwate | 74.9 | 334.3 | 1.01 | 155.2 | 179.4 | 2 |
Miyagi | 55.9 | 299.9 | 1.84 | 125.3 | 365.9 | 2 |
Akita | 70.5 | 268.7 | 0.81 | 98.5 | 153.3 | 2 |
Yamagata | 68.7 | 396.3 | 0.88 | 174.1 | 157.5 | 2 |
Fukushima | 67.9 | 236.4 | 1.51 | 127.1 | 184.5 | 2 |
Ibaraki | 31 | 479 | 2.3 | 249.1 | 204.9 | 3 |
Tochigi | 53.2 | 402.6 | 1.55 | 199.6 | 204.3 | 3 |
Gumma | 63.8 | 530.6 | 1.55 | 321.6 | 270 | 3 |
Saitama | 31.9 | 324.7 | 5.72 | 247 | 244.7 | 3 |
Chiba | 30.4 | 565.5 | 4.9 | 326.1 | 219.7 | 3 |
Tokyo | 34.8 | 268.5 | 10.63 | 404.7 | 1062.6 | 3 |
Kanagawa | 38.8 | 322.8 | 7.18 | 396.4 | 246.1 | 3 |
Niigata | 63.5 | 308.6 | 1.81 | 141.9 | 205.5 | 4 |
Figure 1: 散布図
Figure 2: 主成分得点による散布図
Figure 3: 散布図上のクラスタ構造 (クラスタ分析の概念図)
クラスタ分析 (cluster analysis) の目的
個体の間に隠れている 集まり=クラスタ を個体間の“距離”にもとづいて発見する方法
社会生活統計指標の一部(関東)
Figure 4: 凝集的クラスタリング
Figure 5: クラスタリングの手続き (その1)
Figure 6: クラスタリングの手続き (その2)
Figure 7: クラスタリングの手続き (その3)
Figure 8: クラスタリングの手続き (その4)
Figure 9: クラスタリングの手続き (その5)
Figure 10: クラスタリングの手続き (その6)
Figure 11: デンドログラムによるクラスタ構造の表示
データ : 変数の値を成分としてもつベクトル
\begin{equation} \boldsymbol{x}=(x_{1},\dotsc,x_{d})^{\mathsf{T}}, \boldsymbol{y}=(y_{1},\dotsc,y_{d})^{\mathsf{T}}\in\mathbb{R}^{d} \end{equation}
各成分の差の2乗和の平方根 (2ノルム)
\begin{equation} d(\boldsymbol{x},\boldsymbol{y}) =\sqrt{(x_{1}-y_{1})^{2}+\dotsb+(x_{d}-y_{d})^{2}} \end{equation}
格子状に引かれた路に沿って移動するときの距離
\begin{equation} d(\boldsymbol{x},\boldsymbol{y}) =|x_{1}-y_{1}|+\dotsb+|x_{d}-y_{d}| \end{equation}
各成分の差の \(p\) 乗和の \(p\) 乗根(\(p\)-ノルム)
\begin{equation} d(\boldsymbol{x},\boldsymbol{y}) =\bigl\{|x_{1}-y_{1}|^{p}+\dotsb+|x_{d}-y_{d}|^{p}\bigr\}^{1/p} \end{equation}
Minkowski 距離において \(p\to\infty\) とするとどのような距離となるか答えなさい
\begin{equation} d(\boldsymbol{x},\boldsymbol{y}) =\bigl\{|x_{1}-y_{1}|^{p}+\dotsb+|x_{d}-y_{d}|^{p}\bigr\}^{1/p} \end{equation}
2変数の実数値関数で以下の3つの条件を満たす
非退化性
\begin{equation} x=y \Leftrightarrow d(x,y)=0 \end{equation}対称性
\begin{equation} d(x,y)=d(y,x) \end{equation}劣加法性 (三角不等式の成立)
\begin{equation} d(x,y)+d(y,z)\ge d(x,z) \end{equation}
非負性 \(d(x,y)\ge 0\) は3つの条件から自然に導かれる
\begin{align} &d(x,y)+d(y,x)\ge d(x,x)&&\text{(劣加法性)}\\ &d(x,y)+d(x,y)\ge d(x,x)&&\text{(対称性)}\\ &2d(x,y)\ge 0&&\text{(非退化性)}\\ &d(x,y)\ge 0 \end{align}
最大の要素に着目して計算すればよい
\begin{align} \lim_{p\to\infty} d(\boldsymbol{x},\boldsymbol{y}) &= \lim_{p\to\infty} \bigl\{|x_{1}-y_{1}|^{p}+\dotsb+|x_{d}-y_{d}|^{p}\bigr\}^{1/p}\\ &= \lim_{p\to\infty} \max_{k}|x_{k}-y_{k}| \left\{ \left(\frac{|x_{1}-y_{1}|}{\max_{k}|x_{k}-y_{k}|} \right)^{p} \right.\\ &\qquad +\dotsb \left. \left(\frac{|x_{d}-y_{d}|}{\max_{k}|x_{k}-y_{k}|} \right)^{p} \right\}^{1/p}\\ &= \max_{k}|x_{k}-y_{k}| \lim_{p\to\infty} \text{(1以上の有限値)}^{1/p}\\ &= \max_{k}|x_{k}-y_{k}| \end{align}
\(p\to-\infty\) の場合は以下となることを確認せよ
\begin{equation} \lim_{p\to-\infty} d(\boldsymbol{x},\boldsymbol{y}) =\min_{k}|x_{k}-y_{k}| \end{equation}
クラスタ : いくつかのデータ点からなる集合
\begin{equation} C_{a}=\left\{\boldsymbol{x}_{i}|i\in\Lambda_{a}\right\},\; C_{b}=\left\{\boldsymbol{x}_{j}|j\in\Lambda_{b}\right\},\quad C_{a}\cap C_{b}=\emptyset \end{equation}
最も近い対象間の距離を用いる方法
\begin{equation} D(C_{a},C_{b}) =\min_{\boldsymbol{x}\in C_{a},\;\boldsymbol{y}\in C_{b}} d(\boldsymbol{x},\boldsymbol{y}) \end{equation}
統合前後のクラスタ間の関係
\begin{equation} D(C_{a}+ C_{b}, C_{c}) =\min\bigl\{D(C_{a},C_{c}), D(C_{b},C_{c})\bigr\} % =\min\left\{D(C_{a},C_{c}), D(C_{b},C_{c})\right\} \end{equation}
最も遠い対象間の距離を用いる方法
\begin{equation} D(C_{a},C_{b}) =\max_{\boldsymbol{x}\in C_{a},\;\boldsymbol{y}\in C_{b}} d(\boldsymbol{x},\boldsymbol{y}) \end{equation}
統合前後のクラスタ間の関係
\begin{equation} D(C_{a}+ C_{b}, C_{c}) =\max\bigl\{D(C_{a},C_{c}), D(C_{b},C_{c})\bigr\} % =\max\left\{D(C_{a},C_{c}), D(C_{b},C_{c})\right\} \end{equation}
全ての対象間の平均距離を用いる方法
\begin{equation} D(C_{a},C_{b}) =\frac{1}{|C_{a}||C_{b}|} \sum_{\boldsymbol{x}\in C_{a},\;\boldsymbol{y}\in C_{b}} d(\boldsymbol{x},\boldsymbol{y}) \end{equation}
統合前後のクラスタ間の関係
\begin{equation} D(C_{a}+ C_{b}, C_{c}) =\frac{|C_{a}|D(C_{a},C_{c})+|C_{b}|D(C_{b},C_{c})}{|C_{a}|+|C_{b}|} \end{equation}
群平均法におけるクラスタの距離の定義
\begin{equation} D(C_{a},C_{b}) =\frac{1}{|C_{a}||C_{b}|} \sum_{\boldsymbol{x}\in C_{a},\;\boldsymbol{y}\in C_{b}} d(\boldsymbol{x},\boldsymbol{y}) \end{equation}
から統合前後のクラスタの距離の関係
\begin{equation} D(C_{a}+ C_{b}, C_{c}) =\frac{|C_{a}|D(C_{a},C_{c})+|C_{b}|D(C_{b},C_{c})}{|C_{a}|+|C_{b}|} \end{equation}
を導け
定義に従って計算する
\begin{align} D(C_{a}+C_{b}, C_{c}) &= \frac{1}{|C_{a}+C_{b}||C_{c}|} \sum_{\boldsymbol{x}\in C_{a}+C_{b},\;\boldsymbol{y}\in C_{c}} d(\boldsymbol{x},\boldsymbol{y})\\ &= \frac{1}{|C_{a}+C_{b}||C_{c}|} \sum_{\boldsymbol{x}\in C_{a},\;\boldsymbol{y}\in C_{c}} d(\boldsymbol{x},\boldsymbol{y})\\ &\qquad+ \frac{1}{|C_{a}+C_{b}||C_{c}|} \sum_{\boldsymbol{x}\in C_{b},\;\boldsymbol{y}\in C_{c}} d(\boldsymbol{x},\boldsymbol{y})\\ \end{align}
(続き)
\begin{align} &= \frac{|C_{a}||C_{c}|}{|C_{a}+C_{b}||C_{c}|} \frac{1}{|C_{a}||C_{c}|} \sum_{\boldsymbol{x}\in C_{a},\;\boldsymbol{y}\in C_{c}} d(\boldsymbol{x},\boldsymbol{y})\\ &\qquad+ \frac{|C_{b}||C_{c}|}{|C_{a}+C_{b}||C_{c}|} \frac{1}{|C_{b}||C_{c}|} \sum_{\boldsymbol{x}\in C_{b},\;\boldsymbol{y}\in C_{c}} d(\boldsymbol{x},\boldsymbol{y})\\ &= \frac{|C_{a}||C_{c}|}{|C_{a}+C_{b}||C_{c}|} D(C_{a}, C_{c}) + \frac{|C_{b}||C_{c}|}{|C_{a}+C_{b}||C_{c}|} D(C_{b}, C_{c})\\ &= \frac{|C_{a}|D(C_{a}, C_{c})+|C_{b}|D(C_{b}, C_{c})} {|C_{a}|+|C_{b}|} \end{align}
各データを正規化
Forest : 森林面積割合 (%) 2014年 Agri : 就業者1人当たり農業産出額(販売農家)(万円) 2014年 Ratio : 全国総人口に占める人口割合 (%) 2015年 Land : 土地生産性(耕地面積1ヘクタール当たり)(万円) 2014年 Goods : 商業年間商品販売額[卸売業+小売業](事業所当たり)(百万円) 2013年
Figure 12: 社会生活統計指標のクラスタ分析 (デンドログラム)
Figure 13: 5分割の例
アンケート概要 (Q2の結果を利用)
【応募期間】 2009年1月4日~2009年2月28日 【応募方法】 インターネット、携帯ウェブ 【内 容】 Q1. おむすびを最近1週間に、何個食べましたか? そのうち市販のおむすびは何個でしたか? Q2. おむすびの具では何が一番好きですか? A.梅 B.鮭 C.昆布 D.かつお E.明太子 F.たらこ G.ツナ H.その他 Q3. おむすびのことをあなたはなんと呼んでいますか? A.おにぎり B.おむすび C.その他 Q4. おむすびといえば、どういう形ですか? A.三角形 B.丸形 C.俵形 D.その他 【回答者数】 男性 9,702人 32.0% 女性 20,616人 68.0% 総数 30,318人 100.0%
Figure 14: データの概要
Figure 15: データの散布図
Figure 16: デンドログラム