主成分分析

評価と視覚化

(Press ? for help, n and p for next and previous slide)

村田 昇

講義の内容

  • 第1日 : 主成分分析の考え方
  • 第2日 : 分析の評価と視覚化

主成分分析の復習

主成分分析

  • 多数の変量のもつ情報の分析・視覚化
    • 変量を効率的に縮約して少数の特徴量を構成する
    • 変量の間の関係を明らかにする
  • 分析の方針
    • データの情報を保持する = データを区別することができる
    • データの情報を最大限保持する変量の線形結合を構成
    • データの情報を最大限反映する座標(方向)を探索

分析の考え方

  • 1変量の特徴量 \(\boldsymbol{a}^{\mathsf{T}}\boldsymbol{x}_1,\dotsc,\boldsymbol{a}^{\mathsf{T}}\boldsymbol{x}_n\) を構成
    • 観測データ \(\boldsymbol{x}_1,\dots,\boldsymbol{x}_n\) のもつ情報を最大限保持するベクトル \(\boldsymbol{a}\) を 適切に 選択
    • \(\boldsymbol{a}^{\mathsf{T}}\boldsymbol{x}_1,\dotsc,\boldsymbol{a}^{\mathsf{T}}\boldsymbol{x}_n\) の変動 (ばらつき) が最も大きい方向を選択
  • 最適化問題

    制約条件 \(\|\boldsymbol{a}\|=1\) の下で以下の関数を最大化せよ

    \begin{equation} f(\boldsymbol{a}) = \sum_{i=1}^n(\boldsymbol{a}^{\mathsf{T}}\boldsymbol{x}_i -\boldsymbol{a}^{\mathsf{T}}\bar{\boldsymbol{x}})^2, \quad \bar{\boldsymbol{x}} = \frac{1}{n}\sum_{i=1}^n\boldsymbol{x}_i \end{equation}

行列による表現

  • 中心化したデータ行列

    \begin{equation} X = \begin{pmatrix} \boldsymbol{x}_{1}^{\mathsf{T}}-\bar{\boldsymbol{x}}^{\mathsf{T}} \\ \vdots \\ \boldsymbol{x}_{n}^{\mathsf{T}}-\bar{\boldsymbol{x}}^{\mathsf{T}} \end{pmatrix} = \begin{pmatrix} x_{11}-\bar{x}_1 & \cdots & x_{1p}-\bar{x}_p\\ \vdots & & \vdots \\ x_{n1}-\bar{x}_1 & \cdots & x_{np}-\bar{x}_p \end{pmatrix} \end{equation}
  • 評価関数 \(f(\boldsymbol{a})\) は行列 \(X^{\mathsf{T}}X\) の二次形式

    \begin{equation} f(\boldsymbol{a}) = \boldsymbol{a}^{\mathsf{T}}X^{\mathsf{T}}X\boldsymbol{a} \end{equation}

固有値問題

  • 最適化問題

    \begin{equation} \text{maximize}\quad f(\boldsymbol{a}) = \boldsymbol{a}^{\mathsf{T}}X^{\mathsf{T}}X\boldsymbol{a} \quad\text{s.t.}\quad \boldsymbol{a}^{\mathsf{T}}\boldsymbol{a}=1 \end{equation}
  • 解の条件

    \(f(\boldsymbol{a})\) の極大値を与える \(\boldsymbol{a}\) は \(X^{\mathsf{T}}X\) の固有ベクトルである

    \begin{equation} X^{\mathsf{T}}X\boldsymbol{a} = \lambda\boldsymbol{a} \end{equation}
    • 未定係数法を用いている

主成分負荷量と主成分得点

  • \(\boldsymbol{a}\) : 主成分負荷量 (principal component loading)
  • \(\boldsymbol{a}^{\mathsf{T}}\boldsymbol{x}_i\) : 主成分得点 (principal component score)
  • 第1主成分負荷量

    \(X^{\mathsf{T}}X\) の第1(最大)固有値 \(\lambda_1\) に対応する固有ベクトル \(\boldsymbol{a}_1\)

  • 第\(k\)主成分負荷量

    \(X^{\mathsf{T}}X\) の第 \(k\) 固有値 \(\lambda_k\) に対応する固有ベクトル \(\boldsymbol{a}_k\)

演習

問題

  • 以下の問に答えなさい
    • ベクトル\(\boldsymbol{a}\) を \(X^{\mathsf{T}}X\) の単位固有ベクトルとするとき

      \begin{equation} f(\boldsymbol{a})=\boldsymbol{a}^{\mathsf{T}}X^{\mathsf{T}}X\boldsymbol{a} \end{equation}

      の値を求めよ

    • 行列\(X\)を中心化したデータ行列, ベクトル\(\boldsymbol{a}_{k}\)を第\(k\)主成分負荷量とするとき, 第\(k\)主成分得点の平均まわりの平方和

      \begin{equation} \sum_{i=1}^n(\boldsymbol{a}_{k}^{\mathsf{T}}\boldsymbol{x}_i -\boldsymbol{a}_{k}^{\mathsf{T}}\bar{\boldsymbol{x}})^2 \end{equation}

      を \(X\)と\(\boldsymbol{a}_{k}\)で表せ

解答例

  • 固有値・固有ベクトルの性質を利用する

    \(X^{\mathsf{T}}X\)の 固有値・固有ベクトルを \(\lambda_{k}, \boldsymbol{a}_{k}\) とする. \(\boldsymbol{a}=\boldsymbol{a}_{k}\)とすれば

    \begin{align} f(\boldsymbol{a}_{k}) &=\boldsymbol{a}_{k}^{\mathsf{T}}X^{\mathsf{T}}X\boldsymbol{a}_{k}\\ &=\boldsymbol{a}_{k}^{\mathsf{T}}\lambda_{k}\boldsymbol{a}_{k} &&\text{(固有ベクトル)}\\ &=\lambda_{k} &&\text{(単位ベクトル)} \end{align}
  • 定義に従い計算すればよい(前回の復習)

    \begin{align} f(\boldsymbol{a}_{k}) &= \sum_{i=1}^{n}(\boldsymbol{a}_{k}^{\mathsf{T}}\boldsymbol{x}_i -\boldsymbol{a}_{k}^{\mathsf{T}}\bar{\boldsymbol{x}})^2\\ &= \sum_{i=1}^{n} (X\boldsymbol{a}_{k})_{i}^{2}\\ &= \sum_{i=1}^{n} (X\boldsymbol{a}_{k})_{i} (X\boldsymbol{a}_{k})_{i}\\ &= (\boldsymbol{a}_{k}^{\mathsf{T}}X^{\mathsf{T}}) (X\boldsymbol{a}_{k}) = \boldsymbol{a}_{k}^{\mathsf{T}}X^{\mathsf{T}}X\boldsymbol{a}_{k} \end{align}

寄与率

寄与率の考え方

  • 回帰分析で考察した寄与率の一般形

    \begin{equation} \text{(寄与率)}= \frac{\text{(その方法で説明できる変動)}}{\text{(データ全体の変動)}} \end{equation}
  • 主成分分析での定義 (proportion of variance)

    \begin{equation} \text{(寄与率)}= \frac{\text{(主成分の変動)}}{\text{(全体の変動)}} \end{equation}

Gram 行列のスペクトル分解

  • 行列 \(X^{\mathsf{T}}X\) (非負定値対称行列) のスペクトル分解

    \begin{equation} X^{\mathsf{T}}X =\sum_{k=1}^{p}\lambda_{k}\boldsymbol{a}_{k}\boldsymbol{a}_{k}^{\mathsf{T}} \end{equation}
    • 固有値と固有ベクトルによる行列の表現
  • 主成分の変動の評価

    \begin{equation} f(\boldsymbol{a}_{k}) = \boldsymbol{a}_{k}^{\mathsf{T}}X^{\mathsf{T}}X\boldsymbol{a}_{k} =\lambda_{k} \end{equation}
    • 固有ベクトル(単位ベクトル)の直交性を利用

寄与率の計算

  • 主成分と全体の変動

    \begin{align} \text{(主成分の変動)} &= \sum_{i=1}^{n}(\boldsymbol{a}_k^{\mathsf{T}}\boldsymbol{x}_i -\boldsymbol{a}_k^{\mathsf{T}}\bar{\boldsymbol{x}})^2 =\boldsymbol{a}_{k}^{\mathsf{T}}X^{\mathsf{T}}X\boldsymbol{a}_{k} =\lambda_k\\ \text{(全体の変動)} &= \sum_{i=1}^{n}\|\boldsymbol{x}_i-\bar{\boldsymbol{x}}\|^2 =\sum_{l=1}^p\boldsymbol{a}_{l}^{\mathsf{T}}X^{\mathsf{T}}X\boldsymbol{a}_{l} =\sum_{l=1}^p\lambda_l \end{align}
  • 固有値による寄与率の表現

    \begin{equation} \text{(寄与率)} = \frac{\lambda_k}{\sum_{l=1}^p\lambda_l} \end{equation}

累積寄与率

  • 累積寄与率 (cumulative proportion) :

    第 \(k\) 主成分までの変動の累計

    \begin{equation} \text{(累積寄与率)} = \frac{\sum_{l=1}^k\lambda_l}{\sum_{l=1}^p\lambda_l} \end{equation}
    • 累積寄与率はいくつの主成分を用いるべきかの基準
    • 一般に累積寄与率が80%程度までの主成分を用いる

解析の事例

データセット

  • データ(の一部)の内容

    Pref Forest Agri Ratio Land Goods Area
    Hokkaido 67.9 1150.6 4.23 96.8 283.3 Hokkaido
    Aomori 63.8 444.7 1.03 186.0 183.0 Tohoku
    Iwate 74.9 334.3 1.01 155.2 179.4 Tohoku
    Miyagi 55.9 299.9 1.84 125.3 365.9 Tohoku
    Akita 70.5 268.7 0.81 98.5 153.3 Tohoku
    Yamagata 68.7 396.3 0.88 174.1 157.5 Tohoku
    Fukushima 67.9 236.4 1.51 127.1 184.5 Tohoku
    Ibaraki 31.0 479.0 2.30 249.1 204.9 Kanto
    Tochigi 53.2 402.6 1.55 199.6 204.3 Kanto
    Gumma 63.8 530.6 1.55 321.6 270.0 Kanto
    Saitama 31.9 324.7 5.72 247.0 244.7 Kanto
    Chiba 30.4 565.5 4.90 326.1 219.7 Kanto
    Tokyo 34.8 268.5 10.63 404.7 1062.6 Kanto
    Kanagawa 38.8 322.8 7.18 396.4 246.1 Kanto
    Niigata 63.5 308.6 1.81 141.9 205.5 Chubu

各変数の分布

  • 変数間の散布図

js_pairs.png

Figure 1: データの散布図

  • 変数のばらつきに大きな違いがある

js_boxplot.png

Figure 2: 各変数の箱ひげ図

データの標準化

  • 各変数の標本平均を0,不偏分散を1に規格化する

js_scaled_pairs.png

Figure 3: 標準化したデータの散布図

  • 変数のばらつきをそろえる

js_scaled_boxplot.png

Figure 4: 標準化した変数の箱ひげ図

  • 分布(密度推定)で表示する

js_scaled_violindot.png

Figure 5: 標準化した変数の密度推定

主成分分析

  • 主成分負荷量 (標準化なし)

    PC1 PC2 PC3 PC4 PC5
    Forest −0.0142 0.0482 −0.0004 −0.9975 −0.0495
    Agri 0.9729 0.1208 −0.1971 −0.0080 0.0004
    Ratio 0.0022 −0.0116 0.0000 0.0489 −0.9987
    Land 0.2217 −0.2467 0.9433 −0.0155 0.0026
    Goods 0.0647 −0.9602 −0.2672 −0.0476 0.0090
    • 第1: 分散が大きく関連している Agri と Land が支配的
    • 第2: 次に分散が大きな Goods が支配的
  • 寄与率・累積寄与率

js_pov_raw.png

Figure 6: 寄与率 (標準化なし)

js_cpov_raw.png

Figure 7: 累積寄与率 (標準化なし)

  • 第1,2主成分得点の表示

js_pcaplot12_raw.png

Figure 8: 主成分得点による散布図 (標準化なし)

  • 第3,2主成分得点の表示

js_pcaplot32_raw.png

Figure 9: 主成分得点による散布図 (標準化なし)

  • 主成分負荷量 (標準化あり)

    index PC1 PC2 PC3 PC4 PC5
    Forest −0.4871 0.1046 −0.4575 0.6860 −0.2682
    Agri 0.1339 0.8115 0.4791 0.3045 0.0348
    Ratio 0.5851 −0.1511 0.0447 0.1641 −0.7784
    Land 0.3548 0.4851 −0.7417 −0.2897 0.0689
    Goods 0.5258 −0.2689 −0.0952 0.5708 0.5624
    • 第1: 人の多さに関する成分(正の向きほど人が多い)
    • 第2: 農業生産力に関する成分(正の向きほど高い)
  • 寄与率・累積寄与率

js_pov.png

Figure 10: 寄与率 (標準化なし)

js_cpov.png

Figure 11: 累積寄与率 (標準化なし)

  • 第1,2主成分得点の表示

js_pcaplot12.png

Figure 12: 主成分得点による散布図 (標準化なし)

  • 第3,2主成分得点の表示

js_pcaplot32.png

Figure 13: 主成分得点による散布図 (標準化なし)

演習

問題

  • 以下の問に答えなさい
    • 標準化条件を満たす線形変換 \(x'_{ij}=a_{j}(x_{ij}-b_{j})\) を求めよ

      \begin{equation} \frac{1}{n}\sum_{i=1}^{n}x'_{ij}=0,\quad \frac{1}{n-1}\sum_{i=1}^{n}(x'_{ij})^{2}=1 \end{equation}
    • 標準化されたデータ行列を

      \begin{equation} X' = \begin{pmatrix} {\boldsymbol{x}'_{1}}^{\mathsf{T}}\\ \vdots \\ {\boldsymbol{x}'_{n}}^{\mathsf{T}} \end{pmatrix} = \begin{pmatrix} x'_{11} & \cdots & x'_{1p}\\ \vdots & & \vdots \\ x'_{n1} & \cdots & x'_{np} \end{pmatrix} \end{equation}

      と書くとき, \(X'^{\mathsf{T}}X'\)の対角成分を求めよ

解答例

  • 標本平均の定義どおりに計算すればよい

    \begin{align} \frac{1}{n}\sum_{i=1}^{n}x'_{ij} &= \frac{1}{n}\sum_{i=1}^{n}\left(a_{j}(x_{ij}-b_{j})\right)\\ &= a_{j}\left(\frac{1}{n}\sum_{i=1}^{n}x_{ij}-b_{j}\right)\\ &=0 \end{align}

    したがって

    \begin{equation} b_{j} = \frac{1}{n}\sum_{i=1}^{n}x_{ij} =\bar{x}_{j} \quad\text{(元の変数の標本平均)} \end{equation}
  • 不偏分散も同様に計算すればよい

    \begin{align} \frac{1}{n-1}\sum_{i=1}^{n}(x'_{ij})^{2} &= a_{j}^{2}\frac{1}{n-1}\sum_{i=1}^{n}(x_{ij}-\bar{x}_{j})^{2}\\ &=1 \end{align}

    したがって

    \begin{equation} a_{j} = \left(\frac{1}{n-1}\sum_{i=1}^{n}(x_{ij}-\bar{x}_{j})^{2}\right)^{-1/2} \quad\text{(標準偏差の逆数)} \end{equation}
  • 不偏分散での標準化であることに注意する

    \begin{equation} (X'^{\mathsf{T}}X')_{jj} = \sum_{i=1}^{n}(x'_{ij})^{2} = n-1 \end{equation}

主成分負荷量

主成分負荷量と主成分得点

  • 負荷量(得点係数)の大きさ: 変数の貢献度
  • 問題点
    • 変数のスケールによって係数の大きさは変化する
    • 変数の標準化(平均0,分散1)がいつも妥当とは限らない
  • スケールによらない変数と主成分の関係
    • 相関係数 を考えればよい

相関係数

  • \(\boldsymbol{e}_{j}\): 第 \(j\) 成分は1,それ以外は0のベクトル
  • \(X\boldsymbol{e}_{j}\): 第 \(j\) 変数ベクトル
  • \(X\boldsymbol{a}_{k}\): 第 \(k\) 主成分得点ベクトル
  • 主成分と変数の相関係数:

    \begin{align} \mathrm{Cor}(X\boldsymbol{a}_{k},X\boldsymbol{e}_{j}) % &=\frac{(X\boldsymbol{a}_{k})^{\mathsf{T}}X\boldsymbol{e}_{l}} % {\sqrt{(X\boldsymbol{a}_{k})^{\mathsf{T}}X\boldsymbol{a}_{k}} % \sqrt{(X\boldsymbol{e}_{l})^{\mathsf{T}}X\boldsymbol{e}_{l}}}\\ &=\frac{\boldsymbol{a}_{k}^{\mathsf{T}}X^{\mathsf{T}}X\boldsymbol{e}_{j}} {\sqrt{\boldsymbol{a}_{k}^{\mathsf{T}}X^{\mathsf{T}}X\boldsymbol{a}_{k}} \sqrt{\boldsymbol{e}_{j}^{\mathsf{T}}X^{\mathsf{T}}X\boldsymbol{e}_{j}}}\\ &=\frac{\lambda_{k}\boldsymbol{a}_{k}^{\mathsf{T}}\boldsymbol{e}_{j}} {\sqrt{\lambda_{k}}\sqrt{(X^{\mathsf{T}}X)_{jj}}} =\frac{\sqrt{\lambda_{k}}(\boldsymbol{a}_{k})_{j}} {\sqrt{(X^{\mathsf{T}}X)_{jj}}} \end{align}

相関係数による評価

  • 標準化されたデータの場合
    • \(X^{\mathsf{T}}X\) の対角成分は全て\(n-1\) (\((X^{\mathsf{T}}X)_{jj}=n-1\))
    • 第 \(k\) 主成分に対する相関係数ベクトル

      \begin{equation} \boldsymbol{r}_{k} =\sqrt{\lambda_{k}/(n-1)}\cdot\boldsymbol{a}_{k}, \quad (\boldsymbol{r}_{k})_{j} =\sqrt{\lambda_{k}/(n-1)}\cdot(\boldsymbol{a}_{k})_{j} \end{equation}
    • 主成分負荷量の比較
      • 同じ主成分(\(k\)を固定)への各変数の影響は固有ベクトルの成分比
      • 同じ変数(\(j\)を固定)の各主成分への影響は固有値の平方根で重みづけ
  • 標準化されていない場合
    • 変数の分散の影響を考慮する必要がある

データ行列の分解表現

特異値分解

  • 階数 \(r\) の \(n\times p\) 型行列 \(X\) の分解

    \begin{equation} X=U\Sigma V^{\mathsf{T}} \end{equation}
    • \(U\) は \(n\times n\) 型直交行列, \(V\) は \(p\times p\) 型直交行列
    • \(\Sigma\) は \(n\times p\) 型行列

      \begin{equation} \Sigma = \begin{pmatrix} D & O_{r,p-r}\\ O_{n-r,r} & O_{n-r,m-r} \end{pmatrix} \end{equation}
      • \(O_{s,t}\) は \(s\times t\) 型零行列
      • \(D\) は \(\sigma_{1}\geq\sigma_{2}\geq\sigma_{r}>0\) を対角成分とする \(r\times r\) 型対角行列

特異値

  • 行列 \(\Sigma\) の成分表示

    \begin{equation} \Sigma = \begin{pmatrix} \sigma_{1}&&&\\ &\ddots&&O_{r,p-r}\\ &&\sigma_{r}&\\ &&&\\ &O_{n-r,r} && O_{n-r,m-r} \end{pmatrix} \end{equation}
  • \(D\) の対角成分: \(X\) の 特異値 (singular value)

特異値分解によるGram行列の表現

  • Gram行列の展開

    \begin{align*} X^{\mathsf{T}}X &=(U\Sigma V^{\mathsf{T}})^{\mathsf{T}}(U\Sigma V^{\mathsf{T}})\\ &=V\Sigma^{\mathsf{T}}U^{\mathsf{T}}U\Sigma V^{\mathsf{T}}\\ &=V\Sigma^{\mathsf{T}}\Sigma V^{\mathsf{T}} \end{align*}
  • 行列 \(\Sigma^{\mathsf{T}}\Sigma\) は対角行列

    \begin{equation} \Sigma^{\mathsf{T}}\Sigma = \begin{pmatrix} \sigma_{1}^{2}&&&&&\\ &\ddots&&&&\\ &&\sigma_{r}^{2}&&&\\ &&&0&&\\ &&&&\ddots&\\ &&&&&0 \end{pmatrix} \end{equation}

演習

問題

  • 行列\(X\)の特異値分解を\(U\Sigma V^{\mathsf{T}}\)とし, 行列\(U\)の第\(k\)列ベクトルを\(\boldsymbol{u}_{k}\), 行列\(V\)の第\(k\)列ベクトルを\(\boldsymbol{v}_{k}\) とするとき, 以下の問に答えなさい
    • 行列\(U,V\)の列ベクトルを用いて\(X\)を展開しなさい
    • Gram行列\(X^{\mathsf{T}}X\)の固有値を特異値で表しなさい
    • 行列\(X\)の主成分負荷量を求めなさい
    • それぞれの負荷量に対応する主成分得点を求めなさい

解答例

  • \(\Sigma\)が対角成分しか持たないことに注意すると 以下のように展開される

    \begin{equation} X = U\Sigma V^{\mathsf{T}} = \sum_{k=1}^{r}\sigma_{k}\boldsymbol{u}_{k}\boldsymbol{v}_{k}^{\mathsf{T}} \end{equation}
  • 先週の演習問題と特異値分解を比較する

    \begin{equation} X^{\mathsf{T}}X = V\Sigma^{\mathsf{T}}\Sigma V^{\mathsf{T}} = A^{\mathsf{T}}\Lambda A \end{equation}

    より

    \begin{equation} \lambda_{k} = \begin{cases} \sigma_{k}^{2},&k\leq r\\ 0,&k>r \end{cases} \end{equation}
  • 転置に気をつけて同様に比較すればよい

    \begin{equation} A = \begin{pmatrix} \boldsymbol{a}_{1}^{\mathsf{T}}\\ \vdots \\ \boldsymbol{a}_{p}^{\mathsf{T}} \end{pmatrix} \end{equation}

    と定義されているので 主成分負荷量(固有ベクトル)は行列 \(V\) の列ベクトル

    \begin{equation} \boldsymbol{a}_{k}=\boldsymbol{v}_{k} \end{equation}
  • 主成分得点の定義どおり計算する

    \begin{equation} X\boldsymbol{a}_{k} =U\Sigma V^{\mathsf{T}}\boldsymbol{v}_{k} =\sigma_{k}\boldsymbol{u}_{k} \end{equation}
    • ただし\(k>r\)のとき\(\sigma_{k}=0\)とする
    • \(V\)と\(U\)は大きさが異なるので注意する

バイプロット

データ行列の分解

  • 行列 \(U\) の第 \(k\) 列ベクトル \(\boldsymbol{u}_{k}\)
  • 行列 \(V\) の第 \(k\) 列ベクトル \(\boldsymbol{v}_{k}\)
  • データ行列の特異値分解: (\(\Sigma\) の非零値に注意)

    \begin{equation} X = U\Sigma V^{\mathsf{T}} = \sum_{k=1}^{r}\sigma_{k}\boldsymbol{u}_{k}\boldsymbol{v}_{k}^{\mathsf{T}} \end{equation}

データ行列の近似表現

  • 第 \(k\) 主成分と第 \(l\) 主成分を用いた行列 \(X\) の近似 \(X'\)

    \begin{equation} X\simeq X' =\sigma_{k}\boldsymbol{u}_{k}\boldsymbol{v}_{k}^{\mathsf{T}} +\sigma_{l}\boldsymbol{u}_{l}\boldsymbol{v}_{l}^{\mathsf{T}} \end{equation}
  • 行列の積による表現

    \begin{align} X'=&GH^{\mathsf{T}}, (0\leq s\leq1)\\ &G= \begin{pmatrix} \sigma_{k}^{1-s}\boldsymbol{u}_{k}& \sigma_{l}^{1-s}\boldsymbol{u}_{l} \end{pmatrix},\quad H= \begin{pmatrix} \sigma_{k}^{s}\boldsymbol{v}_{k}& \sigma_{l}^{s}\boldsymbol{v}_{l} \end{pmatrix} \end{align}

バイプロット

  • 関連がある2枚の散布図を1つの画面に表示する散布図を一般に バイプロット (biplot) と呼ぶ
  • 行列\(G,H\)の各行を2次元座標と見なす

    \begin{equation} X'=GH^{\mathsf{T}} \end{equation}
    • 行列 \(G\) の各行は各データの2次元座標
    • 行列 \(H\) の各行は各変量の2次元座標
  • パラメタ \(s\) は \(0\), \(1\) または \(1/2\) が主に用いられる
  • \(X\) の変動を最大限保持する近似は \(k=1,l=2\)

解析の事例

バイプロット

  • 主成分負荷量 (標準化あり)

    PC1 PC2 PC3 PC4 PC5
    Forest −0.4871 0.1046 −0.4575 0.6860 −0.2682
    Agri 0.1339 0.8115 0.4791 0.3045 0.0348
    Ratio 0.5851 −0.1511 0.0447 0.1641 −0.7784
    Land 0.3548 0.4851 −0.7417 −0.2897 0.0689
    Goods 0.5258 −0.2689 −0.0952 0.5708 0.5624
  • 寄与率

    PC1 PC2 PC3 PC4 PC5
    Standard deviation 1.5904 1.0699 0.8196 0.7076 0.3919
    Proportion of Variance 0.5059 0.2289 0.1343 0.1001 0.0307
    Cumulative Proportion 0.5059 0.7348 0.8691 0.9693 1.0000
  • 第1,2主成分によるバイプロット

js_biplot12.png

Figure 14: 主成分分析のバイプロット(第1,2)

  • 第3,2主成分によるバイプロット

js_biplot32.png

Figure 15: 主成分分析のバイプロット(第3,2)

  • 中心部の拡大 (第1,2主成分)

js_biplot12e.png

Figure 16: 主成分分析のバイプロット(第1,2)

  • 中心部の拡大 (第3,2主成分)

js_biplot32e.png

Figure 17: 主成分分析のバイプロット(第3,2)

次回の予定

  • 第1日 : 判別分析の考え方
  • 第2日 : 分析の評価