多変量解析 - 第2講
(Press ?
for help, n
and p
for next and previous slide)
村田 昇
定義
注目する事象(標本空間の部分集合)に対して, それが起きる確率(区間 \([0,1]\) の実数)を返す関数
\begin{equation} P(\text{事象})=\text{確率値} \end{equation}を 確率分布 という.
離散分布を記述する方法
1つの見本点 \(x\) からなる事象(根元事象という)を \(A=\{x\}\) とする. 事象 \(A\) の起きる確率
\begin{equation} P(A=\{x\})= p(x) \end{equation}を表す関数 \(p\) を 確率質量関数 という.
連続分布を記述する方法
事象 \(A\) が起きる確率は 確率密度関数 \(p\) の積分
\begin{equation} P(A)=\int_A p(x)dx \end{equation}で表される.
事象 \(A\) が十分小さな集合の場合
\(A\) に含まれる適当な点を \(x\) とし, \(A\) の大きさ(考える空間により体積や面積に相当)を \(|A|\) と書くことにすれば, 事象 \(A\) の起きる確率を密度と事象の大きさの積
\begin{equation} P(A)=\int_A p(x)dx \simeq p(x)\cdot|A| \end{equation}で近似することができる.
Figure 1: 正規分布 (平均\(0\),分散\(1\))
- 標本空間 : \((-\infty,\infty)\)
- 母数 : 平均 \(\mu\), 分散 \(\sigma^{2}\)
密度関数 :
\begin{equation} p(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}} \end{equation}- 備考 : \(\mu=0,\sigma=1\) のとき 標準正規分布 と呼ぶ.
密度関数 :
Figure 2: \(\chi^{2}\)分布 (自由度\(3\))
- 標本空間 : \([0,\infty)\)
- 母数 : 自由度 \(\nu\)
密度関数 :
\begin{align} p(x) &= \frac{1}{2^{\nu/2}\Gamma(\frac{\nu}{2})}x^{\nu/2-1}e^{-x/2}\\ &\quad\Gamma(z)=\int_0^\infty e^{-t}t^{z-1}dt \end{align}- 備考 : 標準正規分布に従う独立な確率変数の2乗和の分布
標準正規分布に従う独立な確率変数の2乗和の分布
\begin{align} Z&=\sum_{i=1}^{\nu}X_{i}^{2} \sim \chi^{2}(\nu) \quad\text{(自由度 \(\nu\) の \(\chi^{2}\) 分布)}\\ &X_{i}\sim \mathcal{N}(0,1)\;(i=1,\dotsc,\nu) \quad\text{(標準正規分布)} \end{align}
Figure 3: \(t\)分布 (自由度\(3\))
- 標本空間 : \((-\infty,\infty)\)
- 母数 : 自由度 \(\nu\)
密度関数 :
\begin{equation} p(x)= \frac{\Gamma\left(\frac{\nu+1}{2}\right)} {\sqrt{\nu\pi}\Gamma\left(\frac{\nu}{2}\right)} \left(1+\frac{x^{2}}{\nu}\right)^{-\frac{1}{2}(\nu+1)} \end{equation}- 備考 : 標準正規分布と \(\chi^{2}\)分布に従う独立な 確率変数の比の分布
標準正規分布と \(\chi^{2}\)分布に従う独立な確率変数の比の分布
\begin{align} Z&=\frac{X}{\sqrt{Y/\nu}} \sim \mathcal{T}(\nu) \quad\text{(自由度 \(\nu\) の \(t\) 分布)}\\ &X\sim \mathcal{N}(0,1), \quad Y\sim \chi^{2}(\nu) \end{align}
Figure 4: \(F\)分布 (自由度\(3,5\))
- 標本空間 : \([0,\infty)\)
- 母数 : 自由度 \(\nu_{1},\nu_{2}\)
密度関数 :
\begin{align} p(x) &= \frac{(\nu_{1}/\nu_{2})^{\nu_{1}/2}}{B(\nu_{1}/2,\nu_{2}/2)} \frac{x^{\nu_{1}/2-1}}{(1+\nu_{1}x/\nu_{2})^{(\nu_{1}+\nu_{2})/2}}\\ &\quad B(x,y)=\int_{0}^{1}t^{x-1}(1-t)^{y-1} dt \end{align}- 備考 : \(\chi^{2}\)分布に従う独立な確率変数の比の分布
\(\chi^{2}\)分布に従う独立な確率変数の比の分布
\begin{align} Z&=\frac{Y_{1}/\nu_{1}}{Y_{2}/\nu_{2}} \sim \mathcal{F}(\nu_{1},\nu_{2}) \quad\text{(自由度\(\nu_{1},\nu_{2}\)の\(F\)分布)}\\ &Y_{i}\sim \chi^{2}(\nu_{i})\;(i=1,2) \end{align}
定理
\(\{X_n\}\) を確率変数列として
\begin{equation} S_n=\sum_{k=1}^n X_k \end{equation}とする. \(\{X_n\}\) が独立で, \(\{\mathrm{Var}(X_n)\}\) が有界ならば
\begin{equation} \frac{S_n-\mathbb{E}[S_n]}{n}\to 0 \text{ a.s.} \end{equation}が成り立つ.
定理
\(\{X_n\}\) は独立で, 平均 \(\mu\) ,標準偏差 \(\sigma\) の同じ分布に従うとする. このとき,すべての実数 \(a < b\) に対して
\begin{equation} P\Bigl(a\leq\frac{\sqrt{n}(\bar{X}_n-\mu)}{\sigma}\leq b \Bigr) \to\frac{1}{\sqrt{2\pi}}\int_a^be^{-\frac{x^2}{2}}dx\quad (n\to\infty) \end{equation}が成り立つ.
定理の意味
\(X_i\) の分布が何であっても, サンプル数 \(n\) が十分大きければ, 標本平均と真の平均の差 \(\bar{X}_n-\mu\) の分布は, 標準正規分布 を利用して
\begin{equation} P\Bigl(a\frac{\sigma}{\sqrt{n}}\leq\bar{X}_n-\mu\leq b\frac{\sigma}{\sqrt{n}} \Bigr) \simeq \frac{1}{\sqrt{2\pi}}\int_a^be^{-\frac{x^2}{2}}dx \end{equation}で近似できる.
漸近正規性
多くの推定量 \(\hat{\theta}\) の分布は正規分布で近似できる
標準正規分布の密度関数
\begin{equation} p(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^{2}}{2}} \end{equation}
を\(\mathbb{R}\)上で積分すると 1となることを確かめよ
2つの標準正規分布の積を考えて, 重積分を極座標に変換すればよい
\begin{align} &\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} e^{-x^{2}/2}e^{-y^{2}/2}dxdy\\ &= \int_{0}^{2\pi} \int_{0}^{\infty} e^{-r^{2}/2}rdrd\theta = 2\pi\int_{0}^{\infty}e^{-z}dz =2\pi \end{align}
微小な区間 \(\Delta\) を考えて, 密度を用いた近似計算を利用すればよい
\begin{align} &\frac{P(X\text{が0付近})}{P(X\text{が1付近})}\\ &\simeq\frac{p(0)|\Delta|}{p(1)|\Delta|} =\frac{\exp(0)}{\exp(-1/2)}=\sqrt{e}\simeq 1.65 \end{align}
手に入る少数のサンプル(観測データ)から 推定
\begin{equation} X_1,X_2,\dots,X_n \end{equation}
平均 (mean)
\begin{equation} \mu=\mathbb{E}[X] = \begin{cases} \sum_{x\in\Omega} x p(x), &\text{(離散分布の場合)}\\ \int_{x\in\Omega} x p(x)dx, &\text{(連続分布の場合)} \end{cases} \end{equation}
標本平均 (sample mean)
\begin{equation} \bar{X} =\frac{1}{n}\sum_{i=1}^{n}X_{i} =\frac{X_{1}+\dotsb+X_{n}}{n} % =\frac{X_1+X_2+\cdots+X_n}{n} \end{equation}
分散 (variance)
\begin{equation} \mathrm{Var}(X)=\sigma^{2}=\mathbb{E}[(X-\mu)^{2}] \end{equation}
標本分散 (sample variance)
\begin{equation} S^{2} =\frac{1}{n}\sum_{i=1}^n(X_{i}-\bar{X})^{2} =\frac{(X_{1}-\bar{X})^{2}+\dotsb+(X_{n}-\bar{X})^{2}}{n} % =\frac{(X_1-\bar{X})^2+(X_2-\bar{X})^2+\cdots+(X_n-\bar{X})^2}{n} \end{equation}
標本平均は \(\mu\) の 不偏推定量である
\begin{equation} \mathbb{E}[\bar{X}]=\mu \end{equation}
標本分散は \(\sigma^2\) の 不偏推定量ではない
\begin{equation} \mathbb{E}[S^2]=\frac{n-1}{n}\sigma^2 \end{equation}
バイアス補正 : 標本分散に \(n/(n-1)\) を乗じたもの
\begin{equation} s^2=\frac{n}{n-1}S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2 \end{equation}
は \(\sigma^2\) の不偏推定量となる
標準偏差 (standard deviation)
\begin{equation} \sigma=\sqrt{\mathrm{Var}(X)}=(\mathbb{E}[(X-\mu)^{2}])^{1/2} \end{equation}
標本標準偏差 (sample standard deviation)
\begin{equation} \hat\sigma=s \end{equation}
データ \(X_{1},X_{2},\dotsc,X_{n}\) の標準化 (standardization)
\begin{equation} Z_{i}=\frac{X_i-\bar{X}}{s}\quad(i=1,2,\dotsc,n) \end{equation}
標本平均50, 標準偏差10への線形変換
\begin{equation} T_{i}=10Z_{i}+50\quad(i=1,\dotsc,n) \end{equation}
共分散 (covariance)
\begin{equation} \mathrm{Cov}(X,Y)=\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])] \end{equation}
標本共分散 (sample covariance)
\begin{equation} \mathrm{Cov}(X,Y)=\frac{\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{n-1} \end{equation}
相関 (correlation)
\begin{equation} \rho=\frac{\mathrm{Cov}(X,Y)}{\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)}} \end{equation}
標本相関 (sample correlation)
\begin{equation} \rho=\frac{\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})} {\sqrt{\sum_{i=1}^n(X_i-\bar{X})^2}\sqrt{\sum_{i=1}^n(Y_i-\bar{Y})^2}} \end{equation}
独立な確率変数の同時確率
\begin{align} & P(X_1=x_1,X_2=x_2,\dots,X_n=x_n) =\prod_{i=1}^nP(X_i=x_i)\\ &= \prod_{i=1}^nf_{\boldsymbol{\theta}}(x_i) =f_{\boldsymbol{\theta}}(x_1)\cdot f_{\boldsymbol{\theta}}(x_2)\cdots f_{\boldsymbol{\theta}}(x_n) \end{align}
定義
パラメタ \(\boldsymbol{\theta}\) に対して 観測データ \(X_1,X_2,\dots,X_n\) が得られる理論上の確率
\begin{equation} L(\boldsymbol{\theta}) =\prod_{i=1}^nf_{\boldsymbol{\theta}}(X_i) \end{equation}を \(\boldsymbol{\theta}\) の 尤度 と言い, \(\boldsymbol{\theta}\) の関数 \(L\) を 尤度関数 と呼ぶ.
独立な確率変数の同時確率
\begin{align} & P(x_1\leq X_1\leq x_1+\delta,\dotsc,x_n\leq X_n\leq x_n+\delta) =\prod_{i=1}^nP(x_i\leq X_i\leq x_i+\delta)\\ &\simeq \prod_{i=1}^nf_{\boldsymbol{\theta}}(x_i)\delta =f_{\boldsymbol{\theta}}(x_1)\cdot f_{\boldsymbol{\theta}}(x_2)\cdots f_{\boldsymbol{\theta}}(x_n)\delta^{n} \end{align}
定義
パラメタ \(\boldsymbol{\theta}\) に対して 観測データ \(X_1,X_2,\dots,X_n\) が得られる理論上の確率密度
\begin{equation} L(\boldsymbol{\theta}) =\prod_{i=1}^nf_{\boldsymbol{\theta}}(X_i) \end{equation}を \(\boldsymbol{\theta}\) の 尤度 と言い, \(\boldsymbol{\theta}\) の関数 \(L\) を 尤度関数 と呼ぶ.
最尤法
観測データに対して「最も尤もらしい」パラメタ値を \(\boldsymbol{\theta}\) の推定量として採用する方法 を最尤法という.
最尤推定量
\(\Theta\) を尤度関数の定義域として, 尤度関数を最大とする \(\hat{\boldsymbol{\theta}}\)
\begin{equation} L(\hat{\boldsymbol{\theta}}) =\max_{\boldsymbol{\theta}\in\Theta}L(\boldsymbol{\theta}). \end{equation}を \(\boldsymbol{\theta}\) の 最尤推定量 という.
定理
条件付確率では次の等式が成り立つ.
\begin{equation} P(A|B) =\frac{P(A)P(B|A)}{P(B)}. \end{equation}
定理
\(\Omega=A_1+A_2+\dotsb+A_n\) のとき
\begin{equation} P(A_i|B) =\frac{P(A_i)P(B|A_i)}{\sum_{k=1}^nP(A_k)P(B|A_k)} \end{equation}が成り立つ.
以下の問に答えなさい
A先生は大の野球ファンで, 球団Hの勝敗で翌日の機嫌が左右されるとしよう. よくよく調べた結果
- 球団Hが勝つと90%の確率で機嫌が良い
- 球団Hが負けると70%の確率で機嫌が悪い
が成り立っているとする.
また球団Hの勝率は現在のところ
- 球団Hは60%の確率で勝つ
- 球団Hは40%の確率で負ける
となっているとする.
まず事象を定義する
\begin{align} A&:\text{先生の機嫌が良い}& && A^{c}&:\text{先生の機嫌が悪い}\\ H&:\text{球団が勝つ}& && H^{c}&:\text{球団が負ける} \end{align}
条件を書き下す
\begin{align} P(A|H)&=0.9& && P(A^{c}|H)&=0.1\\ P(A^{c}|H^{c})&=0.7& && P(A|H^{c})&=0.3\\ P(H)&=0.6& && P(H^{c})&=0.4 \end{align}
A先生が機嫌が良いときに球団Hが勝った確率は?
\begin{align} P(H|A) &=\frac{P(A,H)}{P(A)}\\ &=\frac{P(A,H)}{P(A,H)+P(A,H^{c})}\\ &=\frac{P(A|H)P(H)}{P(A|H)P(H)+P(A|H^{c})P(H^{c})}\\ &=\frac{0.9\times 0.6}{0.9\times 0.6+0.3\times 0.4}\\ &=\frac{9}{11}\simeq 0.818 \end{align}
A先生が機嫌が悪いときに球団Hが負けた確率は?
\begin{align} P(H^{c}|A^{c}) &=\frac{P(A^{c},H^{c})}{P(A^{c})}\\ &=\frac{P(A^{c},H^{c})}{P(A^{c},H)+P(A^{c},H^{c})}\\ &=\frac{P(A^{c}|H^{c})P(H^{c})}{P(A^{c}|H)P(H)+P(A^{c}|H^{c})P(H^{c})}\\ &=\frac{0.7\times 0.4}{0.1\times 0.6+0.7\times 0.4}\\ &=\frac{14}{17}\simeq 0.824 \end{align}
\(d\) 次元ベクトル
\begin{equation} \boldsymbol{a} =\begin{pmatrix} a_1\\ a_2\\ \vdots\\ a_d \end{pmatrix} =(a_1,a_2,\dotsc,a_d)^{\mathsf{T}} \end{equation}
ベクトル \(\boldsymbol{a}\) による関数 \(f(\boldsymbol{a})\) の微分の定義
\begin{equation} \frac{\partial f}{\partial\boldsymbol{a}} = \left( \frac{\partial f}{\partial a_1}, \frac{\partial f}{\partial a_2}, \dotsc, \frac{\partial f}{\partial a_d} \right)^{\mathsf{T}} \end{equation}
問題
\(d\) 次元ベクトル \(\boldsymbol{a}\) と \(\boldsymbol{b}\) を用いて定義される関数 \(f(\boldsymbol{a})=\boldsymbol{b}^{\mathsf{T}}\boldsymbol{a}=\boldsymbol{a}^{\mathsf{T}}\boldsymbol{b}\) の \(\boldsymbol{a}\) による微分を求めよ.
解答例
各成分で考えると以下のように計算される.
\begin{equation} \frac{\partial f}{\partial a_i} =\frac{\partial}{\partial a_i} \left(a_1b_1+\dotsb+a_ib_i+\dotsb+a_db_d\right) =b_i. \end{equation}したがって
\begin{equation} \frac{\partial f}{\partial\boldsymbol{a}} = \left( b_{1}, b_{2}, \dotsc, b_{d} \right)^{\mathsf{T}} =\boldsymbol{b} \end{equation}となる.
注意
\begin{equation} \begin{aligned} \frac{\partial}{\partial\boldsymbol{a}}\left(\boldsymbol{a}^{\mathsf{T}}\boldsymbol{b}\right) &=\boldsymbol{b}\\ \frac{\partial}{\partial\boldsymbol{a}}\left(\boldsymbol{b}^{\mathsf{T}}\boldsymbol{a}\right) &=(\boldsymbol{b}^{\mathsf{T}})^{\mathsf{T}}=\boldsymbol{b} \end{aligned} \end{equation}というルールがあることがわかる.
\(d\times d\) 行列
\begin{equation} A = \begin{pmatrix} a_{11}&a_{12}&\dotsm&a_{1d}\\ a_{21}&a_{22}&\dotsm&a_{2d}\\ \vdots&&\ddots&\vdots\\ a_{d1}&a_{d2}&\dotsm&a_{dd} \end{pmatrix} \end{equation}
行列 \(A\) による関数 \(f(A)\) の微分の定義
\begin{equation} \frac{\partial f}{\partial A} = \begin{pmatrix} \frac{\partial f}{\partial a_{11}} &\frac{\partial f}{\partial a_{12}}&\dotsm &\frac{\partial f}{\partial a_{1d}}\\[3pt] \frac{\partial f}{\partial a_{21}} &\frac{\partial f}{\partial a_{22}}&\dotsm &\frac{\partial f}{\partial a_{2d}}\\[3pt] \vdots&&\ddots&\vdots\\ \frac{\partial f}{\partial a_{d1}} &\frac{\partial f}{\partial a_{d2}}&\dotsm &\frac{\partial f}{\partial a_{dd}} \end{pmatrix} \end{equation}
問題
行列 \(A\) と \(d\) 次元ベクトル \(\boldsymbol{b}\) を用いて定義される関数
\begin{equation} f(A)=\boldsymbol{b}^{\mathsf{T}}A\boldsymbol{b}=\sum_{i,j=1}^{d}b_ia_{ij}b_j \end{equation}の行列 \(A\) による微分を求めよ.
解答例
成分で考えると
\begin{equation} \frac{\partial f}{\partial a_{ij}} = \frac{\partial}{\partial a_{ij}}\sum_{i',j'=1}^{d}b_{i'}a_{i'j'}b_{j'} =b_ib_j \end{equation}となるので,
\begin{equation} % \frac{\partial f}{\partial A} \frac{\partial}{\partial A}\boldsymbol{b}^{\mathsf{T}}A\boldsymbol{b} = \begin{pmatrix} b_1b_1&b_1b_2&\dots&b_1b_d\\ b_2b_1&b_2b_2&\dots&b_2b_d\\ \vdots&&\ddots&\vdots\\ b_db_1&b_db_2&\dots&b_db_d \end{pmatrix} =\boldsymbol{b}\boldsymbol{b}^{\mathsf{T}} \end{equation}と書くことができる.
問題
\(d\times d\) 行列 \(A\) と \(B\) を用いて定義される関数
\begin{equation} f(A)=\mathrm{tr} AB=\sum_{i,j=1}^{d}a_{ij}b_{ji} \end{equation}の行列 \(A\) による微分を求めよ.
解答例
成分では
\begin{equation} \frac{\partial f}{\partial a_{ij}} =b_{ji} \end{equation}となるので,
\begin{equation} % \frac{\partial f}{\partial A} \frac{\partial}{\partial A}\mathrm{tr} AB = \begin{pmatrix} b_{11}&b_{21}&\dots&b_{d1}\\ b_{12}&b_{22}&\dots&b_{d2}\\ \vdots&&\ddots&\vdots\\ b_{1d}&b_{2d}&\dots&b_{dd} \end{pmatrix} =B^{\mathsf{T}} \end{equation}と書くことができる.
注意1
行列のトレースの性質
\begin{equation} \mathrm{tr} AB = \mathrm{tr} BA, \quad \mathrm{tr} AB = \mathrm{tr} (AB)^{\mathsf{T}} = \mathrm{tr} B^{\mathsf{T}}A^{\mathsf{T}} \end{equation}より
\begin{equation} \frac{\partial}{\partial A}\mathrm{tr} AB = \frac{\partial}{\partial A}\mathrm{tr} BA = \frac{\partial}{\partial A}\mathrm{tr} A^{\mathsf{T}}B^{\mathsf{T}} = \frac{\partial}{\partial A}\mathrm{tr} B^{\mathsf{T}}A^{\mathsf{T}} =B^{\mathsf{T}} \end{equation}となることが容易に確かめられる.
注意2
\begin{equation} \boldsymbol{b}^{\mathsf{T}}A\boldsymbol{b} =\mathrm{tr}\boldsymbol{b}^{\mathsf{T}}A\boldsymbol{b}=\mathrm{tr} A\boldsymbol{b}\boldsymbol{b}^{\mathsf{T}} \end{equation}となることから
\begin{equation} \frac{\partial}{\partial A}\boldsymbol{b}^{\mathsf{T}}A\boldsymbol{b} = \frac{\partial}{\partial A}\mathrm{tr} A\boldsymbol{b}\boldsymbol{b}^{\mathsf{T}} =\left(\boldsymbol{b}\boldsymbol{b}^{\mathsf{T}}\right)^{\mathsf{T}} =\boldsymbol{b}\boldsymbol{b}^{\mathsf{T}} \end{equation}となり,2つの例での計算結果が矛盾しないことが確かめられる.
行列(正方行列に限らない)のトレースに関して
が成り立つことを示せ
\(\mathrm{tr}AB\) より,行列 \(A,B\) の積は正方行列になることから, \(A\) が \(n\times m\) 行列とすれば, \(B\) は \(m\times n\) 行列となる. したがって
\begin{equation} \mathrm{tr}AB=\sum_{i=1}^{n}\sum_{j=1}^{m}a_{ij}b_{ji} \end{equation}
と書くことができる. 他の式も同様に書けることを確認すればよい.
微分における積の法則(Leibniz 則)を用いればよい.
\begin{align} \frac{\partial f(\boldsymbol{a})}{\partial\boldsymbol{a}} &= \frac{\partial}{\partial\boldsymbol{a}} \boldsymbol{a}^{\mathsf{T}}A\boldsymbol{b} \mid_{\boldsymbol{b}=\boldsymbol{a}} + \frac{\partial}{\partial\boldsymbol{a}} \boldsymbol{b}^{\mathsf{T}}A\boldsymbol{a} \mid_{\boldsymbol{b}=\boldsymbol{a}}\\ &= A\boldsymbol{a} + (\boldsymbol{a}^{\mathsf{T}}A)^{\mathsf{T}}\\ &=(A+A^{\mathsf{T}})\boldsymbol{a} \end{align}
行列 \(A\) の \((i,j)\) 成分に関する余因子を \(\Delta_{ij}\) とする. 行列式 \(|A|\) と逆行列 \(A^{-1}\) の \((i,j)\) 成分はそれぞれ
\begin{equation} |A|=\sum_{j=1}^{d}a_{ij}\Delta_{ij},\; \forall i \qquad (A^{-1})_{ij}=\frac{\Delta_{ji}}{|A|} \end{equation}
と書くことができる.したがって
\begin{equation} \frac{\partial|A|}{\partial A} =|A|(A^{-1})^{\mathsf{T}} \end{equation}
となる.