確率・統計 - 第9講
(Press ?
for help, n
and p
for next and previous slide)
村田 昇
定義
点推定とは 母数(パラメタ) \(\theta\) を \(X_1,\dotsc,X_n\) の関数
\begin{equation} \hat{\theta}=\hat{\theta}(X_1,\dots,X_n) \end{equation}で推定することで, \(\hat{\theta}\) を \(\theta\) の推定量と呼ぶ.
定理
1次元母数 \(\theta\) を含む連続分布を考え, その確率密度関数 \(f_\theta(x)\) は \(\theta\) に関して 偏微分可能であるとする. このとき,緩やかな仮定の下で, \(\theta\) の任意の不偏推定量 \(\hat{\theta}\) に対して 以下の不等式が成り立つ.
\begin{equation} \mathrm{Var}(\hat{\theta})\ge \frac{1}{nI(\theta)}, \end{equation}\begin{equation} I(\theta)=\int_{-\infty}^\infty \left(\frac{\partial}{\partial\theta}\log f_\theta(x)\right)^2 f_\theta(x)dx. \end{equation}
定理 (Cramer-Raoの不等式の系)
\(\theta\) の不偏推定量 \(\hat{\theta}\) で 分散が Cramer-Rao 下界に一致するものが存在すれば, 一様最小分散不偏推定量となる.
“誤差 \(\hat{\theta}-\theta\) が
区間 \([l,u]\) の内側にある確率が \(1{-}\alpha\) 以上 ”
(“外側にある確率が \(\alpha\) 以下”)
\begin{equation} P(l\le\hat{\theta}-\theta\le u)\ge 1{-}\alpha \end{equation}
定義
区間推定とは 未知母数 \(\theta\) とある値 \(\alpha\in(0,1)\) に対して 以下を満たす確率変数 \(L,U\) を観測データから求めることをいう.
\begin{equation} P(L\le\theta\le U)\ge 1{-}\alpha \end{equation}
加法的雑音モデル
\begin{equation} \begin{array}{c@{}c@{}c@{}c@{}cl} X_{i}&=&\theta&+&\varepsilon_{i},&i=1,\dotsc,n\\ \text{(確率変数)}&&\text{(未知母数)}&& \text{(誤差)} \end{array} \end{equation}
以下の仮定を加える
- \(\varepsilon_{1},\dotsc,\varepsilon_{n}\) は平均0,分散 \(\sigma^{2}\) の正規分布に従う.
観測値の分布
このとき \(X\) は平均 \(\theta\) ,分散 \(\sigma^{2}\) の 正規分布に従う.
平均母数 \(\theta\) に関するFisher情報量 :
信頼区間の構成
\(z_{1{-}\alpha/2}\) を標準正規分布の \(1{-}\alpha/2\) 分位点とすれば
\begin{equation} P\Bigl(-z_{1{-}\alpha/2}\le\frac{\sqrt{n}(\bar{X}-\mu)}{\sigma} \le z_{1{-}\alpha/2}\Bigr)=1{-}\alpha \end{equation}となるので, \(\sigma\) が既知の場合の平均 \(\mu\) の \(1{-}\alpha\) 信頼区間は 以下で構成される.
\begin{equation} \left[\bar{X}-z_{1{-}\alpha/2}\cdot\frac{\sigma}{\sqrt{n}},\; \bar{X}+z_{1{-}\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}\right] \end{equation}
信頼区間の構成
\(t_{1{-}\alpha/2}(n{-}1)\) を自由度 \(n{-}1\) の \(t\) 分布の \(1{-}\alpha/2\) 分位点とすれば
\begin{equation} P\left(-t_{1{-}\alpha/2}(n{-}1)\le\frac{\sqrt{n}(\bar{X}-\mu)}{s} \le t_{1{-}\alpha/2}(n{-}1)\right)=1{-}\alpha \end{equation}となるので, 分散が未知の場合の平均 \(\mu\) の \(1{-}\alpha\) 信頼区間は 以下で構成される.
\begin{equation} \left[\bar{X}-t_{1{-}\alpha/2}(n{-}1)\cdot\frac{s}{\sqrt{n}},\; \bar{X}+t_{1{-}\alpha/2}(n{-}1)\cdot\frac{s}{\sqrt{n}}\right] \end{equation}
独立な確率変数の同時確率 :
\begin{align} & P(X_1=x_1,X_2=x_2,\dots,X_n=x_n) =\prod_{i=1}^nP(X_i=x_i)\\ &= \prod_{i=1}^nf_{\boldsymbol{\theta}}(x_i) =f_{\boldsymbol{\theta}}(x_1)\cdot f_{\boldsymbol{\theta}}(x_2)\cdots f_{\boldsymbol{\theta}}(x_n) \end{align}
定義
母数 \(\boldsymbol{\theta}\) に対して 観測データ \(X_1,X_2,\dots,X_n\) が得られる理論上の確率
\begin{equation} L(\boldsymbol{\theta}) =\prod_{i=1}^nf_{\boldsymbol{\theta}}(X_i) \end{equation}を \(\boldsymbol{\theta}\) の 尤度 と言い, \(\boldsymbol{\theta}\) の関数 \(L\) を 尤度関数 と呼ぶ.
尤度関数
\begin{equation} L(\boldsymbol{\theta}) =\prod_{i=1}^nf_{\boldsymbol{\theta}}(x_i) =f_{\boldsymbol{\theta}}(x_1)\cdot f_{\boldsymbol{\theta}}(x_2)\cdots f_{\boldsymbol{\theta}}(x_n) \end{equation}
最尤法
観測データに対して「最も尤もらしい」母数の値 を \(\boldsymbol{\theta}\) の推定量として採用する方法 を 最尤法 という.
最尤推定量
\(\Theta\) を尤度関数の定義域として, 尤度関数を最大とする \(\hat{\boldsymbol{\theta}}\)
\begin{equation} L(\hat{\boldsymbol{\theta}}) =\max_{\boldsymbol{\theta}\in\Theta}L(\boldsymbol{\theta}). \end{equation}\begin{equation} \hat{\boldsymbol{\theta}} =\arg\max_{\boldsymbol{\theta}\in\Theta}L(\boldsymbol{\theta}). \end{equation}を \(\boldsymbol{\theta}\) の 最尤推定量 という.
対数尤度関数 :
\begin{equation} \ell(\boldsymbol{\theta}) =\log L(\boldsymbol{\theta}) =\sum_{i=1}^n\log f_{\boldsymbol{\theta}}(X_i). \end{equation}
\(\lambda>0\) の Poisson 分布 (確率質量関数)
\begin{equation} f(x) = \frac{\lambda^{x}}{x!}e^{-\lambda} \quad (x\text{は0以上の整数}) \end{equation}
\(\lambda>0\) の指数分布 (確率密度関数)
\begin{equation} f(x) = \lambda e^{-\lambda x} \quad (x>0) \end{equation}
定理
全ての \(x\) に対して \(f(x)>0\) で \(f\) が連続ならば,最尤推定量 \(\hat\theta^*\) は 一致推定量になる. すなわち, 真の母数の値が \(\theta_0\) のとき, 任意の \(\varepsilon>0\) に対して
\begin{equation} P\left(|\hat\theta^*-\theta_0|<\varepsilon\right) \to1\quad(n\to\infty) \end{equation}が成り立つ.
対数尤度の大数の法則
\begin{equation} \frac{1}{n}\log L(\theta) \rightarrow^{n\to\infty} \mathbb{E}_{\theta_0}[\log f(X,\theta)] \end{equation}
対数密度・質量の性質
\begin{equation} \mathbb{E}_{\theta_0}[\log f(X,\theta)] \le \mathbb{E}_{\theta_0}[\log f(X,\theta_{0})] \end{equation}
情報理論のエントロピー (平均符号長) とも関係
\begin{equation} \mathbb{E}_{\theta_0}[-\log f(X,\theta)] \ge \mathbb{E}_{\theta_0}[-\log f(X,\theta_{0})] \end{equation}
対数尤度の性質
\(n\) が十分大きければ
\begin{equation} \frac{1}{n}\log L(\theta) \le \frac{1}{n}\log L(\theta_{0}) \end{equation}がほぼ確実に成り立つ
定理
\(f(x)>0\) が連続で2階微分可能ならば \(\sqrt{n}(\hat\theta^*-\theta_0)\) は \(n\to\infty\) で正規分布 \(\mathcal{N}(0,I(\theta_0)^{-1})\) に近づく.
真の母数の性質
\begin{equation} \mathbb{E}_{\theta_0}\left[ \frac{\partial}{\partial\theta}\log f(X,\theta_0)\right] =0 \end{equation}
Fisher 情報量 (以下が等しいことは講義資料を参照)
\begin{align} I(\theta_0) &=\mathbb{E}_{\theta_0} \left[ -\frac{\partial^2}{\partial\theta^2}\log f(X,\theta_0) \right] \\ &=\mathbb{E}_{\theta_0}\left[\left( \frac{\partial}{\partial\theta}\log f(X,\theta_0)\right)^2\right] \end{align}
最大値の性質
\begin{equation} L(\hat\theta^*)=\max_{\theta\in\Theta}L(\theta) \end{equation}\begin{equation} \ell(\hat\theta^*)=\max_{\theta\in\Theta}\ell(\theta) \end{equation}\begin{equation} \frac{\partial}{\partial\theta}\ell(\hat\theta^*) =\sum_{i=1}^n\frac{\partial}{\partial\theta}\log f(X_i,\hat\theta^*) =0 \end{equation}
Taylor 展開による近似
\begin{equation} \sum_{i=1}^n\frac{\partial}{\partial\theta}\log f(X_i,\theta_0) +(\hat\theta^*-\theta_0) \sum_{i=1}^n\frac{\partial^2}{\partial\theta^2}\log f(X_i,\tilde\theta) =0 \end{equation}
誤差の近似
\begin{align} \sqrt{n}(\hat\theta^*-\theta_0) \left\{-\frac{1}{n}\sum_{i=1}^n \frac{\partial^2}{\partial\theta^2}\log f(X_i,\tilde\theta) \right\}\qquad&\\ = \frac{1}{\sqrt{n}}\sum_{i=1}^n \frac{\partial}{\partial\theta}\log f(X_i,\theta_0)& \end{align}
左辺
\(n\) が大きくなると \(\tilde\theta\to\theta_0\) となり,大数の法則により以下が成り立つ.
\begin{align} &-\frac{1}{n}\sum_{i=1}^n \frac{\partial^2}{\partial\theta^2}\log f(X_i,\tilde\theta)\\ &\qquad\to \mathbb{E}_{\theta_0}\left[ -\frac{\partial^2}{\partial\theta^2}\log f(X_i,\theta_0)\right] =I(\theta_0) \end{align}
右辺
\(n\to\infty\) のとき中心極限定理により右辺
\begin{align} &\frac{1}{\sqrt{n}}\sum_{i=1}^n \frac{\partial}{\partial\theta}\log f(X_i,\theta_0)\\ &= \sqrt{n}\times \frac{1}{n}\sum_{i=1}^n \frac{\partial}{\partial\theta}\log f(X_i,\theta_0)\\ &= \sqrt{n}\times \left(\frac{\partial}{\partial\theta}\log f(X,\theta_0) \text{の標本平均}\right) \end{align}は 平均 \(0\) 分散 \(I(\theta_0)\) の正規分布 \(\mathcal{N}(0,I(\theta_0))\) に近づく.
両辺を整理
\(n\to\infty\) のとき
\begin{equation} \sqrt{n}I(\theta_0)(\hat\theta^*-\theta_0) \sim \mathcal{N}(0,I(\theta_0))\quad(n\to\infty) \end{equation}であるので
\begin{align} \sqrt{n}(\hat\theta^*-\theta_0) \sim &\mathcal{N}\left(0,I(\theta_0)^{-1}I(\theta_0)I(\theta_0)^{-1}\right)\\ &= \mathcal{N}\left(0,I(\theta_0)^{-1}\right) \end{align}となる.
漸近正規性
多くの推定量 \(\hat{\theta}\) の分布は正規分布で近似できる
推定量の分布
観測データ数 \(n\) が十分大きいとき, 母数 \(\theta\) の推定量 \(\hat\theta\) が
\begin{equation} \mathbb{E}[\hat\theta]=\theta_{0},\quad \mathrm{Var}(\hat\theta)=s^{2} \end{equation}の正規分布で近似できるとする.
信頼区間の構成
母数 \(\theta\) の \(1{-}\alpha\) 信頼区間は以下で構成される.
\begin{equation} \left[\hat{\theta}-z_{1{-}\alpha/2}\cdot s,\; \hat{\theta}+z_{1{-}\alpha/2}\cdot s \right] \end{equation}
定理 (標本平均の漸近正規性)
確率分布が2次のモーメントを持てば, 分布の平均 \(\mu\) の推定量である標本平均
\begin{equation} \bar{X}=\frac{1}{n}\sum_{i=1}^nX_i \end{equation}は漸近正規性をもつ. 確率変数 \(X\) の標準偏差の一致推定量を \(\hat\sigma\) とすれば, \(\phi\) を標準正規分布の確率密度関数として, 任意の \(a\le b\) に対して以下が成立する.
\begin{equation} P\left(a\le\frac{\sqrt{n}(\bar{X}-\mu)}{\hat\sigma} \le b\right)\to\int_a^b\phi(x)dx\quad(n\to\infty) \end{equation}
\(\sigma\) の一致推定量
例えば不偏分散
\begin{equation} \hat{\sigma}^{2}=\frac{1}{n{-}1}\sum_{i=1}^n(X_i-\bar{X})^2 \end{equation}の平方根を用いれば良い.
推定量の分散
\begin{equation} \mathrm{Var}(\bar{X}) =\frac{\sigma^{2}}{n} \simeq \frac{\hat{\sigma}^{2}}{n} \end{equation}
信頼区間の構成
平均 \(\mu\) の \(1{-}\alpha\) 信頼区間は以下で構成される.
\begin{equation} \left[\bar{X}-z_{1{-}\alpha/2}\cdot\frac{\hat{\sigma}}{\sqrt{n}},\; \bar{X}+z_{1{-}\alpha/2}\cdot\frac{\hat{\sigma}}{\sqrt{n}}\right] \end{equation}
定理 (最尤推定量の漸近正規性)
観測データ数 \(n\) が十分大きいとき, 1次元母数 \(\theta\) を含む連続分布の最尤推定量 \(\hat\theta\) は
\begin{equation} \mathbb{E}[\hat\theta]=\theta_{0},\quad \mathrm{Var}(\hat\theta)=\frac{1}{nI(\hat\theta)} \end{equation}の正規分布で近似できる.
信頼区間の構成
母数 \(\theta\) の \(1{-}\alpha\) 信頼区間は以下で構成される.
\begin{equation} \left[\hat{\theta}-z_{1{-}\alpha/2}\cdot\frac{1}{\sqrt{nI(\hat\theta)}},\; \hat{\theta}+z_{1{-}\alpha/2}\cdot\frac{1}{\sqrt{nI(\hat\theta)}}\right] \end{equation}
ヒント: 以下のような確率変数を考えるとよい.
\begin{equation} X= \begin{cases} 1, &\text{投票に行った}\\ 0, &\text{行かなかった} \end{cases} \end{equation}