確率・統計 - 第7講
(Press ?
for help, n
and p
for next and previous slide)
村田 昇
確率
ある決まった確率法則のもとで, 確率変数がどのような性質を持つか論じる
統計
ある確率法則に従うと考えられる確率変数の実現値を観測して, それを生成する確率法則について何らかの推測を行う
区間 \([a,b]\) \((a\leq b)\) に \(X\) が含まれる確率
\begin{equation} P(a\leq X\leq b) \end{equation}
定義
“\(X_1\) が \(x_1\) という値をとり, \(X_2\) が \(x_2\) という値をとり, \(\dots\) , \(X_n\) が \(x_n\) という値をとる” という事象が起きる確率を 同時分布 という.
\begin{equation} P(X_1=x_1,X_2=x_2,\dots,X_n=x_n) \end{equation}
定義
\(n\) 個の確率変数 \(X_{1},X_{2},\dotsc,X_n\) が 独立 であるとは, \(a_i\leq b_i\) \((i=1,\dots,n)\) なる 任意の実数 \(a_{1},b_{1},\dots,a_n,b_n\) に対して
\begin{multline} P(a_{1}\leq X_{1}\leq b_{1},a_{2}\leq X_{2}\leq b_{2},\dots,a_n\leq X_n\leq b_n)\\ =P(a_{1}\leq X_{1}\leq b_{1})P(a_{2}\leq X_{2}\leq b_{2})\cdots P(a_n\leq X_n\leq b_n) \end{multline}が成り立つことをいう.
定義
\(n\) 個の確率変数 \(X_{1},X_{2},\dotsc,X_n\) が 同分布 であるとは, \(a\leq b\) なる任意の実数 \(a,b\) に対して
\begin{equation} P(a\leq X_{1}\leq b)=P(a\leq X_{2}\leq b)=\cdots=P(a\leq X_n\leq b) \end{equation}が成り立つことをいう.
定義
独立かつ同分布な確率変数列を 独立同分布 もしくは i.i.d. であるという.
独立性
\(X_1,X_2,\dotsc\) が 独立 であるとは, 任意の正整数 \(n\) に対して \(X_1,X_2,\dotsc,X_n\) が 独立であることをいう
同分布性
\(X_1,X_2,\dotsc\) が 同分布 であるとは, 任意の正整数 \(n\) に対して \(X_1,X_2,\dotsc,X_n\) が 同分布であることをいう
独立同分布性
\(X_1,X_2,\dotsc\) が 独立同分布 もしくは i.i.d. であるとは, \(X_1,X_2,\dotsc\) が独立かつ同分布であることをいう
直感的な意味
- 同一の法則に従って生成された集団から ランダムな 観測を多数繰り返すと, 観測値の標本平均は真の平均値に近づく
定理
\(X_1,X_2,\dotsc\) を独立同分布な確率変数列とし, その平均を \(\mu\) とする. このとき, \(X_1,\dotsc,X_n\) の標本平均
\begin{equation} \bar{X}_n = \frac{1}{n}\sum_{i=1}^nX_i \end{equation}が \(n\to\infty\) のとき \(\mu\) に収束する確率は1である.
大数の法則の主張
- 推定誤差 \(\bar{X}_n-\mu\) は \(n\) を大きくすると0に近づく
- どの程度の大きさになるのか定量的な評価は与えていない
推定誤差がある区間 \([\alpha,\beta]\) に入る確率で定量的に評価可能
\begin{equation} P(\alpha\leq \bar{X}_n-\mu\leq \beta) \end{equation}
定理 (いろいろな表現がある)
\(X_1,X_2,\dotsc\) を独立同分布な確率変数列とし, その平均を \(\mu\) 標準偏差を \(\sigma\) とする. このとき すべての実数 \(a < b\) に対して
\begin{equation} P\Bigl(a\leq\frac{\sqrt{n}(\bar{X}_n-\mu)}{\sigma}\leq b \Bigr) \to\frac{1}{\sqrt{2\pi}}\int_a^be^{-\frac{x^2}{2}}dx\quad (n\to\infty) \end{equation}が成り立つ.
観測データは独立同分布な確率変数列
\begin{equation} X_1,X_2,\dots,X_n \end{equation}
定義
統計では未知の母数を推定する方式を 推定量 (estimator) と呼び, 通常未知母数に \(\hat\cdot\) を付けて表す.
\begin{equation} \hat\theta=\hat\theta(X_{1},X_{2},\dotsc,X_{n}) \end{equation}
定義
実際に実験(試行)を行い \(X_{1}=x_{1},X_{2}=x_{2},\dotsc,X_{n}=x_{n}\) という観測値が得られたとき, これらの確率変数の実現値を上の推定量に代入して得られる
\begin{equation} \hat\theta=\hat\theta(x_{1},x_{2},\dotsc,x_{n}) \end{equation}を 推定値 (estimate) と呼び, 推定量と区別する.
加法的雑音モデル (最も単純な例)
同じ条件の元で繰り返し測定した実験データを考える. データには測定毎に誤差が生じるが, この偶然に変動するばらつきを確率的なものとして捉えることによって
\begin{equation} \begin{array}{c@{}c@{}c@{}c@{}cl} X_{i}&=&\theta&+&\varepsilon_{i},&i=1,\dotsc,n\\ \text{(確率変数)}&&\text{(未知母数)}&& \text{(誤差)} \end{array} \end{equation}という確率モデルを設定することができる.
母数推定
実験を何回か行なって得られる観測値 \(X_{1},X_{2},\dotsc,X_{n}\) を用いて 未知母数 \(\theta\) を推定する方法を考える.
仮定0
\(\varepsilon_{1},\dotsc,\varepsilon_{n}\) は ある同時確率分布に従う確率変数である.
仮定1 (独立性)
\(\varepsilon_{1},\dotsc,\varepsilon_{n}\) は 互いに独立に分布する.
仮定2 (同分布性)
\(\varepsilon_{1},\dotsc,\varepsilon_{n}\) は 同じ分布に従う.
仮定3 (誤差の不偏性)
\(\mathbb{E}[\varepsilon_{i}]=0,\ i=1,\dotsc,n\)
仮定4 (極限定理のための条件)
\(\mathbb{E}[\varepsilon_{i}^{2}]<\infty,\ i=1,\dotsc,n\)
推定量 : 例1
\begin{align} \hat\theta &=\frac{X_{1}+X_{2}+\dotsb+X_{n}}{n}\\ \end{align}
推定量 : 例2
\begin{align} \hat\theta &=\text{(\(X_{1},X_{2},\dotsc,X_{n}\)の中央の値)}\\ \end{align}
推定量 : 例3
\begin{align} \hat\theta &=\frac{1}{n-2m}\sum_{i=m+1}^{n-m}X_{(i)}\\ &(\text{\(\{X_{(i)}\}\) は \(\{X_{i}\}\) を小さい順に並べ換えたもの}) \end{align}
推定量 : 例4
\begin{align} \hat\theta &=c_{1}X_{1}+c_{2}X_{2}+\dotsb+c_{n}X_{n},\quad \sum_{i=1}^nc_{i}=1\\ \end{align}
推定量 : 例5
\begin{equation} \hat\theta =X_{n} \end{equation}
定義
推定量 \(\hat\theta\) が 不偏 (unbiased) であるとは, 真の母数が \(\theta\) であるときに, そこから得られた観測値に基づく推定量の平均値が真の母数 \(\theta\) に一致すること
\begin{equation} \mathbb{E}[\hat\theta] =\theta \end{equation}である.
標本分散
\begin{equation} \frac{\sum_{i=1}^n(X_{i}-\bar{X})^{2}}{n} \end{equation}
が分散の不偏推定量とならないことを確かめよ.
一般に不偏推定量も複数存在
例 : 平均の不偏推定量
- 標本平均 \(\bar{X}\)
- \(X_{n}\)
- \(X_1,\dots,X_n\) の中央値 (分布が対称な場合)
不偏推定量の良さを評価する基準が必要
\(\theta\) の任意の不偏推定量 \(\hat{\theta}'\) に対して推定値のばらつき(分散)が最も小さいものが良い.
\begin{equation} \mathrm{Var}(\hat{\theta})\le\mathrm{Var}(\hat{\theta}') \end{equation}
定理
\(\hat\theta_{1},\hat\theta_{2},\dotsc,\hat\theta_{k}\) がいずれも不偏推定量であり, その分散が等しく \(\sigma^{2}\) であるとする. このとき これらの不偏推定量の単純な平均を
\begin{equation} \hat\theta^{*}=\frac{1}{k}\sum_{i=1}^k\hat\theta_{i} \end{equation}とおけば 以下が成り立つ.
\begin{align} \mathbb{E}[\hat\theta^{*}]&=\theta &&\text{(不偏性が保存される)}\\ \mathrm{Var}(\hat\theta^{*})&\leq\sigma^{2} &&\text{(分散が小さくなる可能性がある)} \end{align}
平方和の展開は以下のとおり
\begin{align} &\sum_{i}(\hat\theta_{i}-\theta)^{2}\\ &=\sum_{i}(\hat\theta_{i}-\hat\theta^{*}+\hat\theta^{*}-\theta)^{2}\\ &=\sum_{i}(\hat\theta_{i}-\hat\theta^{*})^{2} +2\sum_{i}(\hat\theta_{i}-\hat\theta^{*})(\hat\theta^{*}-\theta) +\sum_{i}(\hat\theta^{*}-\theta)^{2}\\ &=\sum_{i}(\hat\theta_{i}-\hat\theta^{*})^{2} +k(\hat\theta^{*}-\theta)^{2} \end{align}途中 \(\hat\theta^{*}=\frac{1}{k}\sum_{i=1}^k\hat\theta_{i}\) より \(\sum_{i}(\hat\theta_{i}-\hat\theta^{*})=0\) を用いた.
両辺の平均を考える
\begin{align} \sum_{i}\mathbb{E}[(\hat\theta_{i}-\theta)^{2}] &=\sum_{i}\mathbb{E}[(\hat\theta_{i}-\hat\theta^{*})^{2}] +k\mathbb{E}[(\hat\theta^{*}-\theta)^{2}]\\ \sum_{i}\mathrm{Var}(\hat\theta_{i}) &=\sum_{i}\mathbb{E}[(\hat\theta_{i}-\hat\theta^{*})^{2}] +k\mathrm{Var}(\hat\theta^{*})\\ k\sigma^{2} &=\sum_{i}\mathbb{E}[(\hat\theta_{i}-\hat\theta^{*})^{2}] +k\mathrm{Var}(\hat\theta^{*}) \end{align}
以下の不等式が成立する
右辺の第1項は0または正でなので
\begin{equation} \sigma^{2}\ge \mathrm{Var}(\hat\theta^{*}) \end{equation}となり,分散が小さくなることがわかる.
定理
\(X_{1},X_{2},\dotsc,X_{n}\) が互いに独立に同じ分布に従い, \(\hat\theta=\hat\theta(X_{1},X_{2},\dotsc,X_{n})\) を母数 \(\theta\) の一つの不偏推定量とすると, \(X_{1},X_{2},\dotsc,X_{n}\) の対称な関数として表される 不偏推定量 \(\hat\theta^{*}\) で,つねに
\begin{equation} \mathrm{Var}(\hat\theta^{*})\le \mathrm{Var}(\hat\theta) \end{equation}となるものが存在する.
定理の意味
推定量 \(\hat\theta=\hat\theta(X_{1},X_{2},\dotsc,X_{n})\) が \(X_{1},X_{2},\dotsc,X_{n}\) について対称でない場合には, 対称化することによって性質を良くすることができる.
証明
\(\hat\theta\) を \(X_{1},X_{2},\dotsc,X_{n}\) について対称化,すなわち
\begin{equation} \hat\theta^{*}=\frac{1}{n!}\sum \hat\theta(\{\text{\(X_{1},X_{2},\dotsc,X_{n}\)のあらゆる並べ替え}\}) \end{equation}を考え,前定理を使えばよい.