大数の法則・中心極限定理・少数の法則
(Press ?
for help, n
and p
for next and previous slide)
村田 昇
2020.05.29
確率変数 \(X\) が区間 \([a,b]\) \((a\leq b)\) に含まれる確率
(特に \(a=b\) のとき \(P(X=a)\) と書く)
平均 もしくは 期待値
分散 (\(=\text{標準偏差}^{2}\))
問題
確率変数 \(X\) は 偶数の出る確率が奇数の2倍のサイコロの目を表すとする.
\begin{align*} &P(X=1)=P(X=3)=P(X=5)=1/9\\ &P(X=2)=P(X=4)=P(X=6)=2/9 \end{align*}このとき \(X\) の平均と分散を求めよ.
解答 (計算例)
\(X\) の平均は
\begin{equation} \mathbb{E}[X]=\sum_{x=1}^6xP(X=x) ={11}/{3}=3.6666\dots \end{equation}\(X\) の分散は
\begin{align} \mathbb{E}[X^2]&=\sum_{x=1}^6x^2P(X=x)={49}/{3}\\ \mathrm{Var}(X)&={49}/{3}-{121}/{9}={26}/{9}=2.88\dots \end{align}
解答 (Rでの計算例)
p <- rep(c(1/9,2/9),3) # 確率の値 (1/9 と 2/9 を交互に3回繰り返す)
x <- 1:6 # サイコロの目の値
(mu <- sum(x*p)) # 平均値の計算
(var <- sum((x-mu)^2*p)) # 分散の計算
sqrt(var) # 標準偏差
[1] 3.666667 [1] 2.888889 [1] 1.699673
定義
“\(X_1\) が \(x_1\) という値をとり, \(X_2\) が \(x_2\) という値をとり, \(\dots\) , \(X_n\) が \(x_n\) という値をとる” という事象が起きる確率を 同時分布 という
\begin{equation} P(X_1=x_1,X_2=x_2,\dots,X_n=x_n) \end{equation}
定義
確率変数列 \(X_1,X_2,\dotsc,X_n\) が 独立 であるとは, 任意の \(n\) 個の実数 \(x_1,x_2,\dotsc,x_n\) に対して
\begin{multline} P(X_1=x_1,X_2=x_2,\dotsc,X_n=x_n)\\ =P(X_1=x_1)\cdot P(X_2=x_2)\cdots P(X_n=x_n) \end{multline}が成り立つことをいう
定義
確率変数列 \(X_1,X_2,\dotsc,X_n\) が 同分布 であるとは, 任意の実数 \(x\) に対して
\begin{equation} P(X_1=x)=P(X_2=x)=\cdots=P(X_n=x) \end{equation}が成り立つことをいう
定義
独立かつ同分布な確率変数列を 独立同分布 もしくは i.i.d. であるという
(i.i.d. はindependent and identically distributedの略)
独立性
\(X_1,X_2,\dotsc\) が 独立 であるとは, 任意の正整数 \(n\) に対して \(X_1,X_2,\dotsc,X_n\) が 独立であることをいう
同分布性
\(X_1,X_2,\dotsc\) が 同分布 であるとは, 任意の正整数 \(n\) に対して \(X_1,X_2,\dotsc,X_n\) が 同分布であることをいう
独立同分布性
\(X_1,X_2,\dotsc\) が 独立同分布 もしくは i.i.d. であるとは, \(X_1,X_2,\dotsc\) が独立かつ同分布であることをいう
定理
\(X_1,X_2,\dotsc\) を独立同分布な確率変数列とし, その平均を \(\mu\) とする. このとき, \(X_1,\dotsc,X_n\) の標本平均
\begin{equation} \bar{X}_n := \frac{1}{n}\sum_{i=1}^nX_i \end{equation}が \(n\to\infty\) のとき \(\mu\) に収束する確率は1である.
これを “\(\bar{X}_{n}\) は \(n\to\infty\) のとき \(\mu\) に 概収束 する” という.
真の平均と標本平均を比較する
標本平均は観測データに依存するので, 統計的な性質を見るには繰り返し実験(Monte-Carlo法)を行う
推定誤差がある区間 \([\alpha,\beta]\) に入る確率で定量的に評価可能
定理
\(X_1,X_2,\dotsc\) を独立同分布な確率変数列とし, その平均を \(\mu\) ,標準偏差を \(\sigma\) とする. このとき,すべての実数 \(a < b\) に対して
\begin{equation} P\Bigl(a\leq\frac{\sqrt{n}(\bar{X}_n-\mu)}{\sigma}\leq b \Bigr) \to\frac{1}{\sqrt{2\pi}}\int_a^be^{-\frac{x^2}{2}}dx\quad (n\to\infty) \end{equation}が成り立つ.
\(X_i\) の分布が何であっても, サンプル数 \(n\) が十分大きければ, 標本平均と真の平均の差 \(\bar{X}_n-\mu\) の分布は, 標準正規分布
で近似できる
hist()
で freq=FALSE
に指定するdnorm()
で計算する定理
\(X_1,X_2,\dotsc,X_n\) を独立な確率変数列とし, 各 \(i=1,2,\dotsc,n\) について \(X_i\) は確率 \(p_{n,i}\) で 1 を, 確率 \(1-p_{n,i}\) で 0 をとるとする:
\begin{align} &P(X_i=1)=p_{n,i},\\ &P(X_i=0)=1-p_{n,i}\quad (i=1,2,\dots,n). \end{align}
このとき ある正の実数 \(\lambda\) が存在して, \(n\to\infty\) のとき
\begin{equation} \max_{i=1,2,\dots,n}p_{n,i}\to0,\quad \sum_{i=1}^np_{n,i}\to\lambda \end{equation}ならば,任意の整数 \(k\geq0\) に対して以下が成り立つ:
\begin{equation} P\Bigl(\sum_{i=1}^nX_i=k\Bigr) \to e^{-\lambda}\frac{\lambda^k}{k!} \quad(n\to\infty). \end{equation}
確率変数の取りうる値が0以上の整数全体で, 値が整数 \(k\geq0\) となる確率が
で与えられるものを, 強度 \(\lambda\) の Poisson型確率変数 , その確率法則を強度 \(\lambda\) のPoisson分布と呼ぶ
dpois()
で計算できる定理
\(X_1,X_2,\dotsc\) を独立同分布な確率変数列とし, その平均を \(\mu\) ,標準偏差を \(\sigma\) とする. このとき
\begin{align} &\limsup_{n\to\infty} \frac{\sqrt{n}(\bar{X}_{n}-\mu)} {\sqrt{2\sigma^2\log\log n}} =1\quad\text{a.s.},\\ &\liminf_{n\to\infty} \frac{\sqrt{n}(\bar{X}_{n}-\mu)} {\sqrt{2\sigma^2\log\log n}} =-1\quad\text{a.s.} \end{align}が成り立つ.
定理
前定理の条件のもと,列
\begin{equation} \Bigl(\frac{\sqrt{n}(\bar{X}_{n}-\mu)} {\sqrt{2\sigma^2\log\log n}}\Bigr)_{n=3}^\infty \end{equation}のある部分列の収束先となるような実数全体の集合を \(C\) とすると, \(C\) が閉区間 \([-1,1]\) に一致する確率は1である.