母数推定

確率・統計 - 第7講

(Press ? for help, n and p for next and previous slide)

村田 昇

統計的推測

統計的推測の考え方

  • 確率

    ある決まった確率法則のもとで, 確率変数がどのような性質を持つか論じる

  • 統計

    ある確率法則に従うと考えられる確率変数の実現値を観測して, それを生成する確率法則について何らかの推測を行う

確率変数と確率分布

  • 確率変数 \(X\)
    • 値がランダムに決定される変数
    • 任意の区間 \([a,b]\) に含まれる確率が定められている
  • 確率分布 \(P\) (または単に分布)
    • 区間 \([a,b]\) \((a\leq b)\) に \(X\) が含まれる確率

      \begin{equation} P(a\leq X\leq b) \end{equation}
    • 「確率変数 \(X\) は確率分布 \(P\) に従う」という
    • 現象の理解のためには実現値より確率分布にこそ興味がある

同時分布

  • 観測データは確率変数の集合
  • 確率変数列 \(X_1,X_2,\dotsc,X_n\) に対する考察が重要
  • 定義

    “\(X_1\) が \(x_1\) という値をとり, \(X_2\) が \(x_2\) という値をとり, \(\dots\) , \(X_n\) が \(x_n\) という値をとる” という事象が起きる確率を 同時分布 という.

    \begin{equation} P(X_1=x_1,X_2=x_2,\dots,X_n=x_n) \end{equation}

独立性

  • 無関係にサンプリングされた観測データの性質
  • 定義

    \(n\) 個の確率変数 \(X_{1},X_{2},\dotsc,X_n\) が 独立 であるとは, \(a_i\leq b_i\) \((i=1,\dots,n)\) なる 任意の実数 \(a_{1},b_{1},\dots,a_n,b_n\) に対して

    \begin{multline} P(a_{1}\leq X_{1}\leq b_{1},a_{2}\leq X_{2}\leq b_{2},\dots,a_n\leq X_n\leq b_n)\\ =P(a_{1}\leq X_{1}\leq b_{1})P(a_{2}\leq X_{2}\leq b_{2})\cdots P(a_n\leq X_n\leq b_n) \end{multline}

    が成り立つことをいう.

同分布性

  • 同一の法則に従って生成された観測データの性質
  • 定義

    \(n\) 個の確率変数 \(X_{1},X_{2},\dotsc,X_n\) が 同分布 であるとは, \(a\leq b\) なる任意の実数 \(a,b\) に対して

    \begin{equation} P(a\leq X_{1}\leq b)=P(a\leq X_{2}\leq b)=\cdots=P(a\leq X_n\leq b) \end{equation}

    が成り立つことをいう.

独立同分布性

  • 一般に分析対象のデータには 独立性同分布性 が同時に仮定される
  • 定義

    独立かつ同分布な確率変数列を 独立同分布 もしくは i.i.d. であるという.

    • i.i.d. は independent and identically distributed の略

極限定理

極限定理

  • 大数の法則, 中心極限定理など
  • 緩やかな条件のもとで確率変数の列について成立する法則
    • 大数の法則は平均が存在すれば成立する
    • 2次のモーメントをもたない(計算できない)場合には 中心極限定理は成立しない

無限列の独立性と同分布性

  • 無限列に対しては任意の部分列について考える
  • 独立性

    \(X_1,X_2,\dotsc\) が 独立 であるとは, 任意の正整数 \(n\) に対して \(X_1,X_2,\dotsc,X_n\) が 独立であることをいう

  • 同分布性

    \(X_1,X_2,\dotsc\) が 同分布 であるとは, 任意の正整数 \(n\) に対して \(X_1,X_2,\dotsc,X_n\) が 同分布であることをいう

  • 独立同分布性

    \(X_1,X_2,\dotsc\) が 独立同分布 もしくは i.i.d. であるとは, \(X_1,X_2,\dotsc\) が独立かつ同分布であることをいう

大数の法則の概要

  • 直感的な意味

    • 同一の法則に従って生成された集団から ランダムな 観測を多数繰り返すと, 観測値の標本平均は真の平均値に近づく
  • 具体的な例
    • 歪みの無いコインの表が出た回数の割合
    • 視聴率の調査
  • この法則を数学的に定式化した定理が 大数の法則

大数の法則

  • 定理

    \(X_1,X_2,\dotsc\) を独立同分布な確率変数列とし, その平均を \(\mu\) とする. このとき, \(X_1,\dotsc,X_n\) の標本平均

    \begin{equation} \bar{X}_n = \frac{1}{n}\sum_{i=1}^nX_i \end{equation}

    が \(n\to\infty\) のとき \(\mu\) に収束する確率は1である.

中心極限定理の概要

  • 大数の法則の主張

    • 推定誤差 \(\bar{X}_n-\mu\) は \(n\) を大きくすると0に近づく
    • どの程度の大きさになるのか定量的な評価は与えていない
  • 誤差の評価の定量化
    • 推定誤差がある区間 \([\alpha,\beta]\) に入る確率で定量的に評価可能

      \begin{equation} P(\alpha\leq \bar{X}_n-\mu\leq \beta) \end{equation}
    • 上式の正確な計算は一般には困難
  • サンプル数が大きい場合の定量的な評価の近似方法を述べたのが 中心極限定理

中心極限定理

  • 定理 (いろいろな表現がある)

    \(X_1,X_2,\dotsc\) を独立同分布な確率変数列とし, その平均を \(\mu\) 標準偏差を \(\sigma\) とする. このとき すべての実数 \(a < b\) に対して

    \begin{equation} P\Bigl(a\leq\frac{\sqrt{n}(\bar{X}_n-\mu)}{\sigma}\leq b \Bigr) \to\frac{1}{\sqrt{2\pi}}\int_a^be^{-\frac{x^2}{2}}dx\quad (n\to\infty) \end{equation}

    が成り立つ.

推定量と推定値

推定の標準的な枠組

  • 観測データを確率変数の実現値と考えてモデル化
  • 観測データは独立同分布な確率変数列

    \begin{equation} X_1,X_2,\dots,X_n \end{equation}
  • \(X_i\) の従う共通の法則 \(\mathcal{P}\) を想定
    • \(\mathcal{P}\) として全ての分布を考察対象とすることは困難
      • 対象とする範囲が広くなりすぎる
      • データ数 \(n\) が大きくないと意味のある結論を導き出せない
    • 確率分布 \(\mathcal{P}\) を特徴づける 母数 (パラメタ) \(\theta\) を考察対象
      • \(\mathcal{P}\) の平均・分散・歪度・尖度など
      • \(\mathcal{P}\) の確率質量関数・確率密度関数の母数

推定量

  • 定義

    統計では未知の母数を推定する方式を 推定量 (estimator) と呼び, 通常未知母数に \(\hat\cdot\) を付けて表す.

    \begin{equation} \hat\theta=\hat\theta(X_{1},X_{2},\dotsc,X_{n}) \end{equation}
    • 推定量は \(n\) 個の確率変数 \(X_{1},X_{2},\dotsc,X_{n}\) を観測し, それらを用いて未知母数を推定する計算方法を表わす
    • 推定量は確率変数 \(X_{1},X_{2},\dotsc,X_{n}\) の関数であるので,それ自体確率変数である

推定値

  • 定義

    実際に実験(試行)を行い \(X_{1}=x_{1},X_{2}=x_{2},\dotsc,X_{n}=x_{n}\) という観測値が得られたとき, これらの確率変数の実現値を上の推定量に代入して得られる

    \begin{equation} \hat\theta=\hat\theta(x_{1},x_{2},\dotsc,x_{n}) \end{equation}

    推定値 (estimate) と呼び, 推定量と区別する.

    • 推定値は確率変数の実現値であり, 確率変数ではなく固定の値である

確率モデルと推定量

観測値の生成モデル

  • 加法的雑音モデル (最も単純な例)

    同じ条件の元で繰り返し測定した実験データを考える. データには測定毎に誤差が生じるが, この偶然に変動するばらつきを確率的なものとして捉えることによって

    \begin{equation} \begin{array}{c@{}c@{}c@{}c@{}cl} X_{i}&=&\theta&+&\varepsilon_{i},&i=1,\dotsc,n\\ \text{(確率変数)}&&\text{(未知母数)}&& \text{(誤差)} \end{array} \end{equation}

    という確率モデルを設定することができる.

  • 母数推定

    実験を何回か行なって得られる観測値 \(X_{1},X_{2},\dotsc,X_{n}\) を用いて 未知母数 \(\theta\) を推定する方法を考える.

誤差の性質の仮定

  • 仮定0

    \(\varepsilon_{1},\dotsc,\varepsilon_{n}\) は ある同時確率分布に従う確率変数である.

    • 誤差自体が確率変数であるという確率モデルの前提条件
  • 仮定1 (独立性)

    \(\varepsilon_{1},\dotsc,\varepsilon_{n}\) は 互いに独立に分布する.

    • 実験が十分注意深く行われていることを前提とした仮定
  • 仮定2 (同分布性)

    \(\varepsilon_{1},\dotsc,\varepsilon_{n}\) は 同じ分布に従う.

    • 各回の実験が完全に同じ条件で行われることを仮定
    • 仮定1,2をあわせて独立同分布 (i.i.d.) であると言う
  • 仮定3 (誤差の不偏性)

    \(\mathbb{E}[\varepsilon_{i}]=0,\ i=1,\dotsc,n\)

    • 観測に偏りがないことを仮定
    • 偏りがあったとしてもデータからは知ることができない
  • 仮定4 (極限定理のための条件)

    \(\mathbb{E}[\varepsilon_{i}^{2}]<\infty,\ i=1,\dotsc,n\)

    • 大数の法則や中心極限定理を使ってデータの性質を調べる際に必要な仮定
    • 実験データでは測定値が発散する状況は考えないので不合理な制約ではない

推定量の例

  • 推定量 : 例1

    \begin{align} \hat\theta &=\frac{X_{1}+X_{2}+\dotsb+X_{n}}{n}\\ \end{align}
    • 確率変数の算術平均で 標本平均 (sample mean) と呼ばれる
    • 誤差に偏りがないのであれば 直感的にも \(\theta\) に非常に近い値になるであろうことが予想される
  • 推定量 : 例2

    \begin{align} \hat\theta &=\text{(\(X_{1},X_{2},\dotsc,X_{n}\)の中央の値)}\\ \end{align}
    • 中央値 (median) と呼ばれる
    • 誤差が正の側と負の側に均等に出るのであれば \(\theta\) をうまく近似することが予想される
  • 推定量 : 例3

    \begin{align} \hat\theta &=\frac{1}{n-2m}\sum_{i=m+1}^{n-m}X_{(i)}\\ &(\text{\(\{X_{(i)}\}\) は \(\{X_{i}\}\) を小さい順に並べ換えたもの}) \end{align}
    • トリム平均 (trimmed mean) と呼ばれる
    • \(X_{1},X_{2},\dotsc,X_{n}\) を小さい順に並べて 小さい方の \(m\) 個と大きい方の \(m\) 個を捨てた算術平均
    • 極端に大きな,あるいは小さな値として現れる 観測値(外れ値)を捨てることによって 特異的な値による影響を取り除いて平均を推定する
  • 推定量 : 例4

    \begin{align} \hat\theta &=c_{1}X_{1}+c_{2}X_{2}+\dotsb+c_{n}X_{n},\quad \sum_{i=1}^nc_{i}=1\\ \end{align}
    • 各観測の重みを変えて平均を取った加重平均
  • 推定量 : 例5

    \begin{equation} \hat\theta =X_{n} \end{equation}
    • 最後のデータのみ使った推定量

推定量の良さ

不偏性

  • 定義

    推定量 \(\hat\theta\) が 不偏 (unbiased) であるとは, 真の母数が \(\theta\) であるときに, そこから得られた観測値に基づく推定量の平均値が真の母数 \(\theta\) に一致すること

    \begin{equation} \mathbb{E}[\hat\theta] =\theta \end{equation}

    である.

演習

練習問題

  • 標本平均,荷重平均,最後のデータのみ使った推定量 が平均の不偏推定量になることを確かめよ.
  • 標本分散

    \begin{equation} \frac{\sum_{i=1}^n(X_{i}-\bar{X})^{2}}{n} \end{equation}

    が分散の不偏推定量とならないことを確かめよ.

不偏推定量の良さ

推定量の分散

  • 一般に不偏推定量も複数存在

    例 : 平均の不偏推定量

    • 標本平均 \(\bar{X}\)
    • \(X_{n}\)
    • \(X_1,\dots,X_n\) の中央値 (分布が対称な場合)
  • 不偏推定量の良さを評価する基準が必要

    \(\theta\) の任意の不偏推定量 \(\hat{\theta}'\) に対して推定値のばらつき(分散)が最も小さいものが良い.

    \begin{equation} \mathrm{Var}(\hat{\theta})\le\mathrm{Var}(\hat{\theta}') \end{equation}

不偏推定量の平均

  • 定理

    \(\hat\theta_{1},\hat\theta_{2},\dotsc,\hat\theta_{k}\) がいずれも不偏推定量であり, その分散が等しく \(\sigma^{2}\) であるとする. このとき これらの不偏推定量の単純な平均を

    \begin{equation} \hat\theta^{*}=\frac{1}{k}\sum_{i=1}^k\hat\theta_{i} \end{equation}

    とおけば 以下が成り立つ.

    \begin{align} \mathbb{E}[\hat\theta^{*}]&=\theta &&\text{(不偏性が保存される)}\\ \mathrm{Var}(\hat\theta^{*})&\leq\sigma^{2} &&\text{(分散が小さくなる可能性がある)} \end{align}

証明

  • 平均値の線形性から不偏性は明らか
  • 平方和の展開は以下のとおり

    \begin{align} &\sum_{i}(\hat\theta_{i}-\theta)^{2}\\ &=\sum_{i}(\hat\theta_{i}-\hat\theta^{*}+\hat\theta^{*}-\theta)^{2}\\ &=\sum_{i}(\hat\theta_{i}-\hat\theta^{*})^{2} +2\sum_{i}(\hat\theta_{i}-\hat\theta^{*})(\hat\theta^{*}-\theta) +\sum_{i}(\hat\theta^{*}-\theta)^{2}\\ &=\sum_{i}(\hat\theta_{i}-\hat\theta^{*})^{2} +k(\hat\theta^{*}-\theta)^{2} \end{align}

    途中 \(\hat\theta^{*}=\frac{1}{k}\sum_{i=1}^k\hat\theta_{i}\) より \(\sum_{i}(\hat\theta_{i}-\hat\theta^{*})=0\) を用いた.

  • 両辺の平均を考える

    \begin{align} \sum_{i}\mathbb{E}[(\hat\theta_{i}-\theta)^{2}] &=\sum_{i}\mathbb{E}[(\hat\theta_{i}-\hat\theta^{*})^{2}] +k\mathbb{E}[(\hat\theta^{*}-\theta)^{2}]\\ \sum_{i}\mathrm{Var}(\hat\theta_{i}) &=\sum_{i}\mathbb{E}[(\hat\theta_{i}-\hat\theta^{*})^{2}] +k\mathrm{Var}(\hat\theta^{*})\\ k\sigma^{2} &=\sum_{i}\mathbb{E}[(\hat\theta_{i}-\hat\theta^{*})^{2}] +k\mathrm{Var}(\hat\theta^{*}) \end{align}
  • 以下の不等式が成立する

    右辺の第1項は0または正でなので

    \begin{equation} \sigma^{2}\ge \mathrm{Var}(\hat\theta^{*}) \end{equation}

    となり,分散が小さくなることがわかる.

対称な推定量

  • 定理

    \(X_{1},X_{2},\dotsc,X_{n}\) が互いに独立に同じ分布に従い, \(\hat\theta=\hat\theta(X_{1},X_{2},\dotsc,X_{n})\) を母数 \(\theta\) の一つの不偏推定量とすると, \(X_{1},X_{2},\dotsc,X_{n}\) の対称な関数として表される 不偏推定量 \(\hat\theta^{*}\) で,つねに

    \begin{equation} \mathrm{Var}(\hat\theta^{*})\le \mathrm{Var}(\hat\theta) \end{equation}

    となるものが存在する.

  • 定理の意味

    推定量 \(\hat\theta=\hat\theta(X_{1},X_{2},\dotsc,X_{n})\) が \(X_{1},X_{2},\dotsc,X_{n}\) について対称でない場合には, 対称化することによって性質を良くすることができる.

証明

  • 証明

    \(\hat\theta\) を \(X_{1},X_{2},\dotsc,X_{n}\) について対称化,すなわち

    \begin{equation} \hat\theta^{*}=\frac{1}{n!}\sum \hat\theta(\{\text{\(X_{1},X_{2},\dotsc,X_{n}\)のあらゆる並べ替え}\}) \end{equation}

    を考え,前定理を使えばよい.

今回のまとめ

  • 確率モデルと推定量
    • 観測データの生成モデル
    • 独立同分布性
    • 推定量と推定値
  • 推定量の評価
    • 推定量の平均値の不偏性
    • 推定量の分散の大きさ