予測と発展的なモデル
(Press ?
for help, n
and p
for next and previous slide)
村田 昇
回帰係数 \(\beta_0,\beta_1,\dotsc,\beta_p\) を用いた一次式
\begin{equation} y=\beta_0+\beta_1x_1+\dotsb+\beta_px_p \end{equation}
誤差項 を含む確率モデルで観測データを表現
\begin{equation} y_i=\beta_0+\beta_1 x_{i1}+\cdots+\beta_px_{ip}+\epsilon_i \quad (i=1,\dotsc,n) \end{equation}
確率モデル
\begin{equation} \boldsymbol{y} =X\boldsymbol{\beta}+\boldsymbol{\epsilon}, \quad\boldsymbol{\epsilon}\sim\text{確率分布} \end{equation}
式の評価 : 残差平方和 の最小化による推定
\begin{equation} S(\boldsymbol{\beta}) =(\boldsymbol{y}-X\boldsymbol{\beta})^{\mathsf{T}} (\boldsymbol{y}-X\boldsymbol{\beta}) \end{equation}
解の条件 : 正規方程式
\begin{equation} X^{\mathsf{T}}X\boldsymbol{\beta} =X^{\mathsf{T}}\boldsymbol{y} \end{equation}
解の一意性 : Gram 行列 \(X^{\mathsf{T}}X\) が正則
\begin{equation} \hat{\boldsymbol{\beta}} = (X^{\mathsf{T}}X)^{-1} X^{\mathsf{T}}\boldsymbol{y} \end{equation}
データの概要
日付 | 気温 | 降雨 | 日射 | 降雪 | 風向 | 風速 | 気圧 | 湿度 | 雲量 |
---|---|---|---|---|---|---|---|---|---|
2023-09-01 | 29.2 | 0.0 | 24.01 | 0 | SSE | 4.3 | 1012.1 | 71 | 2.0 |
2023-09-02 | 29.6 | 0.0 | 22.07 | 0 | SSE | 3.1 | 1010.3 | 72 | 8.0 |
2023-09-03 | 29.1 | 3.5 | 18.64 | 0 | ENE | 2.8 | 1010.6 | 74 | 9.3 |
2023-09-04 | 26.1 | 34.0 | 7.48 | 0 | N | 2.6 | 1007.5 | 96 | 10.0 |
2023-09-05 | 29.3 | 0.0 | 22.58 | 0 | S | 3.5 | 1005.2 | 77 | 3.5 |
2023-09-06 | 27.5 | 0.5 | 13.17 | 0 | SSW | 2.6 | 1003.6 | 79 | 10.0 |
2023-09-07 | 27.0 | 0.5 | 11.01 | 0 | ENE | 2.5 | 1007.9 | 72 | 10.0 |
2023-09-08 | 21.9 | 107.5 | 2.10 | 0 | NW | 3.4 | 1007.8 | 98 | 10.0 |
2023-09-09 | 24.8 | 1.0 | 8.81 | 0 | S | 2.2 | 1006.8 | 93 | 7.5 |
2023-09-10 | 27.8 | 0.0 | 17.57 | 0 | S | 3.1 | 1009.1 | 83 | 6.3 |
2023-09-11 | 28.1 | 0.0 | 17.19 | 0 | SSE | 3.1 | 1010.1 | 79 | 9.0 |
2023-09-12 | 27.7 | 0.0 | 20.02 | 0 | SSE | 2.8 | 1010.0 | 76 | 4.8 |
2023-09-13 | 28.0 | 0.0 | 22.00 | 0 | SE | 2.4 | 1010.9 | 74 | 4.5 |
2023-09-14 | 28.2 | 0.0 | 14.54 | 0 | SSE | 2.8 | 1009.9 | 80 | 7.0 |
2023-09-15 | 27.4 | 10.5 | 9.21 | 0 | NE | 2.0 | 1010.9 | 88 | 8.5 |
関連するデータの散布図
Figure 1: 散布図
観測値とあてはめ値の比較
Figure 2: モデルの比較
決定係数 (R-squared)
\begin{equation} R^2 = 1-\frac{\sum_{i=1}^n\hat{\epsilon}_i^2}{\sum_{i=1}^n(y_i-\bar{y})^2} \end{equation}
自由度調整済み決定係数 (adjusted R-squared)
\begin{equation} \bar{R}^2 = 1-\frac{\frac{1}{n{-}p{-}1}\sum_{i=1}^n\hat{\epsilon}_i^2} {\frac{1}{n{-}1}\sum_{i=1}^n(y_i-\bar{y})^2} \end{equation}
決定係数(\(R^{2}\)・ Adjusted \(R^{2}\))によるモデルの比較
Characteristic | モデル1 | モデル2 | モデル3 | モデル4 | モデル5 |
---|---|---|---|---|---|
Beta (SE)1,2 | Beta (SE)1,2 | Beta (SE)1,2 | Beta (SE)1,2 | Beta (SE)1,2 | |
気圧 | -0.21 (0.135) | -0.36*** (0.090) | -0.32** (0.098) | -0.36*** (0.092) | |
日射 | 0.25*** (0.057) | 0.30*** (0.048) | 0.35*** (0.069) | 0.32*** (0.069) | |
湿度 | 0.05 (0.052) | ||||
雲量 | 0.05 (0.151) | ||||
R² | 0.082 | 0.414 | 0.632 | 0.644 | 0.633 |
Adjusted R² | 0.049 | 0.393 | 0.604 | 0.603 | 0.591 |
1 *p<0.05; **p<0.01; ***p<0.001 | |||||
2 SE = Standard Error |
\(F\)統計量: 決定係数(または残差)を用いて計算
\begin{equation} F =\frac{n{-}p{-}1}{p}\frac{R^2}{1-R^2} \end{equation}
\(F\)統計量によるモデルの比較
Characteristic | モデル1 | モデル2 | モデル3 | モデル4 | モデル5 |
---|---|---|---|---|---|
Beta (SE)1,2 | Beta (SE)1,2 | Beta (SE)1,2 | Beta (SE)1,2 | Beta (SE)1,2 | |
気圧 | -0.21 (0.135) | -0.36*** (0.090) | -0.32** (0.098) | -0.36*** (0.092) | |
日射 | 0.25*** (0.057) | 0.30*** (0.048) | 0.35*** (0.069) | 0.32*** (0.069) | |
湿度 | 0.05 (0.052) | ||||
雲量 | 0.05 (0.151) | ||||
R² | 0.082 | 0.414 | 0.632 | 0.644 | 0.633 |
Statistic | 2.51 | 19.8 | 23.1 | 15.7 | 14.9 |
p-value | 0.12 | <0.001 | <0.001 | <0.001 | <0.001 |
1 *p<0.05; **p<0.01; ***p<0.001 | |||||
2 SE = Standard Error |
\(t\)統計量: 各係数ごと,\(\zeta\) は \((X^{\mathsf{T}} X)^{-1}\) の対角成分
\begin{equation} t=\frac{\hat{\beta}_j}{\hat{\sigma}\zeta_{j}} \end{equation}
\(t\)統計量によるモデルの比較
Characteristic | モデル1 | モデル2 | モデル3 | モデル4 | モデル5 | |||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Beta | SE1 | Statistic | p-value | Beta | SE1 | Statistic | p-value | Beta | SE1 | Statistic | p-value | Beta | SE1 | Statistic | p-value | Beta | SE1 | Statistic | p-value | |
(Intercept) | 243 | 137 | 1.78 | 0.086 | 23 | 0.855 | 27.1 | <0.001 | 386 | 91.0 | 4.25 | <0.001 | 346 | 101 | 3.44 | 0.002 | 384 | 92.8 | 4.13 | <0.001 |
気圧 | -0.21 | 0.135 | -1.58 | 0.12 | -0.36 | 0.090 | -3.99 | <0.001 | -0.32 | 0.098 | -3.32 | 0.003 | -0.36 | 0.092 | -3.90 | <0.001 | ||||
日射 | 0.25 | 0.057 | 4.45 | <0.001 | 0.30 | 0.048 | 6.35 | <0.001 | 0.35 | 0.069 | 5.05 | <0.001 | 0.32 | 0.069 | 4.62 | <0.001 | ||||
湿度 | 0.05 | 0.052 | 0.948 | 0.4 | ||||||||||||||||
雲量 | 0.05 | 0.151 | 0.317 | 0.8 | ||||||||||||||||
1 SE = Standard Error |
モデル2
Figure 3: モデル2の診断
モデル3
Figure 4: モデル3の診断
モデル4
Figure 5: モデル4の診断
新しいデータ (説明変数) \(\boldsymbol{x}\) に対する 予測値
\begin{equation} \hat{y} = (1,\boldsymbol{x}^{\mathsf{T}})\hat{\boldsymbol{\beta}}, \qquad \hat{\boldsymbol{\beta}} = (X^{\mathsf{T}}X)^{-1} X^{\mathsf{T}}\boldsymbol{y} \end{equation}
予測値は元データの目的変数の重み付け線形和
\begin{equation} \hat{y} = \boldsymbol{w}(\boldsymbol{x})^{\mathsf{T}}\boldsymbol{y}, \qquad \boldsymbol{w}(\boldsymbol{x})^{\mathsf{T}} = (1,\boldsymbol{x}^{\mathsf{T}}) (X^{\mathsf{T}}X)^{-1} X^{\mathsf{T}} \end{equation}
推定量は以下の性質をもつ多変量正規分布
\begin{align} \mathbb{E}[\hat{\boldsymbol{\beta}}] &=\boldsymbol{\beta}\\ \mathrm{Cov}(\hat{\boldsymbol{\beta}}) &=\sigma^{2}(X^{\mathsf{T}}X)^{-1} \end{align}
この性質を利用して以下の3つの値の違いを評価
\begin{align} \hat{y}&=(1,\boldsymbol{x}^{\mathsf{T}})\hat{\boldsymbol{\beta}} &&\text{(回帰式による予測値)}\\ \tilde{y}&=(1,\boldsymbol{x}^{\mathsf{T}})\boldsymbol{\beta} &&\text{(最適な予測値)}\\ y&=(1,\boldsymbol{x}^{\mathsf{T}})\boldsymbol{\beta}+\epsilon &&\text{(観測値)} \end{align}
定義にもとづいて計算する
\begin{align} \mathbb{E}[\hat{y}] &= \mathbb{E}[(1,\boldsymbol{x}^{\mathsf{T}})\hat{\boldsymbol{\beta}}]\\ &= (1,\boldsymbol{x}^{\mathsf{T}})\mathbb{E}[\hat{\boldsymbol{\beta}}]\\ &= (1,\boldsymbol{x}^{\mathsf{T}})\boldsymbol{\beta}\\ &= \tilde{y} \end{align}
定義にもとづいて計算する
\begin{align} \mathrm{Var}(\hat{y}) &= \mathrm{Var}((1,\boldsymbol{x}^{\mathsf{T}}) (\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}))\\ &= (1,\boldsymbol{x}^{\mathsf{T}}) \mathrm{Cov}(\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}) (1,\boldsymbol{x}^{\mathsf{T}})^{\mathsf{T}}\\ &= (1,\boldsymbol{x}^{\mathsf{T}}) \mathrm{Cov}(\hat{\boldsymbol{\beta}}) (1,\boldsymbol{x}^{\mathsf{T}})^{\mathsf{T}}\\ &= (1,\boldsymbol{x}^{\mathsf{T}}) \sigma^{2} (X^{\mathsf{T}}X)^{-1} (1,\boldsymbol{x}^{\mathsf{T}})^{\mathsf{T}}\\ &= \sigma^{2} (1,\boldsymbol{x}^{\mathsf{T}}) (X^{\mathsf{T}}X)^{-1} (1,\boldsymbol{x}^{\mathsf{T}})^{\mathsf{T}} \end{align}
差の分布は以下の平均・分散をもつ正規分布に従う
\begin{align} \mathbb{E}[\tilde{y}-\hat{y}] &=(1,\boldsymbol{x}^{\mathsf{T}})\boldsymbol{\beta} -(1,\boldsymbol{x}^{\mathsf{T}})\mathbb{E}[\hat{\boldsymbol{\beta}}] =0\\ \mathrm{Var}(\tilde{y}-\hat{y}) &=\underbrace{\sigma^{2}(1,\boldsymbol{x}^{\mathsf{T}})(X^{\mathsf{T}}X)^{-1} (1,\boldsymbol{x}^{\mathsf{T}})^{\mathsf{T}}}_{\text{\(\hat{\boldsymbol{\beta}}\)の推定誤差による分散}} =\sigma^{2}\gamma_{c}(\boldsymbol{x})^{2} \end{align}
標準化による表現
\begin{equation} \frac{\tilde{y}-\hat{y}}{\sigma\gamma_{c}(\boldsymbol{x})} \sim \mathcal{N}(0,1) \end{equation}
未知の分散を不偏分散で推定
\begin{equation} Z= \frac{\tilde{y}-\hat{y}}{\hat{\sigma}\gamma_{c}(\boldsymbol{x})} \sim \mathcal{T}(n{-}p{-}1) \quad (\text{\(t\)分布}) \end{equation}
確率 \(\alpha\) の信頼区間
\begin{equation} \mathcal{I}^{c}_{\alpha} = \left( \hat{y}-C_{\alpha}\hat{\sigma}\gamma_{c}(\boldsymbol{x}),\; \hat{y}+C_{\alpha}\hat{\sigma}\gamma_{c}(\boldsymbol{x}) \right) \end{equation}\begin{equation} P(|Z| < {C_{\alpha}} | Z\sim\mathcal{T}(n{-}p{-}1)) =\alpha \end{equation}
信頼区間について以下の式が成り立つことを示せ
\begin{equation} P(\tilde{y}\in\mathcal{I}^{c}_{\alpha}) =\alpha \end{equation}
\(C_{\alpha}\) の定義にもとづいて計算すればよい
\begin{align} \alpha &= P(|Z| < {C_{\alpha}})\\ &= P\left( \left|\frac{\tilde{y}-\hat{y}}{\hat{\sigma}\gamma_{c}(\boldsymbol{x})}\right| < {C_{\alpha}} \right)\\ &= P\left( |\tilde{y}-\hat{y}| < C_{\alpha}\hat{\sigma}\gamma_{c}(\boldsymbol{x}) \right)\\ &= P\left( -C_{\alpha}\hat{\sigma}\gamma_{c}(\boldsymbol{x}) < \tilde{y}-\hat{y} < C_{\alpha}\hat{\sigma}\gamma_{c}(\boldsymbol{x}) \right)\\ &= P\left( \hat{y}-C_{\alpha}\hat{\sigma}\gamma_{c}(\boldsymbol{x}) < \tilde{y} < \hat{y}+C_{\alpha}\hat{\sigma}\gamma_{c}(\boldsymbol{x}) \right) \end{align}
独立性を利用して計算する
\begin{align} \mathbb{E}[y-\hat{y}] &= \mathbb{E}[y] -\mathbb{E}[\hat{y}]\\ &= \tilde{y}-\tilde{y}\\ &= 0\\ \mathrm{Var}(y-\hat{y}) &= \mathrm{Var}(y) +\mathrm{Var}(\hat{y})\\ &= \sigma^{2} + \sigma^{2} (1,\boldsymbol{x}^{\mathsf{T}}) (X^{\mathsf{T}}X)^{-1} (1,\boldsymbol{x}^{\mathsf{T}})^{\mathsf{T}} \end{align}
差の分布は以下の平均・分散をもつ正規分布に従う
\begin{align} \mathbb{E}[y-\hat{y}] &=(1,\boldsymbol{x}^{\mathsf{T}})\boldsymbol{\beta} +\mathbb{E}[\boldsymbol{\epsilon}] -(1,\boldsymbol{x}^{\mathsf{T}}) \mathbb{E}[\hat{\boldsymbol{\beta}}] =0\\ \mathrm{Var}(y-\hat{y}) &=\underbrace{\sigma^{2} (1,\boldsymbol{x}^{\mathsf{T}})(X^{\mathsf{T}}X)^{-1} (1,\boldsymbol{x}^{\mathsf{T}})^{\mathsf{T}} }_{\text{\(\hat{\boldsymbol{\beta}}\)の推定誤差による分散}} +\underbrace{\sigma^{2}}_{\text{誤差の分散}} =\sigma^{2}\gamma_{p}(\boldsymbol{x})^{2} \end{align}
標準化による表現
\begin{equation} \frac{y-\hat{y}}{\sigma\gamma_{p}(\boldsymbol{x})} \sim \mathcal{N}(0,1) \end{equation}
未知の分散を不偏分散で推定
\begin{equation} Z= \frac{y-\hat{y}}{\hat{\sigma}\gamma_{p}(\boldsymbol{x})} \sim \mathcal{T}(n{-}p{-}1) \quad (\text{\(t\)分布}) \end{equation}
確率 \(\alpha\) の予測区間
\begin{equation} \mathcal{I}^{p}_{\alpha} = \left( \hat{y}-C_{\alpha}\hat{\sigma}\gamma_{p}(\boldsymbol{x}),\; \hat{y}+C_{\alpha}\hat{\sigma}\gamma_{p}(\boldsymbol{x}) \right) \end{equation}\begin{equation} P(|Z| < {C_{\alpha}} | Z\sim\mathcal{T}(n{-}p{-}1)) =\alpha \end{equation}
8月のデータで回帰式を推定する
気温 = F(気圧, 日射, 湿度)
推定されたモデル
Characteristic | Beta | SE1 | Statistic | p-value2 |
---|---|---|---|---|
(Intercept) | 20 | 34.2 | 0.573 | 0.6 |
日射 | 0.13 | 0.030 | 4.42 | <0.001*** |
気圧 | 0.01 | 0.034 | 0.224 | 0.8 |
雲量 | -0.09 | 0.057 | -1.55 | 0.13 |
1 SE = Standard Error | ||||
2 *p<0.05; **p<0.01; ***p<0.001 |
Figure 6: 8月のあてはめ値の信頼区間
Figure 7: 8月のあてはめ値の予測区間
Figure 8: 8月モデルによる9月の予測値の信頼区間
Figure 9: 8月モデルによる9月の予測値の予測区間
body | brain | |
---|---|---|
Mountain beaver | 1.35 | 8.1 |
Cow | 465.00 | 423.0 |
Grey wolf | 36.33 | 119.5 |
Goat | 27.66 | 115.0 |
Guinea pig | 1.04 | 5.5 |
Dipliodocus | 11700.00 | 50.0 |
Asian elephant | 2547.00 | 4603.0 |
Donkey | 187.10 | 419.0 |
Horse | 521.00 | 655.0 |
Potar monkey | 10.00 | 115.0 |
Cat | 3.30 | 25.6 |
Giraffe | 529.00 | 680.0 |
Gorilla | 207.00 | 406.0 |
Human | 62.00 | 1320.0 |
散布図 (変換なし)
Figure 10: 散布図 (データの変換なし)
散布図 (x軸を対数変換)
Figure 11: 散布図 (体重を対数変換)
散布図 (xy軸を対数変換)
Figure 12: 散布図 (体重と脳の重さを対数変換)
単回帰 (全データ)
Figure 13: 単回帰
単回帰 (外れ値を除去)
Figure 14: 外れ値を除いた単回帰
関連データの散布図
Figure 15: 散布図 (気温・日射・気圧)
Characteristic | 交互作用なし | 交互作用あり |
---|---|---|
Beta (SE)1,2 | Beta (SE)1,2 | |
日射 | 0.20* (0.086) | 14 (14.4) |
気圧 | -0.14* (0.065) | 0.03 (0.185) |
日射 * 気圧 | -0.01 (0.014) | |
R² | 0.250 | 0.273 |
Adjusted R² | 0.196 | 0.192 |
Statistic | 4.65 | 3.38 |
p-value | 0.018 | 0.033 |
1 *p<0.05; **p<0.01; ***p<0.001 | ||
2 SE = Standard Error |
関連データの散布図
Figure 16: 散布図 (気温・雨の有無・月)
Characteristic | 雨の有無 | 雨の有無+月 |
---|---|---|
Beta (SE)1,2 | Beta (SE)1,2 | |
雨の有無 | ||
FALSE | — | — |
TRUE | 1.5 (0.954) | -0.72* (0.300) |
月 | ||
1 | — | |
2 | 1.5* (0.641) | |
3 | 7.3*** (0.625) | |
4 | 11*** (0.629) | |
5 | 13*** (0.625) | |
6 | 18*** (0.635) | |
7 | 23*** (0.624) | |
8 | 24*** (0.625) | |
9 | 21*** (0.630) | |
10 | 13*** (0.623) | |
11 | 8.6*** (0.629) | |
12 | 3.6*** (0.624) | |
(Intercept) | 17*** (0.500) | 5.9*** (0.446) |
R² | 0.006 | 0.912 |
Adjusted R² | 0.004 | 0.909 |
Statistic | 2.36 | 305 |
p-value | 0.13 | <0.001 |
1 *p<0.05; **p<0.01; ***p<0.001 | ||
2 SE = Standard Error |