変数間の関係を推測する
(Press ?
for help, n
and p
for next and previous slide)
村田 昇
2020.07.10
\(Y\) を \(X\) で説明する関係式として一次関数を考える:
\begin{equation} Y=\alpha+\beta X\quad\text{(線形回帰モデル)} \end{equation}
\(n\) 個の説明変数と目的変数の組 \((X,Y)\) を観測
\begin{equation} (X_1,Y_1),(X_2,Y_2),\dotsc,(X_n,Y_n) \end{equation}
回帰モデル: データには観測誤差が含まれる
\begin{equation} Y_i=\alpha+\beta X_i+\epsilon_i,\quad i=1,\dotsc,n. \end{equation}
係数 \(\alpha,\beta\) の回帰式で説明できない 目的変数の変動:
\begin{equation} e_i(\alpha,\beta)=Y_i-(\alpha+\beta X_i)\quad (i=1,\dotsc,n) \end{equation}
方針
\(e_1(\alpha,\beta),\dotsc,e_n(\alpha,\beta)\) の平方和 (残差平方和) を最小にするように \(\alpha,\beta\) を決定
\begin{equation} S(\alpha,\beta):=\sum_{i=1}^ne_i(\alpha,\beta)^2 =\sum_{i=1}^n\{Y_i-(\alpha+\beta X_i)\}^2 \end{equation}
\((\hat{\alpha},\hat{\beta})\): 最小二乗推定量
\(S(\alpha,\beta)\) を最小にするパラメータの組 \((\alpha,\beta)\)
最小二乗推定量
\begin{equation} \hat{\beta} =\frac{\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^n(X_i-\bar{X})^2}, \quad \hat{\alpha}=\bar{Y}-\hat{\beta}\bar{X} \end{equation}ただし
\begin{equation} \bar{X}=\frac{1}{n}\sum_{i=1}^nX_i,\quad \bar{Y}=\frac{1}{n}\sum_{i=1}^nY_i. \end{equation}
基本書式
lm(formula, data, subset, na.action, ...)
formula
: 式.(目的変数 ~ 説明変数)data
: データフレームsubset
: 対象とする部分データna.action
: 欠損値の扱い...
: 他のオプション.詳細は help(lm)
を参照点推定の平均と分散
\begin{align} &\mathbb{E}[\hat{\alpha}]=\alpha, &&\mathbb{E}[\hat{\beta}]=\beta,\\ &\mathrm{Var}(\hat{\alpha})=\frac{\sigma^2\sum_{i=1}^{n}X_i^2}{n\sum_i(X_i-\bar{X})^2}, &&\mathrm{Var}(\hat{\beta})=\frac{\sigma^2}{n\sum_{i=1}^{n}(X_i-\bar{X})^2} \end{align}
誤差と回帰式の関係:
\begin{equation} \epsilon_i=Y_i-(\alpha+\beta X_i) \quad(i=1,\dotsc,n) \end{equation}
\(\sigma^2\) の自然な推定量(良いとは限らない):
\begin{equation} \hat{\sigma}^2 =\frac{1}{n}\sum_{i=1}^n\hat{\epsilon}_i^2 \quad\text{ただし}\quad\hat{\epsilon}_i =Y_i-(\hat{\alpha}+\hat{\beta}X_i),\quad(i=1,\dotsc,n) \end{equation}
残差 \(\hat{\epsilon}_1,\dotsc,\hat{\epsilon}_n\) の性質 (資料; 正規方程式):
\begin{equation} \sum\hat{\epsilon}_i=0,\quad \sum\hat{\epsilon}_iX_i=0. \end{equation}
残差の二乗平均の性質 (標本分散と同様の計算):
\begin{equation} \mathbb{E}[\hat{\epsilon}_i^2]=\sigma^2(n{-}2)/n\quad(i=1,\dotsc,n) % \mathbb{E}[\hat{\epsilon}_i^2]=\frac{n{-}2}{n}\sigma^2\quad(i=1,\dotsc,n) \end{equation}
\(\sigma^{2}\) の不偏推定量:
\begin{equation} \hat{\sigma}^2=\frac{1}{n{-}2}\sum_{i=1}^n\hat{\epsilon}_i^2. \end{equation}
\(\hat{\alpha},\hat{\beta}\) の分散の推定量 (資料; Gauss-Markovの定理):
\begin{equation} \mathrm{s.e.}(\hat{\alpha})^2 =\frac{\hat{\sigma}^2\sum_iX_i^2}{n\sum_i(X_i-\bar{X})^2}, \quad \mathrm{s.e.}(\hat{\beta})^2 =\frac{\hat{\sigma}^2}{\sum_i(X_i-\bar{X})^2} \end{equation}
以下は \(\hat{\beta}\) と独立で自由度 \(n{-}2\) の \(\chi^2\) 分布に従う:
\begin{equation} \frac{(n{-}2)\mathrm{s.e.}(\hat{\beta})^2}{\mathrm{Var}(\hat{\beta})} \end{equation}
以下の確率変数は自由度 \(n{-}2\) の \(t\) 分布に従う:
\begin{equation} \frac{\hat{\beta}-\beta}{\mathrm{s.e.}(\hat{\beta})} = \frac{(\hat{\beta}-\beta)/\sqrt{\mathrm{Var}(\hat{\beta})}}{\sqrt{(n{-}2)\mathrm{s.e.}(\hat{\beta})^{2}/(n{-}2)\mathrm{Var}(\hat{\beta})}} \end{equation}
\(\gamma\in(0,1)\) に対する \(\beta\) の \(1-\gamma\) 信頼区間:
\begin{equation} \left[ \hat{\beta}-t_{1{-}\gamma/2}(n{-}2)\cdot \mathrm{s.e.}(\hat{\beta}),\; \hat{\beta}+t_{1{-}\gamma/2}(n{-}2)\cdot \mathrm{s.e.}(\hat{\beta}) \right] \end{equation}
基本書式
confint(object, parm, level = 0.95, ...)
object
: 関数 lm
で推定したモデルparm
: 区間推定をするパラメタ.指定しなければ全てlevel
: 信頼係数...
: 他のオプション.詳細は help(confint)
を参照説明変数 \(X\) が目的変数 \(Y\) を説明・予測するのに本当に役立っているかを検証:
\begin{equation} H_0:\beta=0\qquad\text{vs}\qquad H_1:\beta\neq0 \end{equation}
帰無仮説 \(H_0\) が正しければ以下の統計量 は自由度 \(n{-}2\) の \(t\) 分布に従う
\begin{equation} t=\frac{\hat{\beta}}{\mathrm{s.e.}(\hat{\beta})} \end{equation}
棄却域による検定: 有意水準を \(\gamma\in(0,1)\) とし, \(\hat{\beta}\) の \(t\) 値 が以下の場合には帰無仮説を棄却
\begin{equation} |t| > t_{1-\gamma/2}(n{-}2) \end{equation}
\(p\) 値による検定: 以下で定義される \(\hat{\beta}\) の \(p\) 値 が \(\gamma\) 未満の場合に帰無仮説を棄却
\begin{equation} \text{($p$値)}=2\int_{|t|}^\infty f(x)dx \end{equation}
基本書式
summary(object)
object
: 関数 lm
で推定したモデルcoefficients
: 係数とt値fstatistics
: F値決定係数 (あるいは 寄与率):
\begin{equation} R^{2}:= \frac{\sum_{i=1}^{n}(\hat{Y}_{i}-\bar{Y})^{2}}{\sum_{i=1}^{n}(Y_{i}-\bar{Y})^{2}} \end{equation}
ただし, \(\hat{Y}_{i}\) は あてはめ値 または 予測値 と呼ばれる
\begin{equation} \hat{Y}_{i}:= \hat{\alpha}+\hat{\beta}X_{i}\quad(i=1,\dotsc,n). \end{equation}
以下の等式が成立:
\begin{align} &\hat{\epsilon}_i =Y_i-\hat{Y}_i\quad (i=1,\dotsc,n)\\ &\sum_{i=1}^{n}\hat{\epsilon}_i=0,\\ &\frac{1}{n}\sum_{i=1}^nY_i=\bar{Y},\\ &\frac{1}{n}\sum_{i=1}^n\hat{Y}_i=\bar{Y}. \end{align}
決定係数:
\begin{equation} R^{2}:= \frac{\sum_{i=1}^{n}(\hat{Y}_{i}-\bar{Y})^{2}}{\sum_{i=1}^{n}(Y_{i}-\bar{Y})^{2}} \end{equation}
目的変数の観測データとあてはめ値の相関の二乗:
\begin{equation} R^{2}= \left\{ \frac{\sum_{i=1}^{n}(\hat{Y}_{i}-\bar{Y})(Y_{i}-\bar{Y})}{\sqrt{\sum_{i=1}^{n}(Y_{i}-\bar{Y})^{2}}\cdot\sqrt{\sum_{i=1}^{n}(\hat{Y}_{i}-\bar{Y})^{2}}} \right\}^{2} \end{equation}
説明変数と目的変数の観測データの間の相関の二乗:
\begin{equation} R^{2}= \left\{ \frac{\sum_{i=1}^{n}(X_{i}-\bar{X})(Y_{i}-\bar{Y})}{\sqrt{\sum_{i=1}^{n}(Y_{i}-\bar{Y})^{2}}\cdot\sqrt{\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}}} \right\}^{2} \end{equation}
残差 \(\epsilon_i\) と目的変数 \(Y_i\) の標本分散による表現:
\begin{equation} R^{2} =1-\frac{\frac{1}{n}\sum_{i=1}^{n}\hat{\epsilon}_{i}^{2}}{\frac{1}{n}\sum_{i=1}^{n}(Y_{i}-\bar{Y})^{2}}. \end{equation}
標本分散を対応する不偏推定量で置き換え:
\begin{equation} \bar{R}^{2} =1-\frac{\frac{1}{n{-}2}\sum_{i=1}^{n}\hat{\epsilon}_{i}^{2}}{\frac{1}{n-1}\sum_{i=1}^{n}(Y_{i}-\bar{Y})^{2}}. \end{equation}
基本書式
summary(object)
object
: 関数 lm
で推定したモデルr.squareds
: 決定係数adj.r.squareds
: 自由度調整済み決定係数