library(conflicted) # 関数名の衝突を警告
conflicts_prefer( # 優先的に使う関数を指定
::filter(),
dplyr::select(),
dplyr::lag(),
dplyr
)library(tidyverse)
#' 日本語を用いるので macOS ではフォントの設定を行う
if(Sys.info()["sysname"] == "Darwin") { # macOS か調べて日本語フォントを指定
theme_update(text = element_text(family = "HiraginoSans-W4"))
update_geom_defaults("text", list(family = theme_get()$text$family))
update_geom_defaults("label", list(family = theme_get()$text$family))}
統計データ解析I
第10講 練習問題 解答例
準備
以下で利用する共通パッケージを読み込む.
一様分布の平均の推定
問題
X を一様乱数に従う確率変数とし,平均値の推定量として以下を考える. それぞれの推定量の分散を比較しなさい.
- 標本平均 (mean)
- 中央値 (median)
- 最大値と最小値の平均 ((max+min)/2)
以下のような関数を作り,確率シミュレーションを行えばよい.
<- function(n, min, max){ # 観測データ数
estimate_means <- runif(n, min = min, max = max) # 一様乱数を生成,範囲は引数から
x return(c(xbar = mean(x), med = median(x), mid = (max(x)+min(x))/2))
# 3つまとめて計算する関数 }
解答例
平均値の推定を行う関数(標本平均,中央値,最大最小の平均)を定義する.
<- function(n, min, max){
estimate_means <- runif(n, min = min, max = max)
x return(c(xbar = mean(x), # 標本平均
med = median(x), # 中央値
mid = (max(x)+min(x))/2)) # 最大最小の平均
}
実験の設定を宣言する.
<- 10 # 観測データのサンプル数
n <- 10000 # 実験回数
mc <- 0; b <- 50 # 一様乱数の区間 a
確率シミュレーションを行う.
<-
mc_data replicate(mc, estimate_means(n, min = a, max = b)) |> # 3 x mc 型行列
t() |> # 転置して mc x 3 型行列に変換
as_tibble() # データフレーム化
# 実験結果の一部を確認 mc_data
# A tibble: 10,000 × 3
xbar med mid
<dbl> <dbl> <dbl>
1 31.7 31.3 31.6
2 29.2 29.4 27.3
3 26.5 22.8 23.8
4 28.3 29.2 29.2
5 22.4 24.7 24.2
6 20.5 18.0 25.3
7 20.3 17.9 20.1
8 31.5 29.1 28.7
9 25.9 28.9 25.0
10 27.3 26.5 24.5
# ℹ 9,990 more rows
それぞれの推定量の平均と分散を計算し,結果を集計する.
|>
mc_data summarize(across(everything(),
list(mean = mean, var = var)))
# A tibble: 1 × 6
xbar_mean xbar_var med_mean med_var mid_mean mid_var
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 25.0 21.0 25.0 47.3 25.0 9.58
別々のヒストグラムにして比較してみる.
|>
mc_data pivot_longer(everything()) |>
ggplot(aes(x = value)) +
geom_histogram(aes(fill = name),
show.legend = FALSE) + # 凡例を表示しない
facet_wrap(~name) # 横に並べる
一様分布においては,最大最小の平均が良い推定量であることがわかる.
分位点を使ってもう少し詳しくみてみる.
|> summary() # 四分位点を表示 (簡便な方法) mc_data
xbar med mid
Min. :10.22 Min. : 3.413 Min. :11.25
1st Qu.:21.83 1st Qu.:20.068 1st Qu.:23.27
Median :24.90 Median :24.945 Median :25.01
Mean :24.99 Mean :24.971 Mean :25.00
3rd Qu.:28.15 3rd Qu.:29.834 3rd Qu.:26.73
Max. :43.16 Max. :47.231 Max. :39.16
|> # データフレームとして取得する方法 (以下は一例)
mc_data pivot_longer(everything()) |> # long format に変更
group_by(name) |> # 推定量ごとに集計
summarize(as_tibble_row(quantile(value))) # 計算結果を行に並べる
# A tibble: 3 × 6
name `0%` `25%` `50%` `75%` `100%`
<chr> <dbl> <dbl> <dbl> <dbl> <dbl>
1 med 3.41 20.1 24.9 29.8 47.2
2 mid 11.3 23.3 25.0 26.7 39.2
3 xbar 10.2 21.8 24.9 28.2 43.2
|> # 別形式のデータフレームの作成例
mc_data pivot_longer(everything()) |> # long format に変更
group_by(name) |> # 推定量ごとに集計
reframe(qs=quantile(value), probs=seq(0,1,.25))
# A tibble: 15 × 3
name qs probs
<chr> <dbl> <dbl>
1 med 3.41 0
2 med 20.1 0.25
3 med 24.9 0.5
4 med 29.8 0.75
5 med 47.2 1
6 mid 11.3 0
7 mid 23.3 0.25
8 mid 25.0 0.5
9 mid 26.7 0.75
10 mid 39.2 1
11 xbar 10.2 0
12 xbar 21.8 0.25
13 xbar 24.9 0.5
14 xbar 28.2 0.75
15 xbar 43.2 1
それぞれのヒストグラムを描くこともできる.
for(name in c("xbar","med","mid")) {
<- sym(name)
name <-
gg |>
mc_data ggplot(aes(x = !!name)) +
geom_histogram(bins = 40,
fill = "pink",
colour = "brown") +
lims(x = c(a,b), y = c(0,2500)) + # 同じ大きさの図にする
labs(x = "estimate",
title = paste(name, "の分布"))
print(gg)
}
違う分布で試してみる.
<- function(n){
estimate_means2 <- rt(n, df = 2) # 自由度2のt分布 (裾が重く平均が推定しにくい分布)
x return(c(xbar = mean(x), med = median(x), mid = (max(x)+min(x))/2))
}<-
mc_data2 replicate(mc, estimate_means2(n)) |> t() |> as_tibble()
#' それぞれの分布を書いてみる
|>
mc_data2 pivot_longer(everything()) |>
ggplot(aes(x = value)) +
geom_histogram(aes(fill = name),
show.legend = FALSE) +
xlim(-8,8) + # x軸を調整する
facet_wrap(~name)
この分布では中央値が良い推定量となることがわかる.
Rで用いることのできる色の名前は関数 colors()/colours() で確認することができる. 例えば以下のようにすると視覚的に確認することができる.
<- colors()[grep("(grey|[0-1,3-9])", # greyおよび2以外の数を含む色を排除
cols colors(), invert = TRUE)]
<- 6; nrows <- ceiling(length(cols)/ncols) # 必要なタイルの枚数の計算
ncols tibble(x = rep(1:ncols, nrows),
y = rep(1:nrows, each = ncols),
z = factor(1:(nrows*ncols))) |> # タイルの配置のためのデータフレーム
slice_head(n = length(cols)) |> # 必要な行のみ残す
ggplot(aes(x = x, y = y, fill = z)) +
scale_fill_manual(values = cols) + # fillの色を指定
geom_tile(show.legend = FALSE) + # 色のタイルを配置
geom_text(aes(label = cols), size = 2) # 色名を記入
ガンマ分布による風速データのモデル化
問題
東京都の気候データ (tokyo_weather.csv
) の風速 (wind
) の項目について以下の問に答えよ.
- 全データを用いてヒストグラム(密度)を作成しなさい.
- ガンマ分布でモデル化して最尤推定を行いなさい.
- 推定した結果をヒストグラムに描き加えて比較しなさい.
ガンマ分布の最尤推定量は以下のようにして作成できる
library("stats4") # 関数mleを利用するため
#' 数値最適化のためには尤度関数を最初に評価する初期値が必要
<- function(x, # 観測データ
mle.gamma nu0 = 1, alpha0 = 1){ # nu, alphaの初期値
## 負の対数尤度関数を定義 (最小化を考えるため)
<- function(nu, alpha) # nuとalphaの関数として定義
ll suppressWarnings(-sum(dgamma(x, nu, alpha, log = TRUE)))
## suppressWarnings は定義域外で評価された際の警告を表示させない
## 最尤推定(負の尤度の最小化)
<- mle(minuslogl = ll, # 負の対数尤度関数
est start = list(nu = nu0, alpha = alpha0), # 初期値
method = "BFGS", # 最適化方法 (選択可能)
nobs = length(x)) # 観測データ数
return(coef(est)) # 推定値のみ返す
}
余力のある者は,自身で収集したデータを用いてモデル化と最尤推定を試みよ.
解答例
データを読み込む.
<- read_csv("data/tokyo_weather.csv") tw_data
風速データのヒストグラムを描く.
|>
tw_data ggplot(aes(x = wind)) +
geom_histogram(aes(y = after_stat(density)), # 密度表示
bins = 30,
fill = "skyblue",
colour = "slateblue") +
labs(x = "風速 [m/s]", y = "密度", title = "風速のヒストグラム")
ガンマ分布の最尤推定量を求めるための関数を作成する.
library("stats4") # 関数mleを利用
<- function(x, # 観測データ
mle.gamma nu0 = 1, # nu (shape) の初期値
alpha0 = 1, # alpha (rate) の初期値
verbose = FALSE){ # debug用に追加
## 負の対数尤度関数を定義 (最小化を考えるため)
<- function(nu, alpha) # nuとalphaの関数として定義
ll suppressWarnings(-sum(dgamma(x,
shape = nu,
rate = alpha,
log = TRUE))) # 対数密度
## suppressWarnings は定義域外で評価された際の警告を表示させない
## 最尤推定(負の尤度の最小化)
<- mle(minuslogl = ll, # 負の対数尤度関数
est start = list(nu = nu0, alpha = alpha0), # 初期値
method = "BFGS", # 最適化方法 (選択可能)
nobs = length(x)) # 観測データ数
if(verbose) {
return(est) # verbose=TRUEならmleの結果を全て返す
else {
} return(coef(est)) # 推定値のみ返す
} }
最尤推定を行う.
<- with(tw_data, mle.gamma(wind))) (theta
nu alpha
10.919235 4.012087
得られた結果を前出のヒストグラム上に重ね描きする.
last_plot() +
geom_function(fun = dgamma,
args = list(shape = theta[1],
rate = theta[2]),
colour = "orange",
linewidth = 1.2)
シミュレーションにより推定量の良さの検証(一致性や不偏性の確認)を行うと以下のようになる.
set.seed(5678) # 乱数のシード値の指定 (変更して再現性を確認してみよ)
<- 5; alpha <- 2 # 真のパラメタ
nu <- 1000 # 実験回数 (計算が重いので少なめにしている)
mc for(n in c(10, 50, 100)){ # データ数を変えて実験
## Monte-Carlo実験
<- # 推定値のデータフレーム
mc_data replicate(mc, mle.gamma(rgamma(n, nu, alpha))) |>
t() |> as_tibble()
## 結果を密度推定で表示
<-
gg |>
mc_data ggplot(aes(x = nu)) + # nu の推定値の分布
geom_density(fill = "skyblue1",
colour = "skyblue4") +
geom_vline(xintercept = nu, # nu の真値
colour = "tomato",
linewidth = 1.2) +
xlim(0,20) +
labs(x = expression(nu), title = paste("n =",n))
print(gg)
<-
gg |>
mc_data ggplot(aes(x = alpha)) + # alpha の推定値の分布
geom_density(fill = "seagreen1",
colour = "seagreen4") +
geom_vline(xintercept = alpha, # alpha の真値
colour = "tomato",
linewidth = 1.2) +
xlim(0,10) +
labs(x = expression(alpha), title = paste("n =",n))
print(gg)
}
日射量データの区間推定
問題
東京都の気候データ (tokyo_weather.csv
) の日射量 (solar
) の項目について以下の問に答えよ.
- 全データによる平均値を計算しなさい.
- ランダムに抽出した50点を用いて,平均値の0.9(90%)信頼区間を求めなさい.
- 上記の推定を100回繰り返した際,真の値(全データによる平均値)が信頼区間に何回含まれるか確認しなさい.
余力のある者は,自身で収集したデータで区間推定を試みよ.
解答例
全データによる平均値の計算を行う.
<- tw_data |> pull(solar) |> mean()) # 真値 (mu
[1] 13.88866
これを真値として信頼区間の精度の検証を行う.
ランダムに選んだデータ50点を用いて90%信頼区間を構成する.
set.seed(1357) # 乱数のシード値の指定 (変更して再現性を確認してみよ)
<- 50
n <- # 平均と標準偏差の推定を行う
est |>
tw_data slice_sample(n = n) |> # ランダムにn個取り出す
summarize(across(solar, list(mean = mean, sd = sd)))
<- est[["solar_mean"]] # 標本平均
xbar <- est[["solar_sd"]] # 標本標準偏差
sigma <- qnorm(0.95) # 標準正規分布の0.95分位点
z95 <- c(L = xbar-z95*sigma/sqrt(n),
(ci U = xbar+z95*sigma/sqrt(n))) # 信頼区間
L U
12.66197 15.93843
これを複数回行い,信頼区間の正答率を評価する.
<- 100
mc <- function(n){ # nを変えて実験できるように
mc_trial <- tw_data |> slice_sample(n = n) |>
est summarize(across(solar, list(mean = mean, sd = sd)))
<- est[["solar_mean"]] # 標本平均
xbar <- est[["solar_sd"]] # 標本標準偏差
sigma return(c(L = xbar-z95*sigma/sqrt(n),
U = xbar+z95*sigma/sqrt(n))) # 信頼区間
}<- # 信頼区間のMonte-Carlo実験
mc_data replicate(mc, mc_trial(n)) |> t() |> as_tibble() |>
mutate(answer = L < mu & mu < U) # 真値が信頼区間に含まれるか
|> count(answer) # 頻度を見る mc_data
# A tibble: 2 × 2
answer n
<lgl> <int>
1 FALSE 4
2 TRUE 96
信頼区間について更に多数で評価してみる.
<- 2000
mc <- # 信頼区間のMonte-Carlo実験
mc_data replicate(mc, mc_trial(n)) |> t() |> as_tibble() |>
mutate(answer = L < mu & mu < U)
|> count(answer) |> mutate(prob=n/sum(n)) # 確率を見る mc_data
# A tibble: 2 × 3
answer n prob
<lgl> <int> <dbl>
1 FALSE 194 0.097
2 TRUE 1806 0.903
日射量の平均の推定における観測データを全て使った推定値(真値に相当)と信頼区間の関係をグラフを描いて確認してみる.
<- 20
k |>
mc_data slice_sample(n = k) |> # k個ランダムに選んで描く
rowid_to_column(var = "index") |>
ggplot(aes(x = index)) +
geom_errorbar(aes(ymin = L, ymax = U),
colour = "blue",
width = 0.2) +
geom_hline(yintercept = mu, # 観測データを全て使った推定値
colour = "orange",
linewidth = 1.1)