二項分布、検定、信頼区間

????????????????
Rで楽しむ統計(奥村晴彦著、共立出版)からの学習ノート
????????????????
二項分布 binomial distribution
コインの表が出る確率をθとすれば、裏の出る確率は1-θ
毎回の表裏の出方は独立であるとすると、表がr回でる確率は、
nCr*θ^r*(1-θ)^n-r
である。
nCr = (n r) = n! / (r!(n-r)!)

これをBinom(n, θ)と表し、表が出る回数rが二項分布Binom(n,θ)に従うことを
r~Binom(n, θ)
と表す。

Rでは階乗はfactorial()、組み合わせはchoose()で求める。

確率0.4で表が出るコインを10回投げて、表が3回出る確率は10C3*0.4^3*0.6^7
dbinom(r, n, θ)でも求められる。

確率0.5で表が出るコインを10回投げて、0〜10枚表が出る確率を全部出力すると、

barplotで表示してみると、


ここで、names.arg変数は軸のラベル指定、lasは軸ラベルを水平に書くオプション。
累積確率はpbinom()関数で求める。

統計的仮説検定の考え方
「あるコインを10回投げて表が2回しかでなかったことから、このコインは表が出にくいといってよいか?」との疑問に対して、「このコインは表や裏がでやすい」と仮定(帰無仮説null hypothesis)する。

表が2回出る確率は0.044。さらにそれより珍しい表や裏が1回とか0回の確率の和を求めると、
p = 0.11
p< 0.05を有意と考えるならば、この程度では有意水準0.05に達していないので、この仮説は棄却rejectされる。 二項分布の検定にはbinom.test()関数がある。

p-valueがp値である。 5回の場合は、p=1となり、1回の場合は、9回と同じ、2回の場合は8回と同じ。

ついでに1回とか0回も求めてみる.

p値だけをほしいときは、

と打ち込めば良い。 統計的仮説検定に関する議論
Type I error 確率α:帰無仮説が正しいのに棄却してしまうエラー
Type II error確率β:対立仮説が正しいのに帰無仮説が棄却できないエラー

信頼区間
コインを10回投げて、表が4回でるとき、二項分布のパラメータθをいろいろと変えた場合のp値の変化を見てみる。


このグラフからp値>=0.05になる範囲を求めると、0.15<=θ<=0.7091となる。 従って、θが0.15<=θ<=0.7091の範囲の二項分布(10, θ)は、表が4回でるという事象と5%水準で整合する。θがこの範囲であれば、表が4回でてもおかしくないということで、この範囲をθの95%信頼区間95% confidence interval, 95%CI)という。 二項分布のような離散分布では、p値関数は不連続。 不連続でなくするためには片側検定p値を0.025以上になる範囲で求める。


この場合、信頼区間は0.1216<=θ<=0.7376 となった。 binom.test()関数を使えば、

古典的なClopper and Pearson法で95%信頼区間を算出する。 一方、両側p値が0.05以上になる確率で定義する信頼区間はexactciパッケージを使って最小尤度法minlikeで求めることができる。

と、95%信頼区間は0.15-0.7091と狭まった。 二項分布から正規分布へ
表が出る確率θのコインを一回投げて、表の出る枚数Xを数えれば、結果は確率θでX=1、1-θでX=0となる。このような分布をベルヌーイ分布という。
ベルヌーイ分布の期待値(平均)は
E(X) = θ ? 1 + (1-θ)? 0 = θ となる。
分散は
V(X) = θ * (1-θ)^2 + (1-θ)(0-θ)^2 = θ(1-θ)

二項分布はベルヌーイ分布に従う独立n個の確率変数の和の分布である。
nが大きい二項分布は正規分布に近づく。
Binom(n, θ)->N(nθ, nθ(1-θ))
これが中心極限定理である。

尤度と最尤法
二項分布Binom(10,θ)に従う確率変数Xの確率分布は
10Cx*θ^x*(1-θ)^(10-x)

ここで表が4回とわかった時点で、
L(θ) = 10C4*θ^4*(1-θ)^6
とθの関数となる、これをθの尤度likelihoodという。

もっともらしいθの値は、この尤度を最大にするθであると定め、最尤法と呼ぶ。
尤度の対数を取って、対数尤度とすると、
logL(θ) = log(10C4) + 4logθ + 6log(1-θ)

 θで微分したものを0とおけば、最大値のθが求められる。
d/dθ * logL(θ) = 4/θ – 6/(1-θ) = 0

従ってθ=0.4