BPA:群間変動性ランダム効果-GLMM

BPA: ポアソンGLM 第4章 その2
BPA BUGSで学ぶ階層モデリング Baysian Population Analysis Using WinBUGS, Marc Kery & Michael Schaubの学習ノート
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
時間i 空間jで得られたCi,jを年の3次多項式関数モデルとする。期待計数値λi,jのポアソン分布を仮定する。
Ci,j ~ Poisson(λi,j)

対数リンク関数
log(λi,j) = αj + ?βp * Xi^p + εi

αj ~ Normal(μ, σα^2)
εi ~ Normal(0, σε^2)

平均サイト効果μを全体の切片とすると
この場合、サイト効果の分布は、平均μではなく0の正規分布となる
log(λi,j) = μ + ?βp * Xi^p + αj + εi

αj ~ Normal(0, σα^2)
εi ~ Normal(0, σε^2)

winBUGSを使うと、

途中でハング!

4.3.2 実際のデータセット解析
1999年からのスイス繁殖鳥類調査MHBのデータ解析。
サイト、年ごとの推定なわばり数の計数値データ:235サイトで9年間に得られたデータの一部。ヒガラの年ごとのなわばり数をモデル化する。解析の目的は、ヒガラ個体群の増減の傾向、サイト・年・観測者の間で計数値データが得られている。
固定効果モデルとランダム効果モデルを比較することでランダム効果への理解を深める。
Ci,j ~ Poisson(λi,j) #データの分布
log(λi,j) = αj + β1 * 年i + β2 * Fi,j + δi + γk(i,j) #リンク関数と線形予測子
αj ~ Normal(μ, σα^2) #ランダムサイト効果
δi ~ Normal(0, σδ^2) #ランダム効果年
γk(i,j) ~ Normal(0,σγ^2) #ランダム観察者効果
Fi,j: 観測者が初めてサイトを調査したことを表す指標変数

ベクトル変数Cには、as.matrix(tits[5:13])により、上記行列から5行?13行の年ごとの計測数情報が観測者ごとにまとめられている

点であらわすとこんなデータ

以下、切片だけを含む最も単純なモデルから始めて、徐々に複雑にしていく。
まずは、帰無モデル、切片だけのモデル

αの平均μ は2.668 ± 0.006
αの分散σ は32853.287 ± 4.713
αの標準偏差sd 0.005517097 ± 0.460629

mean sd 2.5% 25% 50% 75% 97.5% Rhat
2.668 0.006 2.656 2.664 2.668 2.672 2.679 1.002
deviance 32853.287 4.713 32850.000 32850.000 32850.000 32860.000 32860.000 1.001

αの分布を正規分布に当てはめて描くと、


このモデルでは、ヒガラの平均観測密度は、exp(2.67)=14.4

mean 2.5% = 2.656 exp(mean 2.5%) = 14.23922
mean 50% = 2.668 exp(mean 50%) = 14.41112
mean 97.5% = 2.679 exp(mean 97.5%) = 14.57052

> y <- c(mean(C[,1], na.rm=TRUE),mean(C[,2], na.rm=TRUE),mean(C[,3], na.rm=TRUE),mean(C[,4], na.rm=TRUE),mean(C[,5], na.rm=TRUE),mean(C[,6], na.rm=TRUE),mean(C[,6], na.rm=TRUE),mean(C[,8], na.rm=TRUE),mean(C[,9], na.rm=TRUE)) 年ごとの平均値と、今回ベイズ流に求めた全体の平均値±95%信用区間 > matplot(1999:2007, y, type = “l”, lty = 1, lwd = 1, main = “”, las = 1, ylab = “Territory counts”, xlab = “Year”, ylim = c(0, 80), frame = FALSE)

> abline(h=14.41112, col=”red”)
> abline(h=14.23922, col = gray(0.5))
> abline(h=14.57052, col = gray(0.5))


こんなところがこのモデル化による結果というところか。
つまり、全体の平均で置き換えたというところか。

次に固定サイト効果を追加する。サイトsiteは、235個含まれている。
これらのサイトごとにパラメータαi = ポアソン分布の平均値を正規分布として定義する。サイトごとに計測値がどうかという情報が得られるということか。


これだけの調査レポートだと、分析やり直しとなるであろう。
年ごとはどうなっているのかに答える必要があるだろう。

次は、固定サイト効果に固定年効果を組み込む


固定年効果epsの結果を見てみよう。

年によって、計測数1程度影響することがわかる。


サイト効果に年ごとの固定効果を組み込んだモデルをボックスプロット表示してみる。

 

次に固定効果の代わりに、ランダムサイト効果(年効果なし)を指定する。
この場合、alpha[j] ~ dnorm(mu.alpha, tau.alpha)で、平均mu.alpha、と標準偏差tau.alphaとその階層超パラメータsd.alpha

パラメータalpha, mu.alpha, tau.alpha, sd.alphaがどうなったかを確認する。

sd.alphaが1.328842なので、tau.alphaは、
> 1/(1.328842)^2
[1] 0.5663088
となる。
サイトに関するランダム効果は、正規分布normal(mu.alpha, tau.alpha)であるが、normal(2,092945, 0.5663088)となる。
サイトランダム効果alphaの頻度分布
> hist(exp(out3$mean$alpha))

次に、ランダムサイト効果、ランダム年効果を指定する。
モデルは、mu + alpha[j] + eps[i]

out4の結果を分析してみる。

tau.alphaは、

μ=2.079934
alpha = サイトランダム要因
年ランダム要因epsは、
[1] -0.002253751 0.071110502 -0.160016563 -0.108322322 0.054035349 0.094344020
[7] 0.216188823 -0.161350977 -0.067930269

これらのデータをまとめて、統計モデル化した年ごとの計測数値のボックスプロットを作成すると、

次に初年観察者効果を固定効果として追加する。
モデルは mu + beta2 * first[i,j] + alpha[j] + eps[i]

out5を分析してみる。

mu + beta2 * first[i,j] + alpha[j] + eps[i]

mu 2.104949
beta2 -0.003049007

beta2は、ゼロに近いのであまり初観察者の影響はなさそう。

年のランダム効果epsは、
-0.006911767 0.065316257 -0.166528909 -0.114507471 0.047833060 0.088227762 0.209970180 -0.168289142 -0.074628521

念のため、各年における初観察者と経験者を分けて、ボックスプロットで表示してみる。


結果、1999年を除いて、大きな差はなさそうである。

続いて、時間に伴う全般的な線形増減傾向を加える。モデルは、
mu + beta1 * year[i] + beta2 * first[i,j] + alpha[j] + eps[i]

out6を分析してみる。

モデルは、mu + beta1 * year[i] + beta2 * first[i,j] + alpha[j] + eps[i]

$mu 2.085063
beta1 -0.009154471
beta2 -0.002999401
eps -0.001419146 0.073006750 -0.156694476 -0.103126514 0.062377340 0.105235248 0.229295271 -0.147793252 -0.051034461

注意はyear[]


以下、前前々回の線形増減傾向を含まない場合と比較してみる。

線形増減傾向はbeta2=-0.002999401と小さいので、ほとんどプロットには影響しなかった。

最後にフルモデル
mu + beta1 * year[i] + beta2 * first[i,j] + alpha[j] + gamma[newobs[i,j]] + eps[i]
ランダム観察者効果として

が含まれている。

out7を分析してみる。

mu 2.083956
beta1 -0.02027451
beta2 0.02040788

モデルは
mu + beta1 * year[i] + beta2 * first[i,j] + alpha[j] + gamma[newobs[i,j]] + eps[i]

gamma[]は、272個のデータが含まれている。
newobs[i,j]とは忘れそうになるが、解析の当初に観測者に新たに連番で割り振ったID番号であるが、観測者データの欠損には272があてがわれた。

235の観測サイトの調査には、どの観測者が担当したかのデータが含まれている。

観察サイトにおける観察者の情報に基づくgamma[]指定は、例えば初年1999年は以下のように指定できる

そこで年度ごとのデータをモデル式に挿入すると、

前回の分析結果と比較すると

前回と、調査差のランダム効果を含めた今回を並べて比較してみる。