ねぎとろ放浪記

ねぎとろ放浪記

個人的備忘録です。勉強したことをまとめていきます。

母比率の区間推定

何となく使えるようにする統計シリーズ第三弾
数学的にあいまいな表現が多々あります。

以下のような問題を考える。

ある大都市のうち、金魚を飼っている世帯数を調査する。
無作為に選び出した1500世帯のうち、300世帯が金魚を飼っていた。
このとき、この都市で金魚を飼っている世帯の95%信頼区間を求めよ。


母集団は十分大きいので、金魚を飼っている世帯数xは二項分布に従うと考えてよい。
よって世帯数xの期待と分散は

{E[x] = np}
{V[x] = np(1-p)}


となる。
ここで標本比率 \hat{p} = \frac{x}{n} を用いると、その期待値は

{\begin{eqnarray}
E[\hat{p}] &=& E[\frac{x}{n}] \\ &=& \frac{E[x]}{n} \\ &=& p
\end{eqnarray}}


分散は

{\begin{eqnarray}
V[\hat{p}] &=& V[\frac{x}{n}] \\
&=&  \frac{V[x]}{n^2} \\
&=& \frac{p(1-p)}{n}
\end{eqnarray}}


と表せる。
ここでnが大きいとき、二項分布に関する中心極限定理より、次のzが近似的に標準正規分布に従う。

{ z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}} }


よって標準正規分布の上側100\alpha/2%点を z_{\alpha/2} とすると信頼区間

{\hat{p} - z_{\alpha/2}\sqrt{\frac{p(1-p)}{n}} \leq p \leq \hat{p} + z_{\alpha/2}\sqrt{\frac{p(1-p)}{n}}}


となる。
これは二次不等式で解くのが面倒。
nが十分大きいので、最左辺と最右辺の p\hat{p} で置き換えて、

{\hat{p} - z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq p \leq \hat{p} + z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}


が信頼区間となる。



この問題では

{\hat{p} = \frac{300}{1500} = 0.2}


{1.96\times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} = 1.96\times\sqrt{\frac{0.2 \times 0.8}{1500}} \fallingdotseq 0.02 }


よって、求める信頼区間

{0.18 \leq p \leq 0.22}


となる。