黄昏より暗きもの、血の流れより赤きもの

読者です 読者をやめる 読者になる 読者になる

黄昏より暗きもの、血の流れより赤きもの

自分の好きな事を好きなように書いて行きます。

【統計検定2級 2015年11月度 問14】中心極限定理と母比率の信頼区間(区間推定)

確率 統計

はじめに

今日は例えばn人に標本調査したところ、実際の視聴率はどれだけであるか?あるいはn回ガチャを引く時、何回から何回までの間で当たりが来るかについて調べる事のできる母比率の信頼区間というテクニックを復習していく。

中心極限定理

まずその準備として中心極限定理を復習していく。

平均μ、分散σ^2の同一確率分布に従う確率変数X_1,X_2,X_3,....,X_nにおいて、\overline{X} = \frac{X_1+X_2+...+X_n}{n}(標本平均)とおく。このとき、Z=\frac{\overline{X}-μ}{\sqrt{\frac{σ^2}{n}}}(標準化)はn \to \inftyで標準正規分布N(0,1)に従う。

以下Zが標準正規分布N(0,1)に従う理由を整理していく。中心極限定理はサンプルサイズnを大きくしていくと、標本における平均\overline{X}と、真の平均μとの差\overline{X}-μは、正規分布N(0,\sqrt{\frac{σ^2}{n}})に従う。

ここで定数α、分散をV(X)とすればV(αX) = α^2V(X)が成立し、標準偏差においてはσ(αX) = ασ(X)となる。ともすれば標準偏差を1にする為にZ=\frac{1}{\sqrt{\frac{σ^2}{n}}}倍すればよく上のZを得る。*1

σ^2が既知のときにおける母平均の検定、区間推定を行うと言った時に中心極限定理を思い出すと公式を忘れずに話をすすめる事が出来るだろう。

中心極限定理を使って母比率の95%の信頼区間を計算

特に統計における区間推定と検定は、この中心極限定理を出発点にして議論が展開される場合もある。ここで、区間推定とは有意水準をαとして、P(S \leq X \leq T) = 1 - αとなるようなSとTを決定することを指す。また下の分布の面積が1 - αであることを示している。


f:id:program_study:20160518014410j:plain

以下中心極限定理を使い、母比率の95%の信頼区間を計算するまでの流れを説明したい。賛成反対のどちらかを答えるアンケート調査がある。賛成反対の2値につき、その分布は二項分布に従うとみなす事が出来る。ここで中心極限定理を使い、n人に対し標本調査した時、実際の賛成者の割合pがどの範囲に収まるかを検討したい。

1人1票投票できると仮定した時、賛成票の数をm人としたとき、標本調査における賛成票の割合\hat{p}=\frac{m}{n}となる。nが大きいとき、二項分布は正規分布に近似できるため、(1-α)における信頼区間を考える。中心極限定理と、二項分布の平均はn\hat{p}、分散はn\hat{p}(1-\hat{p})より以下のように表せる。

z(\frac{α}{2}) \leq \frac{\overline{X}-μ}{σ} \leq z(\frac{α}{2})
-σ×z(\frac{α}{2}) \leq (\overline{X}-μ) \leq σ×z(\frac{α}{2})
n \hat{p}- z(\frac{α}{2}) * \sqrt{n\hat{p}(1 - \hat{p})} \leq p \leq n \hat{p} + z(\frac{α}{2}) * \sqrt{n\hat{p}(1-\hat{p})}
\hat{p}- z(\frac{α}{2}) * \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}} \leq p \leq \hat{p}+ z(\frac{α}{2}) * \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}

練習問題:統計検定2016年 11月度 問題14より 中心極限定理と検定

次の文章は,母比率pの信頼区間について述べたものである。以下の(ア)〜(カ)に適当な語句を入れ、文章を完成させよ。
標本の大きさをn,標本比率を\hat{p} とする。\hat{p}は確率変数でありn が十分大きいとき平均p,標準偏差 \sqrt{\frac{p(1 − p)}{n}}正規分布にほぼ従う。したがって\hat{p} を標準化した確率変数 Z =(ア)は標準正規分布にほぼ従うので−1.96 ≤(ア)≤ 1.96 が 95%の確率で成り立つ。これを変形すると \hat{p}−(イ)≤ p ≤ \hat{p}+(イ)となり,この区間がpを含む確率は95%であることがわかる。この(イ)には未知の値pが含まれ るためpの代わりに標本比率\hat{p} を用いることでpの近似的な信頼区間が得られる。
一方,標本比率を用いなくても,信頼区間のおおよその幅を見積もることができ る。p(1 − p)が最大となるのは p =(ウ)のときであり,その最大値は(エ)である。そして,1.96 をほぼ 2 とみなすことにより(イ)の上限はほぼ(オ)となることがわかる。したがって信頼区間の幅が2 ×(オ)以下であることがわかる。さらにp =(ウ)のときの、信頼区間の幅が0.02以下(2%)となるような最小のnn \geq (カ)である。

(ア):\frac{(n\hat{p}- np)}{\sqrt{n\hat{p}(1-\hat{p})}}
(イ):-1.96 \leq \frac{(n\hat{p}- np)}{\sqrt{n\hat{p}(1-\hat{p})}} \leq 1.96
<=> -1.96 × \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}  \leq \hat{p} - p \leq 1.96 × \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
<=>\hat{p} - 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq p \leq \hat{p} + 1.96*\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}1.96*\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}

(ウ):f(p)=p(1-p)とおくと、f(p)=-(p-\frac{1}{2})^2  + \frac{1}{4} となる。f(\frac{1}{2}) = \frac{1}{4}よりp=\frac{1}{2}のとき、最大値\frac{1}{4}をとる。 (ウ)(エ)の答。

(オ):信頼区間の幅をΔとすると、
Δ=2 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} - (-2 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}) =4 \sqrt{\frac{1}{4n}}  = 2 \sqrt{\frac{1}{n}}

(カ):2*\sqrt{\frac{1}{n}} \leq 0.02 <=> \sqrt{\frac{1}{n}} \leq 0.01n  \geq 10000