Graviness Blog

算数・数学・科学・電脳・雑記・アホの順の密度で記事が構成されます。
<< June 2019 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 >> ブログランキング・にほんブログ村へ
 
RECOMMEND
ビッグバン宇宙論 (上)
ビッグバン宇宙論 (上) (JUGEMレビュー »)
サイモン・シン, 青木 薫
RECENT COMMENT
  • 元利均等返済の計算式の導出
    優乃 (06/04)
  • 元利均等返済の計算式の導出
    yasu (06/04)
  • 元利均等返済の計算式の導出
    優乃 (05/31)
  • 元利均等返済の計算式の導出
    優乃 (05/31)
  • 元利均等返済の計算式の導出
    yasu (05/28)
  • 豊臣秀吉と曾呂利新左衛門から学ぶ数列の和
    優乃 (07/12)
  • 【誰か解いて】漸化式 a_(n+1) = f(n) * a_n ^ g(n) + h(n) の一般項
    優乃 (02/18)
  • 【誰か解いて】漸化式 a_(n+1) = f(n) * a_n ^ g(n) + h(n) の一般項
    S.S.+ (02/16)
  • 豊臣秀吉と曾呂利新左衛門から学ぶ数列の和
    坂井昭 (03/19)
  • d/dx(x↑↑n): 高さが定数のテトレーションの微分 - 数学的帰納法を用いる方法
    (09/30)
RECENT TRACKBACK
MOBILE
qrcode
PROFILE
無料ブログ作成サービス JUGEM
 
母比率の推定に必要なサンプルサイズの関係式を導出する

統計学で成り立つ関係式や論法は、深く理解せずに引用すると間違った使い方をすることがままあります。

視聴率や当たり外れの確率などを調査するための適切なサンプルサイズを知りたくて調べ始めたのですが、なぜそういう関係式が成り立つのか私には説明がしっくりきませんでした。

本記事では、母比率の推定に必要なサンプルサイズの関係式を、私なりの導出方法を示します。具体的には、二項分布から始めずに一般的な分布から始めて導出します。「中心極限定理、平均値の区間推定」の知識を必要とします。

JUGEMテーマ:学問・学校

母集団から無作為に抽出した個のデータをとするとき、

標本平均

であり、母平均を、母分散をとすれば、

統計量

は、中心極限定理により、十分大きなについて近似的に標準正規分布に従います。よって、上側%点をとするとき、

が成り立ちます。ゆえに、

ここで、とおいて、信頼係数のもと、標本平均と母平均との差を以内にするために十分なサンプルサイズは次式で得られます。(天井関数

...

なお、実用上はが未知なので、何らかの推定値をえいやーで使用します。

ここまでが、母集団の分布を特定しない一般的な分布の場合の導出であり、以降は母比率の場合の導出です。

まず、元が"0"と"1"しか含まない集合を対象とします。このとき、最初に示した標本平均について、右辺のの値は"0"か"1"であり、は、"1"の個数を表します。これを抽出回数で割るため、結局は標本比率であり、母比率一致推定量となります。また、一般的な場合、,は未知でしたが、母比率の場合、最大値が求まります。まず一般的な分散の定義は以下であり、

今、任意のなので、が成り立ちます。ゆえに

ゆえに

また、と再解釈し、これらを,謀用すれば、信頼係数のもと、標本比率と母比率との差を以内にするために十分なサンプルサイズは次式で得られます。

e.g. 信頼係数0.95のもと、標本比率と母比率との差を1%以内にするサンプルサイズは?

信頼係数であり、なので、

ここまでが、サンプルサイズの導出です。記事は長くなりますが、ついでに母比率の信頼区間も導出します。最後にまとめます。

一般的な分布の導出で示した確率の式を変形すると下式が成り立ちます。

ここから直ちに信頼区間が求まりますが、実用上は、が未知のことがありますので、

標本分散

で代用し、母平均%信頼区間は下式で得られます。

...

NOTE: が小さい場合、不偏分散を使用し、分布も標準正規分布ではなく、T分布を使用します。

さて、ここからが母比率の場合の導出です。標本分散について変形すると、

ここで、任意のなので、が成り立ちます。ゆえに

これを△謀用し、母比率%信頼区間は下式で得られます。

e.g. サンプルサイズ、標本比率のとき、母比率の95%信頼区間は?

信頼係数であり、なので、

以下にまとめておきます。標本比率標準正規分布の上側%点を天井関数とします。

信頼係数のもと、標本比率と母比率との差を以内にするサンプルサイズ:

十分大きなについて、母比率%信頼区間:

あとがき:

* ここまでやったらT分布から算出してみたくなりますが、という式をについて解くことになり、断念したわけで。

* 本記事の数式表示には、CODECOGS® Equation Editorを使用しました。

コメント
コメントする









 
トラックバック
この記事のトラックバックURL
http://blog.graviness.com/trackback/949271
 

(C) 2019 ブログ JUGEM Some Rights Reserved.