統計学では「サンプルサイズが30以上の場合、十分大きいサンプルとみなす」と言われることが多々あります。この根拠について考えてみました。
「サンプルサイズが30以上の場合、十分大きいサンプルとみなす」とする根拠としては、
統計処理を行う際に以下のメリットを活用できるサンプルサイズの境目が約30だからという線が濃厚です。
- 平均値が正規分布に従うようになる
- t分布と正規分布がほぼ一致する
サンプルサイズを30以上を推奨する例
統計学の検定を勉強していると「サンプルサイズが30以上の場合、十分大きいサンプルとみなす」などの文言を目にしたことはないでしょうか?たとえば、WikipediaのZ検定のページには以下のように記載されています。
母集団は正規分布に従うことがわかっていなければならない。ただし母集団が正規分布に従うかどうか判然としない場合でも、用いる標本のサイズが十分大きければ(一般に30から40以上ならば)よい。
Z検定 – Wikipedia
このように唐突に30という数字が現れ、なんで??と感じる方が多いのではないでしょうか。
この根拠を調べてみると、統計処理を行う際に以下のメリットを活用できるサンプルサイズの境目が約30だからという線が濃厚です。
- 平均値が正規分布に従うようになる
- t分布と正規分布がほぼ一致する
以下で詳細を説明していきますね。
メリット1 平均値が正規分布に従うようになる
統計で検定などの処理を行う場合、前提としてデータが正規分布に従っていること(正規性)を仮定している場合がほとんどです。
とはいえ、データが正規分布に従っているか、なんてすぐにわかることでしょうか?
どのようなデータなのか結果が知りたいから実験や調査を行っているわけで、ましてや少数のデータしかない場合は分布なんてわからいのでは…?そう思ってしまいますよね。
こんなときの強い味方が中心極限定理です。
多くの場合、母集団の確率分布がどんな分布であっても、標本平均と母平均の誤差の分布は、標本の大きさを大きくしたとき近似的に期待値ゼロの正規分布になる。
中心極限定理 – Wikipedia
少し難しい書き方がされていますが、要は元の分布がどんな分布であっても、サンプルサイズを大きくしていくと平均値は正規分布に従うということを示しています。
このときだいたい正規分布になるサンプルサイズが約30ということですね。 ただし、元の分布の形状によってどの程度正規分布に近づくかはかなり差があるようですので、あくまで目安程度に考えておいたほうがよさそうです。
メリット2 t分布が正規分布とほぼ同一になる
Z検定とt検定の使い分けとして、以下のように説明される場合があります。
- Z検定 サンプルサイズ30以上 or 母分散が既知の場合
- t検定 サンプルサイズ30未満 & 母分散が未知の場合
ここでもサンプルサイズによる使い分けが現れます。この理由としてはサンプルサイズが30を超えるとZ値≒t値となるためです。どちらを使っても大差がなくなるわけですね。
まとめ
サンプルサイズ30の根拠としては、統計処理を行う際に2つのメリットを活用できるからのようです。
- 平均値が正規分布に従うようになる
- t分布と正規分布がほぼ一致する
サンプルサイズが大きい場合はまさに統計学の得意分野ですので、様々なメリットが得られるわけですね。
更新履歴
2025/2/7 公開
コメント