バラツキの指標として知られる標準偏差・標準誤差・信頼区間の使い分け…なんだか言葉が似ていてよくわからない…
グラフのエラーバーもなんとなく“バラツキ”を表しているのはわかるけど…なにを表しているの?なにを表せばいいの…?
そんな疑問を持つ方に向けた記事です。
- エラーバーに表示できるのは、標準偏差・標準誤差・信頼区間の3パターン
- 使い分けは以下の通り↓
- 標準偏差 データの個々の値のバラつき
- 標準誤差 データの平均値のバラつき(標準的評価、67%信頼区間と同じ)
- 信頼区間 データの平均値のバラつき(厳しめ評価、95%信頼区間など)
- エラーバーを読み書きする際は、”何を表しているか”に注意する
エラーバーには決まりがない!?
実はエラーバーの付け方にはこれといった決まりはないそうです。決まりがないということは…
ということですよね。以下ではエラーバーとして示すことがバラツキの指標に関して説明します。
バラツキを表す3つの指標
エラーバーとして示すことがある値は主に以下の3パターンです。その違いとつかいどころをおさえましょう!
パターン1 標準偏差 \(\bar{x}\pm s\)
データの個々の値のバラつきに着目したいとき
バラツキを表す最もスタンダードな指標が標準偏差です。データの1つ1つの値がどの程度ばらついているかを示しています。
例えばもう1点データを追加した場合に、どの程度の範囲にデータが現れそうか?という視点でデータを観察したい場合に適しています。
= STDEV.S(数値)
パターン2 標準誤差 \(\bar{x}\pm \frac{s}{\sqrt{n}} \)
データの平均値のバラつきに着目したいとき(標準的な評価)
標準誤差は標準偏差をサンプルサイズの平方根\(\sqrt{n}\)で割った形となっており、標準偏差よりも狭い範囲を示します。これは個々の値ではなく、平均値の範囲を表しているためです。
例えば、データをたくさん集めて平均した値がどの範囲に収束していくのか?という視点でデータを観察したい場合に適しています。
パターン3 信頼区間 \(\bar{x} \pm t_{0.025} \frac{s}{\sqrt{n}} \)
データの平均値のバラつきに着目したいとき(厳しめ評価)
信頼区間は標準誤差にt値と呼ばれる値が掛け算されており、標準誤差よりも広い範囲を表します。t値によってその信頼水準が変化するのですが、95%が最も一般的です。
t値は自由度によって変化します。つまり、何個のサンプルを平均するか変わりますのでご注意を。エクセルで計算したいときは、以下の式を使ってみてください。
パターン1:次の式でt値を計算し\(t_{0.025} \frac{s}{\sqrt{n}} \)に代入
= T.INV.2T(確率, 自由度)
確率 :有意水準 95%信頼区間を表したい場合は0.05を入力(有意水準=100-95=5%)
自由度:サンプルサイズ-1
パターン2:関数でいっぱつ
= CONFIDENCE.T(有意水準, 標準偏差, 標本数)
有意水準:95%信頼区間を表したい場合は0.05を入力(有意水準=100-95=5%)
標準偏差:標準偏差を計算したセルを指定
標本数 :標準偏差の計算に使用したデータ数
実は、標準誤差は信頼区間のt値が1である特別な場合と考えることもでき、そのときの信頼水準は約67%です。(標準誤差=67%信頼区間)95%信頼区間の方が、信頼水準を更に高めた形となっていますね。
例えば、標準誤差の場合と同様、データをたくさん集めて平均した値がどの範囲に収束していくのか?という視点でデータを観察したい場合に適しています。
例題で3パターンの違いを確認
化学薬品の充填はA・B両充填機で行われている。充填機により充填量に差があるかどうか検討せよ。
充填機 | 充填量 | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
A | 20.8 | 19.6 | 20.4 | 20 | 20.9 | 20.1 | 20.6 | 20.1 | 20.3 | 19.9 |
B | 20.3 | 20.8 | 20.7 | 20.9 | 20.3 | 20.8 | 21 | 21 |
これをグラフで表すとどう見えるでしょう。
以下に3パターンのエラーバーをつけて比較してみました。ずいぶん印象が異なるのではないでしょうか?
標準偏差

標準誤差

95%信頼区間

- 標準偏差 \(\bar{x}\pm s\)
平均値をプロットし、標準偏差をエラーバーとしています。
それぞれの充填機でもう1サンプル作成した場合、この程度バラツキますと示したいときにつかえますです。 - 標準誤差 \(\bar{x}\pm \frac{s}{\sqrt{n}} \)
標準偏差をそれぞれのサンプル数(充填機Aは10、充填機Bは8)の平方根で割っています。
それぞれの充填機の充填量の平均値はこの範囲内に収まる(信頼水準67%程度)と示したいときにつかえます。 - 95%信頼区間 \(\bar{x} \pm t_{0.025} \frac{s}{\sqrt{n}} \)
t値は自由度(充填機Aは10 – 1 = 9、充填機Bは8 – 1 = 7) と信頼水準(95%)から充填機Aは2.26、充填機Bは2.36です。
それぞれの充填機の充填量の平均値はこの範囲内に収まる(信頼水準95%)と示したいときにつかえます。
まとめ
わかりにくいバラツキの指標の使い分けをできるだけわかりやすく説明してみました。意外と誰も教えてくれないエラーバーのつかいわけについても理解いただけたのではないでしょうか。
書くとき、読むとき、いずれの場合でも何を表しているかしっかり確認しましょう!
更新履歴
2025/02/21 公開
コメント