医療現場では、データを正しく理解し、活用することが重要です。
例えば、患者の血圧や検査結果が安定しているかどうかを知るためには、「データのばらつき」を数値で表すことが必要 です。
そこで登場するのが、「分散」や「標準偏差」といった統計指標です。
また、「不偏分散」と「標本内の分散」という似た概念があり、どちらを使えばよいのか迷うこともあるでしょう。
統計の専門書には数式が並びがちですが、本記事では 医療従事者向けにできるだけわかりやすく、「分散」や「標準偏差」の意味と使い方を具体例を交えて解説 します。
「分散」とは?データのばらつきを示す指標
1-1. 分散とは何か?
分散とは、データのばらつきを数値で表した指標 です。
データの値が平均の周りにまとまっているか、それとも大きく散らばっているかを測るために使われます。
例えば、以下のような 2つの患者グループの血圧データ を考えてみましょう。
患者 | Aグループ(mmHg) | Bグループ(mmHg) |
---|---|---|
1 | 100 | 110 |
2 | 102 | 90 |
3 | 101 | 105 |
4 | 99 | 95 |
5 | 98 | 100 |
平均 | 100 | 100 |
この2つのグループはどちらも 平均血圧が100mmHg ですが、データのばらつき(散らばり方)が異なります。
Aグループは 98~102mmHg と狭い範囲に収まっていますが、Bグループは 90~110mmHg まで大きく分布しています。
このように、データのばらつき(散らばり度合い)を定量的に測るのが分散 です。
1-2. 分散の計算方法
分散は、各データが平均からどれくらい離れているか(偏差)を二乗して、その平均を求める ことで算出されます。
計算手順
- 各データの値と平均値の差を求める(偏差)
- その偏差を二乗する(マイナスを消して大きなずれを強調するため)
- それらをすべて足してデータ数で割る
1-3. なぜ偏差を二乗するのか?
偏差をそのまま合計すると、プラスとマイナスが打ち消し合ってゼロになってしまうため、すべての値を正の数にするために二乗します。
標準偏差とは?分散の平方根をとる理由
分散の単位はデータの二乗になるため、平方根を取って元の単位に戻したものが標準偏差です。
標準偏差が持つ意味
- 標準偏差が小さい
→ データは平均の周りにまとまっている(ばらつきが少ない) - 標準偏差が大きい
→ データが広範囲に散らばっている(ばらつきが大きい)
不偏分散と標本内の分散の違いを理解しよう
3-1. 標本内の分散(nで割る方法)
手元のデータ(標本)内のばらつきを測る場合、分散を求める際に「データ数 ( n ) で割る」方法を使うことがあります。
これは 標本内のばらつきを直接計算したい場合 に用いるものであり、この値を母集団の分散の推定値として使うと、一般的に小さく見積もられてしまう ことに注意が必要です。
3-2. 不偏分散(n-1で割る理由)
標本データの平均(標本平均)は、母集団の平均(母平均)の推定値として用いられます。
しかし、標本内のデータだけを使って分散を求めると、母集団全体の分散よりも小さく見積もられる傾向があります。
この偏り(バイアス)を補正するために、分母を「データ数 – 1」(n-1) にするのが不偏分散 です。
これは数学的に証明されており、「n-1 で割ることで、母集団の分散の期待値と一致する」という特性があります。
まとめ
✅ 分散 はデータのばらつきを表し、「偏差の二乗の平均」として求める。
✅ 標準偏差 は分散の平方根を取ったもので、データと同じ単位になるため解釈しやすい。
✅ 標本内の分散 は手元のデータのばらつきを測る場合に使う(nで割る)。
✅ 不偏分散(標本分散) は標本データから母集団の分散を推定する場合に使う(n-1で割る)。
分散と標準偏差
統計学では、データのばらつきを表す指標として分散や標準偏差がよく用いられます。
以下、それぞれの定義を示します。
分散(Variance, \( \sigma^2 \))
\( \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i – \mu)^2 \)➡ 平均からの偏差の二乗の平均
標準偏差 (Standard Deviation, \( \sigma \))
\( \sigma = \sqrt{\sigma^2} \)➡ 分散の平方根
不偏分散 (Unbiased Variance, \( s^2 \))
\( s^2 = \frac{1}{N-1} \sum_{i=1}^{N} (x_i – \bar{x})^2 \)➡ データ数引く 1 で割る
標本分散 (Sample Variance, \( s^2 \))
\( s^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i – \bar{x})^2 \)統計の基本を理解し、医療データの分析に役立てていきましょう。
コメント