基礎理論

統計における正規分布と標準偏差を理解しよう!

2022年7月6日

「正規分布」この言葉をある程度理解するのに何年掛かったことか...

ということで、今回は統計における、正規分布の意味とそれに深く関係する標準偏差について解説します!

統計とは?

そもそも「統計」って何なんでしょう?

「統計」という言葉はよく出ますが、何となくフワッと使っていることが多いですよね。

「統計的には多いですよね」、「統計的にはどうなんだ?」みたいな感じで、平均的な指標をベースに比較したりしている感じですかね。

ということで、辞書で「統計」という言葉を調べてみると以下のように記載されています。

集団における個々の要素の分布を調べ、その集団の傾向・性質などを数量的に統一的に明らかにすること。また、その結果として得られた数値。」(例 統計をとる)(広辞苑より)

「傾向・性質」を「数量的」に明らかにすることですね。

統計は感覚的では無く、根拠ある数字として説明するのに役立ちます。

そして、ITにおいて、統計を使うことで、製品の品質を確認したり、システム開発におけるバグの発生頻度や作業の品質を確認したりすることができます。

統計学という言葉があるように、統計には様々な手法を使って、数値化することができますが、今回は基本となる標準偏差と正規分布を学びましょう。

 

標準偏差とは?

標準偏差とは「データが平均値からどの程度のばらつきがあるのか」を表現するための数値です。

平均値は同じでも、データのばらつきには違いがあります。

よくある例として、テストの平均点と偏差値の話があります。

5人で数学のテストを受けて、「全員が80点の時」と、「60点、70点、80点、90点、100点」はどちらも平均点は同じ80点になります。ただし、後者は点数にばらつきがありますね。

図で表すと以下のようになりますね。

同じ平均点でのバラつき

このように平均値が同じでも、テストの難易度は違います。

難易度を知るためには、このデータのバラつきがどのぐらいあるのかを知っておく必要があります。

そこで、平均値と各データとの差分を求めて2乗したものの平均を取ることで、データのバラつきを測ることができます。この値を分散と呼びます。

公式で書くとちょっと難しく見えますが、一応以下のようになります。

分散を \( σ^2 \)、データの総数を\( n \)、それぞれのデータの値を \( x1, x2, ⋯, xn \)、平均値を \( \overline{x} \) とする。

分散

$$\begin{align*} {\displaystyle σ^2 = \frac{1}{n} \{(x_1 − \overline{x})^2 + (x_2 − \overline{x})^2 + \cdots + (x_n − \overline{x})^2\}} \end{align*}$$

そして、この分散の値を、元の数値と同じ次元で見るために平方根を取ります。これが標準偏差(σ)となります。

標準偏差

$$\begin{align*} {\displaystyle σ = \sqrt{σ^2}} \end{align*}$$

ということで、実際の計算をしてみましょう。

上の平均点が80点の例における、点差のずれが5点ずつ、と10点ずつの場合の標準偏差はどうなりますでしょうか?

点差が5点ずれの場合

$$\begin{align*} 分散σ^2 &= \frac {(70 − 80)^2 + (75 − 80)^2 + (80 − 80)^2 + (85 − 80)^2 + (90 − 80)^2 }{5} \\
&= \frac {100 + 25 + 0 + 25 + 100}{5} \\
&= \frac {250}{5} \\
&= 50 \\ \\
標準偏差σ &=\sqrt{50} \\
&= 7.071... \end{align*}$$

点差が10点ずれの場合

$$\begin{align*} 分散σ^2 &= \frac {(60 − 80)^2 + (70 − 80)^2 + (80 − 80)^2 + (90 − 80)^2 + (100 − 80)^2 }{5} \\
&= \frac {400 + 100 + 0 + 100 + 400}{5} \\
&= \frac {1000}{5} \\
&= 200 \\ \\
標準偏差σ &=\sqrt{200} \\
&= 14.142... \end{align*}$$

点差にバラツキがあると、標準偏差も値も大きくなることが分かりますね。

では、続いて標準偏差と正規分布の関係について、解説していきます!

 

正規分布とは?

正規分布とは「独立した事象について大量のデータを取った場合、その分布は左右対称となる釣鐘上の曲線を描くグラフ形状のこと」となります。

この正規分布の中心を平均値として、左右に広がる目盛りには、先ほどの標準偏差(σ)が使われ、標準偏差の値によって、正規分布の形が変わってきます。

つまり、標準偏差が大きい(バラつきが大きい)と、正規分布は横に広がり、高さが低くなります。

平均値(μ)が「0」で標準偏差が「1」である正規分布のことを「標準正規分布」と呼びます。

標準正規分布は以下のようなグラフになります。

標準正規分布

重要なこととして、正規分布におけるデータの範囲は以下のようになります。

正規分布のデータの範囲

  • 平均値から正負の標準偏差一つ分(±σ)の範囲に全データの「68.3%」が含まれる
  • 平均値から正負の標準偏差二つ分(±2σ)の範囲に全データの「95.4%」が含まれる
  • 平均値から正負の標準偏差三つ分(±3σ)の範囲に全データの「95.4%」が含まれる

つまり、正規分布においては平均値から標準偏差±3σの間にほぼすべてのデータが含まれることになりますね。

先ほどの数学の点数における正規分布は以下のようになります。点数のバラつきが大きいと正規分布としては横に潰れた感じになり、データが幅広い範囲に広がるのが分かりますね。

平均点80点の標準偏差別の正規分布

 

まとめ

今回は統計における正規分布と標準偏差に関して解説してきました。

まとめ

  • 標準偏差とは「データが平均値からどの程度のばらつきがあるのか」を表現するための数値
  • 正規分布とは「独立した事象について大量のデータを取った場合、その分布は左右対称となる釣鐘上の曲線を描くグラフ形状」のこと
  • 標準偏差が大きい(バラつきが大きい)と、正規分布は横に広がり、高さが低くなる

統計学においてデータの傾向を数値化して、グラフに表現するために、標準偏差を計算し、正規分布にする流れが分かったかと思います。

正規分布にすることで、製品や作業の品質を推し量ることができるだけでなく、テストの難易度などにも使えるので、日常的にも活用できると良いですね。

例えば就寝時間や睡眠時間を正規分布にしてみると、自分が規則正しく睡眠が取れているのかも分かって面白いかもしれないですね。

以上です!

-基礎理論