頑張れ!受験生! 数学の公式・定理集あります。物理のヒント集始めました。
スポンサーリンク

データの分析|データの散らばりについて その2

数学1 データの分析 数学I

今回はデータの散らばりについての続きになります。データの散らばりの度合いを知るための数量として、四分位数や箱ひげ図を学習しました。

これだけがデータの散らばりの度合いを知る数量ではなく、ここで新しい数量を学習します。いくつか公式が出てきますが、この単元も頻出です。しっかり使えるようにしておきましょう。

スポンサーリンク
スポンサーリンク

この単元で学習すること

「データの散らばり(その2)」では以下のような事柄を学習します。

  • 偏差
  • 分散
  • 標準偏差

データの散らばりの度合いを知るためのものです。新しい用語がたくさん出てきますが、1つずつ丁寧に確認していきましょう。

偏差

ある変量についてのデータの値が以下のように定義されているとします。

変量とデータの各値
\begin{align*}
&\text{変量 $x$ についてのデータの値が、$n$ 個の値} \\[ 5pt ]
&\quad x_{\scriptsize{1}} \ , \ x_{\scriptsize{2}} \ , \cdots \cdots , \ x_{\scriptsize{n}} \\[ 5pt ]
&\text{であるとする。}
\end{align*}

このように変量とデータの各値が定義されているとき、平均値は以下のように表されます。

データの平均値
\begin{align*}
&\text{$x_{\scriptsize{1}} \ , \ x_{\scriptsize{2}} \ , \cdots \cdots , \ x_{\scriptsize{n}}$ の平均値を $\overline{x}$ とすると、} \\[ 5pt ]
&\quad \overline{x} = \frac{1}{n} (x_{\scriptsize{1}} + x_{\scriptsize{2}} + \cdots \cdots + x_{\scriptsize{n}}) \\[ 5pt ]
&\text{または} \\[ 5pt ]
&\quad \overline{x} = \frac{1}{n} \displaystyle \sum_{ k = 1 }^{ n } x_{\scriptsize{k}} \\[ 5pt ]
&\scriptsize{\text{(数列の知識があれば、文字式ではこちらの方が扱いやすい)}}
\end{align*}

このとき、変量 $x$ の $n$ 個の各値と平均値との差をそれぞれ平均値からの偏差と言います。

変量の各値と偏差
\begin{array}{c|c|c|c|c}
\scriptsize{\text{値}} & x_{\scriptsize{1}} & x_{\scriptsize{2}} & \cdots \cdots & x_{\scriptsize{n}} \\
\hline
\scriptsize{\text{偏差}} & x_{\scriptsize{1}} \ – \overline{x} & x_{\scriptsize{2}} \ – \overline{x} & \cdots \cdots & x_{\scriptsize{n}} \ – \overline{x}
\end{array}

偏差は各値が平均値からどれだけ離れているかを表す値なので、この偏差を用いるとデータの散らばりの度合いを知ることができます。しかし、偏差には正の値と負の値があるので、このまま偏差の和を取ってしまうと、平均値と偏差の関係からおかしなことになってしまいます。

平均値と偏差の関係

平均値は、各値を平らに均したときの値です。平均するとき、各値の過不足を互いに補うようにして平らに均します。このときの過不足が偏差に相当します。ですから、偏差の和を求めると必ず0になります。このままだと、データの散らばりの度合いを知ることに利用できないので、少し工夫します。

偏差の和は必ず0となる。

分散

偏差をそのまま用いるのではなく、各偏差をそれぞれ2乗し、すべて正の値にしてから利用します。この偏差の2乗の平均値分散と言います。分散は以下のように表されます。

分散
\begin{align*}
&\text{分散を $s^{\tiny{2}}$ とすると、} \\[ 5pt ]
&\quad s^{\tiny{2}} = \frac{1}{n} \Bigl\{ \bigl( x_{\scriptsize{1}} \ – \overline{x} \bigr)^{\tiny{2}} + \bigl(x_{\scriptsize{2}} \ – \overline{x} \bigr)^{\tiny{2}} + \cdots \cdots + \bigl(x_{\scriptsize{n}} \ – \overline{x} \bigr)^{\tiny{2}} \Bigr\} \\[ 5pt ]
&\text{または} \\[ 5pt ]
&\quad s^{\tiny{2}} = \frac{1}{n} \displaystyle \sum_{ k = 1 }^{ n } \bigl(x_{\scriptsize{k}} \ – \overline{x} \bigr)^{\tiny{2}} \\[ 5pt ]
&\scriptsize{\text{(数列の知識があれば、文字式ではこちらの方が扱いやすい)}}
\end{align*}

分散は、データの各値が平均値から離れるほど大きな値を取るようになるので、データの散らばりの度合いを表す量として用いられます。

また、分散の式において、右辺を展開して整理すると、以下の式を導出することができます。

分散を表す別式
\begin{align*}
s^{\tiny{2}} &= \frac{1}{n} \Bigl\{ \bigl( x_{\scriptsize{1}} \ – \overline{x} \bigr)^{\tiny{2}} + \bigl(x_{\scriptsize{2}} \ – \overline{x} \bigr)^{\tiny{2}} + \cdots \cdots + \bigl(x_{\scriptsize{n}} \ – \overline{x} \bigr)^{\tiny{2}} \Bigr\} \\[ 5pt ]
&= \frac{1}{n} \Bigl\{ \bigl( {x_{\scriptsize{1}}}^{\tiny{2}} + {x_{\scriptsize{2}}}^{\tiny{2}} + \cdots + {x_{\scriptsize{n}}}^{\tiny{2}} \bigl) \ – 2x_{\scriptsize{1}}\overline{x} \ – 2x_{\scriptsize{2}}\overline{x} \ – \cdots \ – 2x_{\scriptsize{n}}\overline{x} + \bigl( \overline{x} \bigr)^{\tiny{2}} + \bigl( \overline{x} \bigr)^{\tiny{2}} + \cdots + \bigl( \overline{x} \bigr)^{\tiny{2}} \Bigr\} \\[ 5pt ]
&= \frac{1}{n} \Bigl\{ \bigl( {x_{\scriptsize{1}}}^{\tiny{2}} + {x_{\scriptsize{2}}}^{\tiny{2}} + \cdots + {x_{\scriptsize{n}}}^{\tiny{2}} \bigl) \ – 2\overline{x} \bigl( x_{\scriptsize{1}} + x_{\scriptsize{2}} + \cdots + x_{\scriptsize{n}} \bigr) + n \bigl( \overline{x} \bigr)^{\tiny{2}} \Bigr\} \\[ 5pt ]
&= \frac{1}{n} \bigl( {x_{\scriptsize{1}}}^{\tiny{2}} + {x_{\scriptsize{2}}}^{\tiny{2}} + \cdots + {x_{\scriptsize{n}}}^{\tiny{2}} \bigl) \ – 2\overline{x} \cdot \frac{1}{n} \bigl( x_{\scriptsize{1}} + x_{\scriptsize{2}} + \cdots + x_{\scriptsize{n}} \bigr) + \bigl( \overline{x} \bigr)^{\tiny{2}} \\[ 5pt ]
&= \overline{x^{\tiny{2}}} \ – 2\overline{x} \cdot \overline{x} + \bigl( \overline{x} \bigr)^{\tiny{2}} \\[ 5pt ]
&= \overline{x^{\tiny{2}}} \ – \bigl( \overline{x} \bigr)^{\tiny{2}} \\[ 5pt ]
\therefore \ s^{\tiny{2}} &= \overline{x^{\tiny{2}}} \ – \bigl( \overline{x} \bigr)^{\tiny{2}}
\end{align*}

この式を導出するときに注意したいのは、各値の2乗の平均値です。

各値の2乗の平均値
\begin{align*}
&\text{$x^{\tiny{2}}$ のデータを ${x_{\scriptsize{1}}}^{\tiny{2}} \ , \ {x_{\scriptsize{2}}}^{\tiny{2}} \ , \ \cdots \cdots \ , \ {x_{\scriptsize{n}}}^{\tiny{2}}$ とすると、} \\[ 5pt ]
&\quad \overline{x^{\tiny{2}}} = \frac{1}{n} \bigl( {x_{\scriptsize{1}}}^{\tiny{2}} + {x_{\scriptsize{2}}}^{\tiny{2}} + \cdots + {x_{\scriptsize{n}}}^{\tiny{2}} \bigl)
\end{align*}

ちなみにシグマを使った式の方でも導出できます。多少は変形が楽になります。

分散を表す別式
\begin{align*}
s^{\tiny{2}} &= \frac{1}{n} \displaystyle \sum_{ k = 1 }^{ n } \bigl(x_{\scriptsize{k}} \ – \overline{x} \bigr)^{\tiny{2}} \\[ 5pt ]
&= \frac{1}{n} \displaystyle \sum_{ k = 1 }^{ n } \Bigl\{ {x_{\scriptsize{k}}}^{\tiny{2}} \ – 2x_{\scriptsize{k}} \ \overline{x} + \bigl( \overline{x} \bigr)^{\tiny{2}} \Bigr\} \\[ 5pt ]
&= \frac{1}{n} \displaystyle \sum_{ k = 1 }^{ n } {x_{\scriptsize{k}}}^{\tiny{2}} + \frac{1}{n} \displaystyle \sum_{ k = 1 }^{ n } \bigl( – 2x_{\scriptsize{k}} \ \overline{x} \bigr) + \frac{1}{n} \displaystyle \sum_{ k = 1 }^{ n } \bigl( \overline{x} \bigr)^{\tiny{2}} \\[ 5pt ]
&= \frac{1}{n} \displaystyle \sum_{ k = 1 }^{ n } {x_{\scriptsize{k}}}^{\tiny{2}} \ -2\overline{x} \cdot \frac{1}{n} \displaystyle \sum_{ k = 1 }^{ n } x_{\scriptsize{k}} + \frac{1}{n} \cdot n \bigl( \overline{x} \bigr)^{\tiny{2}} \\[ 5pt ]
&= \overline{x^{\tiny{2}}} \ -2\overline{x} \cdot \overline{x} + \bigl( \overline{x} \bigr)^{\tiny{2}} \\[ 5pt ]
&= \overline{x^{\tiny{2}}} \ – \bigl( \overline{x} \bigr)^{\tiny{2}} \\[ 5pt ]
\therefore \ s^{\tiny{2}} &= \overline{x^{\tiny{2}}} \ – \bigl( \overline{x} \bigr)^{\tiny{2}}
\end{align*}

実際の問題では、文字が変わる可能性があるので、ことばで覚えておくと良いでしょう。

分散
(分散) = (偏差の2乗の平均値) = (各値の2乗の平均値 $\overline{x^{\tiny{2}}}$ ) - (各値の平均値の2乗 $( \overline{x} )^{\tiny{2}}$ )

分散は平均値と同じくらい利用頻度が高いので、確実に覚えましょう。

分散の式の使い分け

分散を表す式が2つあることが分かりました。どちらを用いても分散を求めることができますが、平均値によって計算のやりやすさが変わります

平均値が簡単な整数のときならば、どちらの式を用いても計算のやりやすさにそれほど差がありません。しかし、平均値が複雑な値(たとえば分数)になれば、別式の方を用いた方が計算がいくらかましになります。

定義の式だけを覚えて、それだけを運用することも1つの手ですが、やはり状況に応じて使い分けできるようにしておきたいところです。

分散の式の使い分けの目安
平均値が簡単な整数のとき:どちらの式でもOK
平均値が複雑な値(たとえば分数):定義の式より別式で

標準偏差

偏差の和が0になってしまうことから、偏差の2乗の平均値を分散としました。しかし、分散の単位が、変量の測定単位の2乗となってしまいます。そこで変量の測定単位を揃えるために、分散の正の平方根を用いて、散らばりの度合いを表すこともあります。この分散の正の平方根を標準偏差と言います。

変量、分散、標準偏差の単位
測定単位が $m$ のとき、分散の単位は $m^{\scriptsize{2}}$、標準偏差の単位は $m$
標準偏差
\begin{align*}
&\text{標準偏差は、分散 $s^{\tiny{2}}$ の正の平方根であるので、} \\[ 5pt ]
&\quad s = \sqrt{\frac{1}{n} \Bigl\{ \bigl( x_{\scriptsize{1}} \ – \overline{x} \bigr)^{\tiny{2}} + \bigl(x_{\scriptsize{2}} \ – \overline{x} \bigr)^{\tiny{2}} + \cdots \cdots + \bigl(x_{\scriptsize{n}} \ – \overline{x} \bigr)^{\tiny{2}} \Bigr\}} \\[ 10pt ]
&\text{または、} \\[ 5pt ]
&\quad s = \sqrt{\overline{x^{\tiny{2}}} \ – \bigl( \overline{x} \bigr)^{\tiny{2}}} \\[ 10pt ]
&\text{$x_{\scriptsize{1}} \ , \ x_{\scriptsize{2}} \ , \cdots \cdots , \ x_{\scriptsize{n}}$ :変量 $x$ におけるデータの値} \\[ 5pt ]
&\text{$\overline{x}$ :平均値} \\[ 5pt ]
&\text{$x_{\scriptsize{1}} \ – \overline{x} \ , \ x_{\scriptsize{2}} \ – \overline{x} \ , \cdots \cdots , \ x_{\scriptsize{n}} \ – \overline{x}$ :偏差} \\[ 5pt ]
&\text{$\overline{x^{\tiny{2}}}$ :変量 $x^{\tiny{2}}$ におけるデータの値}
\end{align*}

標準偏差は、分散と同じくデータの散らばりの度合いを表す量として用いられます。標準偏差と分散の大きな違いは、単位が測定単位と同じかそうでないかになります。また、分散の正の平方根が標準偏差になるので、分散の公式をしっかり覚えておきましょう。

標準偏差よりも分散の式を覚えよう。

表を上手に利用しよう

分散や標準偏差を求める計算では、データの大きさが大きくなるほど項の数が増えるので、計算ミスをしやすくなります。計算ミスを防ぐ方法の1つは、表にまとめることです。

表にまとめるとき、「偏差」「偏差の2乗」などの列を必要に応じて書き加え、そこに値を記入していきます。

表の一例
\begin{align*}
&\text{変量 $x$ の値が $5 \ , \ 7 \ , \ 4 \ , \ 3 \ , \ 6$ の平均値、分散、標準偏差} \\[ 5pt ]
&\quad \overline{x} = \frac{5+7+4+3+6}{5} = \frac{25}{5} = 5 \\[ 5pt ]
&\text{表にまとめると、} \\[ 5pt ]
&\begin{array}{c|c|c}
x_{\scriptsize{k}} & x_{\scriptsize{k}} \ – \overline{x} & \bigl(x_{\scriptsize{k}} \ – \overline{x} \bigr)^{\tiny{2}} \\
\hline
5 & 0 & 0 \\
\hline
7 & 2 & 4 \\
\hline
4 & -1 & 1 \\
\hline
3 & -2 & 4 \\
\hline
6 & 1 & 1 \\
\hline
\scriptsize{\text{計}} & 0 & 10
\end{array} \\[ 5pt ]
&\text{表より、} \\[ 5pt ]
&\quad s^{\tiny{2}} = \frac{10}{5} = 2 \\[ 5pt ]
&\quad s = \sqrt{2} \fallingdotseq 1.4 \\[ 5pt ]
&\text{よって、平均値 $5$、分散 $2$、標準偏差 $1.4$}
\end{align*}

列の最後に和(計)の欄を作っておくと、公式に値を代入して求めるよりも手早く分散を求めることができます。また、偏差の和が0になることも確認できるので、計算ミスに気づくこともできます。

分散だけなく、標準偏差などの値も求めることが多くなります。ですから、表にまとめておくのは2度手間を省けてとても便利です。データの分析では、データをいかに手際よく扱えるかが大切なので、表を上手に利用した方が些細な計算ミスを減らせます。

偏差や偏差の2乗などの情報も表にまとめて、計算ミスを減らそう。

次は分散や標準偏差などを扱った問題を実際に解いてみましょう。

スポンサーリンク
Amazon ノート・メモ帳ランキング
楽天市場 学習参考書ランキング
スポンサーリンク
スポンサーリンク
気になる教材があればコチラで探せます。
数学I
この記事が気に入ったら
いいね!しよう
最新情報をお届けします。
フォローする
ちょっとど忘れしたときの公式・定理集

数学で覚えるべき公式や定理は、一覧で眺めてみるとそれほど多くはありません。大切なことは覚えることではなく、「公式や定理をどのように使うか」です。

公式・定理集で確認しつつ、演習で積極的に使っていきましょう。

日々是鍛錬 ひびこれたんれん
kiri

このサイトでは、できるだけ図や表を使い、丁寧な過程を記述することを心掛けながら解説しています。このサイトの記事が、苦手意識や壁を取り除くきっかけになれば幸いです。

中学生の先取り学習や高校生の受験対策、社会人の学び直しなどに役立てて下さいませ。

フォローする
タイトルとURLをコピーしました