データの分析|データの散らばりについて その1

数学1データの分析,四分位数,四分位範囲,四分位偏差,箱ひげ図

数学1 データの分析

今回はデータの散らばりについて学習しましょう。平均値や中央値などの代表値は、データの特徴を知るのに役立ちます。しかし、データの全体像を把握するのにはあまり向いていません。データの全体像を把握するには、データがどのくらい散らばっているかといった、データの散らばりの度合いを調べる必要があります。

ここでは、どのような値がデータの全体像を把握するのに向いているのかを学習します。データの特徴だけでなく、データの散らばりも調べることで、データをより詳しく分析することができるようになります。

この単元で学習すること

「データの散らばり(その1)」では以下のような事柄を学習します。

  • 範囲
  • 四分位数
  • 四分位範囲
  • 四分位偏差
  • 箱ひげ図

データを扱うために色々な用語が定義されているので、1つずつ丁寧に確認していきましょう。

範囲

データの最大値と最小値の差範囲と言います。範囲が大きければ大きいほど、データが散らばっていると考えることができるので、この範囲だけでもデータの全体像を大まかに把握することができます。

データの範囲
(範囲) = (データの最大値) - (データの最小値)

データの値の個数を表す「データの大きさ」と間違えやすいので注意しましょう。

四分位数

データを値の大きさの順に並べたとき、4等分する位置にくる3つの値のことを四分位数と言います。小さい方から順に、第1四分位数、第2四分位数、第3四分位数と言い、これらを記号で $Q_{\scriptsize{1}} \ , \ Q_{\scriptsize{2}} \ , \ Q_{\scriptsize{3}}$ と表します。

四分位数の求め方にはコツがあります。まず、データを値の大きさの順に並べてから、データを中央値で
2等分します。中央値が第2四分位数 $Q_{\scriptsize{2}}$ になります。

データの大きさが7であれば、中央値は4番目の値となり、この値が第2四分位数です。また、データを2等分したので、右半分に第2四分位数以下の値が並ぶ下位のデータができ、そして左半分に第2四分位数以上の値が並ぶ上位のデータができます。

データを2等分する
\begin{align*}
&\text{データ $1 \ , \ 2 \ , \ 3 \ , \ 4 \ , \ 5 \ , \ 6 \ , \ 7$ の第 $2$ 四分位数} \\[ 10pt ]
&\quad 1 \ , \ 2 \ , \ 3 \ , \ | \ \underline{4} \ | \ , \ 5 \ , \ 6 \ , \ 7 \\[ 10pt ]
&\text{$4$ …第2四分位数 $Q_{\scriptsize{2}}$ (中央値)} \\[ 5pt ]
&\text{$1 \ , \ 2 \ , \ 3$ …左半分のデータ(下位のデータ)} \\[ 5pt ]
&\text{$5 \ , \ 6 \ , \ 7$ …右半分のデータ(上位のデータ)}
\end{align*}

次に下位と上位のデータにおいて、中央値をそれぞれ求めます。これらが第1四分位数 $Q_{\scriptsize{1}}$ と第3四分位数 $Q_{\scriptsize{3}}$ になります。下位と上位のデータをそれぞれ2等分したので、データ全体では4等分したことになります。

下位データと上位データをそれぞれ2等分する
\begin{align*}
&\text{データ $1 \ , \ 2 \ , \ 3 \ , \ 4 \ , \ 5 \ , \ 6 \ , \ 7$ の第 $1 \ , \ 3$ 四分位数} \\[ 10pt ]
&\quad 1 \ , \ \underline{2} \ , \ 3 \ , \ | \ 4 \ | \ , \ 5 \ , \ \underline{6} \ , \ 7 \\[ 10pt ]
&\text{$2$ …第 $1$ 四分位数 $Q_{\scriptsize{1}}$ (下位のデータの中央値)} \\[ 5pt ]
&\text{$4$ …第 $2$ 四分位数 $Q_{\scriptsize{2}}$ (中央値)} \\[ 5pt ]
&\text{$6$ …第 $3$ 四分位数 $Q_{\scriptsize{3}}$ (上位のデータの中央値)}
\end{align*}

データを4つに分けるには、境は3つあれば良いので、四分位数は4つではなく3つです。「つにける置を示す」と解釈すれば覚えやすいでしょう。なお、四分位数の定義は他にもあるそうですが、高校数学では上記のように定義されたものを用います。

四分位数の求め方の手順をまとめると以下のようになります。

四分位数の求め方

  1. データを小さい方から順に左から並べる。
  2. 中央値(第2四分位数)を求める。また、左半分のデータを下位のデータ、右半分のデータを上位のデータとする。
  3. 下位のデータの中央値(第1四分位数)、上位のデータの中央値(第3四分位数)を求める。

四分位範囲と四分位偏差

データの散らばりの度合いを表すものに、範囲の他に四分位範囲四分位偏差などがあります。第3四分位数から第1四分位数を引いた値四分位範囲と言います。先程紹介した「範囲」とは異なるので注意しましょう。一般に、以下のように表されます。

四分位範囲
\begin{align*}
&\text{四分位範囲は} \\[ 5pt ]
&\quad Q_{\scriptsize{3}} \ – Q_{\scriptsize{1}} \\[ 5pt ]
&\text{と表される。ただし、} \\[ 5pt ]
&\text{$Q_{\scriptsize{1}}$ …第 $1$ 四分位数(下位のデータの中央値)} \\[ 5pt ]
&\text{$Q_{\scriptsize{3}}$ …第 $3$ 四分位数(上位のデータの中央値)}
\end{align*}

また、四分位範囲を2で割った値四分位偏差と言います。一般に、以下のように表されます。

四分位偏差
\begin{align*}
&\text{四分位偏差は} \\[ 5pt ]
&\quad \frac{Q_{\scriptsize{3}} \ – Q_{\scriptsize{1}}}{2} \\[ 10pt ]
&\text{と表される。ただし、} \\[ 5pt ]
&\text{$Q_{\scriptsize{1}}$ …第 $1$ 四分位数(下位のデータの中央値)} \\[ 5pt ]
&\text{$Q_{\scriptsize{3}}$ …第 $3$ 四分位数(上位のデータの中央値)}
\end{align*}

先程のデータであれば、四分位範囲と四分位偏差は以下のようになります。

四分位範囲と四分位偏差
\begin{align*}
&\text{データ $1 \ , \ 2 \ , \ 3 \ , \ 4 \ , \ 5 \ , \ 6 \ , \ 7$ について、} \\[ 10pt ]
&\quad 1 \ , \ \underline{2} \ , \ 3 \ , \ | \ 4 \ | \ , \ 5 \ , \ \underline{6} \ , \ 7 \\[ 10pt ]
&\text{第 $1 \ , \ 3$ 四分位数は順に $2 \ , \ 6$ となる。} \\[ 5pt ]
&\text{よって、四分位範囲は} \\[ 5pt ]
&\quad 6 – 2 = 4 \\[ 5pt ]
&\text{また、四分位偏差は} \\[ 5pt ]
&\quad \frac{6 – 2}{2} = 2
\end{align*}

範囲、四分位数、四分位範囲、四分位偏差を用いることで、データの散らばりの度合いを把握したり、他のデータと比較したりすることができます。

箱ひげ図

データの最小値、第1四分位数、中央値(第2四分位数)、第3四分位数、最大値を可視化したもの箱ひげ図と言います。名前の通り、長方形の箱とT字型の線(ひげ)を用いた図です。

箱ひげ図は、一般に、複数のデータの分布を比較するときに用いられます。複数のデータの箱ひげ図を並べることで、データの散らばりの度合いを比較しやすいのが特徴です。

箱ひげ図は以下のような図になります。長方形の箱とT字型のひげ(直線)を使って表します。最小値や第1四分位数などの値が、箱ひげ図のどこに対応しているのかをしっかり覚えましょう。

箱ひげ図

箱ひげ図によっては、平均値を記入する場合があります。平均値は、プラス(+)の記号で表しますが、特に指示がなければ記入しなくても構いません。

実際にデータをもとに箱ひげ図を書くと以下のようになります。

箱ひげ図の例

データの大きさが奇数のときと偶数のときとで異なるのは、四分位数の求め方です。偶数のときは、第1~3四分位数は平均値となります。

箱ひげ図を書く手順は特に決まっていない。自分なりに書きやすい手順で書こう。

箱ひげ図と度数の関係

箱ひげ図を書くこと自体はそれほど難しくありません。難しいのは、箱ひげ図から正しく情報を読み取ることです。

実際、箱ひげ図から読み取れることの正誤を考える問題の方がよく出題されます。他には、新しい値が追加された後の箱ひげ図を予想する問題も出題されます。これらの問題は、箱ひげ図から正しく情報を読み取れなければ難しい問題です。

正誤問題で間違えやすいのが、度数の読み取りです。箱ひげ図はデータの散らばりの度合いを見たり、比べたりするものなので、度数は記入されていません。しかし、四分位数の性質を利用すれば、度数を読み取ることができます。

大きさが8のデータを例に四分位数と度数の関係を考えてみましょう。四分位数は以下のようになります。

四分位数と度数の関係
\begin{align*}
&\text{データ $3 \ , \ 4 \ , \ 4 \ , \ 5 \ , \ 6 \ , \ 6 \ , \ 7 \ , \ 8$ の四分位数と度数の関係を考える。} \\[ 10pt ]
&\quad 3 \ , \ 4 \ , \ (4) \ , \ 4 \ , \ 5 \ , \ (5.5) \ , \ 6 \ , \ 6 \ , \ (6.5) \ , \ 7 \ , \ 8 \\[ 10pt ]
&\text{第 $1$ 四分位数 $Q_{\scriptsize{1}} = 4$} \\[ 5pt ]
&\text{第 $2$ 四分位数 $Q_{\scriptsize{2}} = 5.5$} \\[ 5pt ]
&\text{第 $3$ 四分位数 $Q_{\scriptsize{3}} = 6.5$}
\end{align*}

データの大きさが偶数であれば、データが四分位数によってきれいに4等分されていることが分かります。このことから、特定の範囲にある度数の全体に占める割合が分かります。

四分位数と度数の関係を表す図

この割合を覚えておけば、データの大きさをもとに特定の範囲の度数を求めることができます。

度数の全体に占める割合(データの大きさが偶数のとき)
最小値から第1四分位数までの度数…度数全体の25%
最小値から第2四分位数までの度数…度数全体の50%
最小値から第3四分位数までの度数…度数全体の75%

データの大きさが奇数の場合、偶数の場合と異なり、およその度数になるので注意しましょう。箱ひげ図で見ると以下のようになります。

箱ひげ図と度数の関係

先程も言ったように、箱ひげ図はデータの散らばりの度合いを見るものなので、四分位数で分けられた4つの部分の幅は、度数が等しくても等しくなるとは限りません。そのせいで、各部分の度数が異なるように感じます。しかし、データで見れば分かるように、度数は四分位数できちんと4等分されています。

箱ひげ図は、データの散らばりの度合いを見るもの。度数が等しいからと言って、四分位数で4等分された部分の幅が等しくなるわけではないことに注意しよう。

これまでに出てきた用語をまとめると、以下のようになります。

データの散らばりその1に関する用語

範囲…データの最大値と最小値の差

四分位数…データを値の大きさの順に並べたとき、4等分する位置にくる3つの値
四分位範囲…第3四分位数から第1四分位数を引いた値
四分位偏差…四分位範囲を2で割った値

箱ひげ図…データの最小値、第1四分位数、中央値(第2四分位数)、第3四分位数、最大値を箱とひげ(直線)で表したもの

次は四分位数や箱ひげ図などを扱った問題を実際に解いてみましょう。