基本となる3つの統計指標
ここでは、データの特徴を捉えていく上で、基本となる3つの指標について説明していきます。他にも指標はたくさんありますが、それらの多くは、これから登場する3つを元に成り立っていますので、しっかり理解しておく必要があります。
1)平均値
数値の合計をデータの総数で割ったものです。
この算出方法は算術平均(相加平均)と呼ばれ、例えば、日経平均株価(225銘柄)はこの方法で求められています。
※平均値は、かけ離れた数値の影響を受けやすいので、注意が必要です。
例えば、次のように平均年収を求める際に1人が突出して多い場合などです。
Aさん;300万円 Bさん;300万円 Cさん;500万円 Dさん;700万円 Eさん;6,000万円
これらの平均年収は1,560万円となりますが、平均を超えているのはEさん1人しかいません。このような場合、データの中央値を用いることもあります。(この場合の中央値はCさんの500万円です。)
この他にもいくつか平均を求める方法があり、ここでは、加重平均を紹介します。
加重平均;算術平均では全てのデータの重要度を均等に平均を求めていますが、実際にはデータによって重要度(全体に与える影響力)が異なる場合もあります。その重要度に応じてウェイト(ω ; オメガ)を変化させることで求めます。
ちなみに、東証株価指数(TOPIX)はこの方法で求められています。
2)分散
分布(個々の値)の散らばり具合を測る指標で、次の式から求めることができます。
では、とあるクラスの英語と数学のテストの点数を例に分散を求めてみます。
どちらも平均点は同じ55点ですが、英語の方が数学よりも数値が大きく、散らばり具合が大きいことが分かります。
標本分散と不偏分散
先ほど求めた分散は「標本分散」と呼ばれています。標本とは、母集団(調査対象全体)から取り出したデータのことで、標本分散は、標本が母集団の内の全てである場合に使います。
一方の不偏分散は、標本が母集団の内の一部である場合に用い、得られた標本を元に分布の散らばり具合を推定するために使います。
3)標準偏差
標準偏差は分散の式に平方根(√ ; ルート)を加えることで求められます。これは、分散では2乗したことで、値が大きくなっていたため、分かり易くするためです。
なお、分散で2乗したのは、-(マイナス)の値も全て+(プラス)に揃えるためです。
では、ここで先ほど分散を求めたとあるクラスの英語と数学のテストの点数の標準偏差を求めてみます。
やはり、英語の方が数値が大きく散らばり具合も大きいことが読み取れるのには違いないのですが、数値がもとの桁と同じになり、イメージしやすくなりました。
標本標準偏差と不偏標準偏差
分散の時と同様に、先ほどの標準偏差は標本標準偏差と呼ばれ、使用する場面も同じく、標本が母集団の内の全てである場合に使います。
また、不偏標準偏差は、標本が母集団の内の一部である場合に用います。
偏差値
大学受験などで見聞きすることの多い偏差値です。偏差値は集団の中でどれくらいの位置にいるかを表すのに用います。
例えば、平均60点のテストで80点を取ったとして、それが全体のどれくらいの位置にいるのかは、分布の散らばり具合によって変わってきます。偏差値によって自分の位置を客観的に知ることができます。
最後に、標準偏差まで求めた英語と数学のテストの60点の偏差値を求めてみます。
平均点は同じ55点で、獲得した点数も同じ60点ですが、数学の方が偏差値が高くなりました。同じ点数でも散らばり具合の差により、その点数の価値が変わってくることが分かります。