データの種類・度数分布表とヒストグラム|統計学基礎

統計学とは

統計学とは複数あるデータから、その性質や傾向を分析するための学問で、その目的・手法の違いから、大きく「記述統計」と「推測統計」に分類されます。

データの種類

データの形態などによって、大きく以下のように分類できます。

1)データの形による分類

 カテゴリーデータ;数値で表すことができないデータ

  (例)血液型、アンケートの「良い」「普通」「悪い」など

 数量データ;数値で表すことができるデータ

  (例)テストの点数、電力量 など

2)データの並びによる分類

 横断面データ;データを並べた時、その並べる順番に意味のないデータ

  (例) 会社別の売上高、従業員の年収 など

 時系列データ;ある一定期間の中で取得時期が分かり、時間順に並べられたデータ

  (例)ある会社の数年分の売上高、気温 など

 パネルデータ;横断面データと時系列データを組み合わせたもの

  (例)数社の数年分の売上高を記載した表 など

3)データの連続性による分類

 連続型データ;値と値の間が途切れず、詳細に図ることが可能なもの

  (例)長さ、重さ など

 離散型データ;値と値の間が連続していないもの

  (例)人数 など ※1人,2人,3人の様に、小数点以下が存在しないもの

度数分布表/ヒストグラム

1)度数分布表

 各階級に度数(頻度)がいくつあるかを表にしたものです。

2)ヒストグラム

 度数分布表を棒グラフ(ビジュアル化)にすることで、分かりやすくしたもので データ全体の傾向を感覚的につかむためによく用いられます。

3)相対度数

 各階級の度数がすべての度数の中で占める割合のことです。

また、グループが複数あり、それぞれのデータ数が大きく異なるような場合、差が大きすぎで同じヒストグラムで表すのは困難なため、相対度数(割合)で示すことは有効です。

例えば、東京都と鳥取県の全人口を対象にした調査結果を用いて年代別のヒストグラムを作成する際、それぞれの人口に差が大きく、見づらいものになってしまいます。単に、各年代別の占める割合を比較したい場合は、相対度数を用いることで見やすくなります。

4)累積度数

 ある階級において、その階級までの度数をすべて足したもので、ある階級未満(以下)の割合がどの程度なのかをつかむことができます。

5)累積相対度数

 累積度数の割合を表したものです。

こちらの記事もオススメ

 平均値・分散・標準偏差と偏差値|統計学基礎

 変動係数・共分散・相関係数とは?|統計学基礎