2016年10月02日(日)UP マーケティング

文系でもわかる!マーケティング・データ分析の基礎(統計基礎)データの性質を理解する その2:バラつき(分布)

データのバラつきとは・・・

前回は、全数データとサンプルデータ(サンプリング)、誤差について解説しました。
今回は、データのバラつきについて解説していきます。
データはバラついて当たり前。これは、全数データでも、サンプルデータでも同じです。例えば、全国の小学5年生の伸長、体重。国語、算数の点数。あるスーパーの1日のビールの売上数量。同じ車で、同じ距離を、同じスピードで走ったときの燃料消費量(燃費)。自社のページビュー、ユニークユーザー数などなど、上げたらキリがありません。
では、具体的にデータのバラつきとはどういう状態をいうのでしょうか。

例を上げて説明していきます。
以下の表は、ある学校の5年1組(20人)の国語と算数のテストの結果です。
この国語・算数のテストのデータはどのようなバラつきになっているのでしょうか。

image_column_tokei_2-1.png

<バラつきは視覚捉えるのが1番>

バラつきを見る場合に基本となるのが、分布(表・図)です。
分布とは、対象とするデータがどのくらいの数で出現しているのかを表したもので、一般的には度数分布(ヒストグラム)のことをいいます。度数分布を見る場合、点数や年齢など数が細かく刻まれているデータはある一定の区切り(5点刻み、10才刻み)で表記する場合が多いです。今回のテスト結果のケースでは、76〜80点の間に何人いるかといった具合です。人口だと41〜45才の間に何人いるかですし、ビールの売上だと215‐220円の間で何本売れたのか、または何人買ったのか、といった感じです。

5年1組の国語と算数のテストの点の分布表は下記のとおりになります。



因みに、Excel はこの度数分布表を一回の操作で作れないのが面倒なところです。方法は、関数COUNT IF( )、FREQUENCY( )、ピボットテーブル、アドインの分析ツールを使うなど様々な方法があります。ネット検索すれば色々出てきますので、お時間のある方はチャレンジしてみてください。

<ここが肝心! 統計の根本 正規分布>

この先が統計や確率で覚えていた方が何かと重宝な内容になります。
先ほど見ていただいた国語と算数の分布図なのですが、ぼや〜っと(かなり、ぼや〜っと)眺めると形が山型をしていますね。実はここには法則があります。世の中である現象を記録したデータの多くは、分布をとると山型になるという法則です。それを統計用語で「正規分布(ガウス分布)」と言います。「正規」という意味は山の頂点から△の左右対称の分布をしている形、という意味です。
でも、よく見ると「国語のデータは山が2つあるし、算数のデータは一つだけ尖った山があるだけ」という状態ですね。
しかし、一見、正規分布ではないようなデータでも、そのサンプル数を増やしていくと正規分布に近づいていくことが分かっています。また、正規分布に近づくということは、すなわちその平均値も本来の母集団の平均値に近づいていくということになります。(これが、若かれし時に習ったはずの、大数の法則、中心極限定理というものです)

では、試しに5年2組の国語と算数のテストの点を追加してみましょう。

image_column_tokei_2-4.png


5年2組の分布を見てみると、

image_column_tokei_2-5.pngimage_column_tokei_2-6.png
 
  どうやら、5年2組の方がテストの点が良い感じですね。
このそれぞれのクラスの結果を国語と算数で合計すると下記のようになります。

image_column_tokei_2-7.pngimage_column_tokei_2-8.png

国語計では2つの山、算数計では86−90に突出した鋭角な山の形になりました。
そして国語と算数の合計の分布結果をみると
image_column_tokei_2-9.png



以上の見られるように、一つの山の形(正規分布)に近づいていきましたね。

繰り返しになりますが、「世の中である現象を記録したデータの多くは、分布をとると山型=正規分布になるという法則」は確率・統計の上で必須事項なので覚えておいてください。

<データの特徴を表す代表値(平均値・中央値・最頻値)>

分布図は視覚に訴えますので一目瞭然なのですが、このバラつきの特徴をざっくり説明したものが、平均になります。この「平均」ですが、少しだけ注意が必要です。つい、平均と聞くと真ん中というイメージがあり、例えばテストの点数だと、真ん中よりも上は「まあ良い」、下は「あまり良くない」と思いがちなのですが、必ずしもそうではありません。
例えば、5年1組の国語の平均点は、85.5点になりますが、平均点以下の生徒は11/20人、平均点以上の生徒は9/20人となります。しかも、81−85点の間に6人という状況ですので、平均点に達していなかったとしても、「あまり良くない」とは言い難い状況ですね。
ちなみに、 平均値=(全データの合計)÷全データの個数 です。
Excelだとaverage(セル:セル)で計算できます。

そこで、このバラつきをざっくり説明した平均を補う意味でも知っておきたいのが中央値です。中央値は、全部のデータを順番に並べて(大きい順でも、小さい順でも)、その真ん中の数字になります。
以下は、5年1組の国語のデータを小さい順に並べたものです。真ん中は、偶数なので10番目と11番目になります。この場合2つのデータを合計して2で割った数字を中央値とします。

image_column_tokei_2-10.png

また、もう一つ「最頻値」というものがあります。最頻値は、データの中で1番多く出てきた数値になります。上記の例でいうと77点が3つあるので77点が最頻値になります。
さて、ここでちょっと考えたいのですが、平均値が85.5点、中央値が84点、最頻値が77点という結果を聞くと、あなたはどのようなバラつきを想像しますか?
おそらく、左に山が偏った分布図を想像するのではないでしょうか。

image_column_tokei_2-11.png


ただし、サンプル数が少ない場合など、最頻値がデータを代表するとは言えない場合があります。その場合は、先に説明したようにある一定の区切り(5点刻み、10才刻み)で最頻値を出すことが多いです。
また、左に山が偏った分布になるものとして、勤労者所得や体重などがあります。(これを対数正規分布と言います、くわしくはまた別の機会で説明します)

今回は、データのバラつきについて解説をさせていただきました。
おさらいとなりますが、バラつきは、分布(図)によって表現され、サンプルの数が多くなればなるほど、ほとんどの場合は、正規分布に近づくということを覚えておいてください。(必ずではありません)また、データの分布状況をざっくりと数値として見る場合の基本として、代表値(平均値、中央値、最頻値)をお伝えしました。
次回は、バラつきをもう一歩踏み込んだ(分散、偏差)について解説しようと思います。

コラム筆者紹介

講師紹介

萩原 洋史(はぎわら ひろふみ)

講師名 萩原 洋史(はぎわら ひろふみ)
所属 日本生産性本部認定経営コンサルタント
株式会社マーケティング研究協会
マーケティング推進部
略歴 大学卒業後、金融機関を経て、現職。リサーチ、データ分析を中心に消費財・生産財・サービス業等で幅広く業務をサポート。持ち味は、単なる結果の報告だけではなく、ビジネスの目的にコミットするためにリサーチや分析結果を活用して次のアクションにつなげること。
商品ブランド・開発サポートでは、インタビュー調査からユーザーセグメントのファインディングと自社のビジネスを最大化するためのコンセプト立案と定量調査分析、ブランドリニューアル・開発ゲートの仕組みづくり、開発マニュアルの作成などの実績があり、営業サポートでは、販売データ分析、購入意思決定(デシジョン)分析から新商品提案のシナリオをサポートしている。
経験のある主な業界は、化粧品、家庭用日用品、食品・飲料、玩具、スポーツ用品、IT端末、家庭用医薬品、住宅用建材、工業用ベルト、通信ネットワーク機器、SIベンダー、医療用医薬品、医療用機器、フィットネスクラブ 等

講師紹介

講師イメージ

講師名 吉田 充(よしだ みつる)
所属 APMコンサルティング 代表取締役
略歴  明治学院大学法学部卒業後、大手印刷会社に入社。  営業・企画業務の実務を経て住友ビジネスコンサルティングにてコンサルタントとして活躍。 その後独立し、1999年に株式会社イードックを設立し、現在はAPMコンサルティングの代表取締役に就任。
経営戦略、営業活動において、Excelを活用した実践的な分析、計画策定に特に定評があり、印刷物の発注システムの開発や顧客データベースの活用を中心に企業コンサルタント、セミナー講師として活躍中。
コラム .文系でもわかる!マーケティグ・データ分析の基礎(共著)

コラム一覧に戻る

コラムの更新や、マーケティングに関するサービス情報をお届けします

弊社マーケティング研究協会のメールマガジンサービスは、マーケティング研究協会(以下、当社といいます)が無料 で配信するものです。

メールマガジン登録はこちらから

Page Top