2016年7月05日(火)UP マーケティング

文系でもわかる!マーケティング・データ分析の基礎(統計基礎)その1データの性質を理解する その1:母集団、サンプル、誤差

データの性質ってなに?

「ビッグデータ」という言葉が毎日のように新聞や広告で見られるようになりました。データ分析の専門ソフトも増え、データさえ入れれば、簡単に分析結果が出てくるといった、とても便利な時代です。
ただ、一方で、簡単に結果は出てくるのですが、その背後にある「データの性質」や「分析のロジック」を正しく理解していないと数字の意味を読み違えることになります。
でも、「データの性質」と言ってもなんだかピンとこないですよね。
そこで「データ」を「人」に例えてみると少し見えてくると思います。
まずは容姿で例えると、背が高い人、低い人、太っている人データ、痩せている人、標準的な人、体育座りの人などがいるように、データにも姿や形があります。そして、人は、なぜそのような容姿になるのかいうと、親の遺伝が関係していたりしますよね。データも遺伝を受け継いだ子供みたいなものだと思ってください。性格でいうと、一途で真っ直ぐな人もいれば、表現は悪いのですが多少ひねくれた人がいるように、データも直線で表せるもの、曲線で表せるものがあります。
ここで大事なことは、「人」を正しく理解するには、一面だけ見ていても分からないのと同じで、「データ」も多面的に見て、どういうデータなのかを理解する必要があるということです。
このとき「データを正しく理解する」ために役立つのが統計・分析の知識なのです。

image_column_tokei_1-1.png


まず、第1回は、データを親と子供の関係で捉えて行きたいと思います。

「データの性質を理解する」とは、子供を見て、親を考えること

御存知の通り、人はその親のDNAのコピーですよね。子供を見た時にお父さん似か、お母さん似か、よく話題にすることも多いと思います。鼻はお父さん似だけども、目元はお母さん似だよね、という感じですね。ここで子供=データとした場合、「データの大元」が子供の親となります。データの性質を理解することは、私達が子供(データ)を見て、その親を類推していくようなものなのです。
親の姿を正しく理解するためにも、その子供(=データ)の容姿、目鼻立ち、輪郭、話し方などの状況を知ることはとても重要になりますね。

ここで少し統計の話になりますが、収集されたデータ(統計用語だと標本)には大きく2種類あります。「全数データ」と「サンプルデータ(全数から一部を抽出したデータ)」です。
先ほどの親子の例でいうと「全数データ」=親、「サンプルデータ」=子供です。
「親=全数データ」がわかればいいのですが、そこを知るには膨大な時間と費用がかかります。よって、マーケティングでは、「子供=サンプルデータ」を収集し、統計の手法を使って親=全数データを類推するということを行うことが一般的です。

開票率0%と当選確実の不思議

「選挙」を例に「全数データ」と「サンプルデータ」考えてみましょう。基本的には選挙権を持つ全ての人が対象なので、それが一番大きい塊です。ただし、投票に行かなければ票数には数えられませんので投票に行った人が分析の対象であるため、票数が「全数データ」というものになります。
一方で、選挙には「サンプルデータ」というものも存在します。サンプルなので、全部の人ではなく、一部の人の投票結果をもとに全数データを推計するというものです。よく選挙の時に、開票率0%なのに当選確実が出るのをテレビでみますよね。あれが「サンプルデータ」による統計術のなせる技です。ちなみに、データ収集の方法は、出口調査と言われるもので、投票が終わった人に誰に入れましたか?と聞くのですね。ある一定の数を聞くことで、開票結果との比較でその先の投票された全数を予測してしまうというとても優れた方法です。ただし、絶対ではないので、まれに当確が消えていたり、テレビ局によっては当確の出るタイミングが違ったりします。

image_column_tokei_1-2.png

サンプルデータと誤差

先にもお伝えしたとおり「全数データ」は、ある特定の集団の全てを対象としますので、一般的にデータ量も多く、コストも高くなります。日本の中で一番大きい全数調査は、日本に居住している全ての人を対象にしている国勢調査になります。人口や世帯、勤務先などから産業構造を導き出し、世の中にある様々なデータの基準としている場合が多いです。よって全てのデータなので「誤差」というものは基本的にありません。
一方で「サンプルデータ」は上記で触れたとおり、特定の集団から一部を抜き出して全体を推計するために取られたデータになります。一部を抜き出すため、ある程度どのような分析の仕方をするのかということを前提に、どのように抜き出すと全体を推計できるのかという観点が重要になります。たとえば、男女で違いを見たいのであれば、その特定の集団に含まれている男女の比率と同じ割合でサンプルを抜き出す必要があります。かつ年代による違いを見たいのであれば、その特定の集団に含まれている年代と同じ割合でサンプルを抜き出す必要があります。世の中は圧倒的に「サンプルデータ」が多いです。ここで、何度も登場した言葉「特定の集団」のことを「母集団」といいます。「はは・しゅうだん」、ではなく「ぼ・しゅうだん」と読みます。
どうやら類推しているのは父親の姿ではなく、母親の姿みたいですね〜(笑)

子供から真の母集団の姿は分かるのか?

サンプルデータは、一部のデータで母集団を推定する方法なので、「誤差」というものが必ず生まれます。
ここでいくつかの疑問が生まれます。まず、「誤差は母集団との差(違い)なのにそもそも母集団は分かっているのか?」という疑問です。答えは、NO!分かっていないケースがほとんどです。但し、分かっていないのですが、一定の経験的な確率理論に基いて、差がどの程度ありそうなのかを予測して、誤差を一定の範囲に収めるためにはどの程度サンプル数が必要かを求めることができます。

image_column_tokei_1-3.png


そうなると次の疑問が生まれます。
「誤差は、どのくらいであれば、全体とほぼ同じとしてみなしていいのか?」という疑問です。結論から申し上げますと、正解はありません。ただし、一般的にこの程度ならば「誤差と呼べる範囲として全体と同じとして認めましょう。」というものがあります。統計用語で「優位確率」とか「有意水準0.05(5%)」と呼ばれるものです。この「(誤)差がある」、「差がない」というのは、実はとても重要な意味を持ちます。分析の結果(結論)として「使えるものなのか」、「使えないものなのか」を左右するので、後日もう少しだけ詳しくやりたいと思います。

おさらいです。

データを遺伝的な要素として親・子に例えてみましたが、いかがでしたでしょうか?
少なくとも、今回覚えていただきたいことは、
 1)データには「全数データ」、「サンプルデータ」という2種類があります。
 2)サンプルデータには、「誤差」というものが必ずあります。
 3)「誤差」というのは、調べる対象としている全体(=母集団)から導き出されるであろう結果とサンプリング調査から推計した結果との違いの度合いを言います。
以上の3点です。

次回は、データの性質を理解する その2〜バラつき(分布・分散)〜について投稿したいと思います。

<売上予測のスペシャリスト吉田充の一言アドバイス>

誤差を少なくする方法 全国で販売されている商品の購入者の特性を分析するというケースを考えてみましょう。
理想的な方法は、購入者の属性と販売実績をすべてデータベース化し、多角的に分析し、購入者の特定を見つけ出す方法です。しかし、店頭販売をメインにしている企業ではこの方法は現実には考えにくい方法です。
全購入者のデータを正確に取得することができないので、無作為抽出でサンプル調査を実施するのが一般的な方法です。全国から抽出されたサンプルは情報がバラバラになり、特性を求めるのは大変困難な作業になると考えられます。サンプルから分析し特性を見つけ出しても、その分析結果が実務上、全体の購入者の特性として活用できるかを検証する作業も発生します。つまり、母集団と無作為抽出されたサンプルの間には誤差があり、その誤差がどのレベルかを認識しないと実務では活用しにくいということです。
母集団と抽出されたサンプルの間の誤差を少しでも小さくするサンプル抽出方法を考える必要があります。全国の年齢別の購入個数を分析するケースで考えます。最初に、全国を4から5ブロックに大まかに分けて、各ブロックからサンプルを抽出し、年齢別の購入個数平均値を算出します。次に、各サンプルデータの結果である年齢別の購入個数平均値を平均します。これが全国の年齢別の購入個数平均値に近い数値であるとみることができます。全国からサンプルを1つ抽出して分析するよりは、作業の手間はかかりますが、誤差の少ないサンプルを抽出することができます。
一般には抽出するサンプル数の割合が多いほど誤差が少なくなると考えます。10万から100を抽出するよりは、10万から1000を抽出する方が、誤差が小さいサンプルとなります。母集団の状況に関する情報がある程度(具体的には、男性・女性比率、年齢比率など)あることが、サンプル数を増やすより、より誤差を小さくすることができます。例えは、母集団の男性女性比率が4対6であれば、抽出するサンプルも4対6の比率で抽出すれば誤差が小さくなります。

サンプルが少なくても有効なデータになる場合
売上データ分析には作業スピードが必要で、母集団の状況に関する情報が一部でもあれば、データ分析作業を短時間で効率的に行うことができるということです。ある店頭販売とネット販売をしている企業の例ですが、ネット販売金額は全社販売金額の4%という数字でネット販売だけをみると営業利益はマイナスですが、ネット販売から購入者のいろいろな情報を得ることができます。企業全体から見るとネットの販売実績は少ないのですが、「一部のデータから全体の特性を分析する」という視点からはネット販売は大変重要な販売チャネルです。売上データを分析するという視点からは、販売実績や購入者データがリアルタイムにデータベース化される通信販売やネット販売の方が優位になります。
ここでの注意点は、「サンプルデータを分析する目的は、データ全体(母集団)の特性を知るためである。」ということを忘れないようにしてサンプルデータの抽出方法を考えることです。

コラム筆者紹介

講師紹介

萩原 洋史(はぎわら ひろふみ)

講師名 萩原 洋史(はぎわら ひろふみ)
所属 日本生産性本部認定経営コンサルタント
株式会社マーケティング研究協会
マーケティング推進部
略歴 大学卒業後、金融機関を経て、現職。リサーチ、データ分析を中心に消費財・生産財・サービス業等で幅広く業務をサポート。持ち味は、単なる結果の報告だけではなく、ビジネスの目的にコミットするためにリサーチや分析結果を活用して次のアクションにつなげること。
商品ブランド・開発サポートでは、インタビュー調査からユーザーセグメントのファインディングと自社のビジネスを最大化するためのコンセプト立案と定量調査分析、ブランドリニューアル・開発ゲートの仕組みづくり、開発マニュアルの作成などの実績があり、営業サポートでは、販売データ分析、購入意思決定(デシジョン)分析から新商品提案のシナリオをサポートしている。
経験のある主な業界は、化粧品、家庭用日用品、食品・飲料、玩具、スポーツ用品、IT端末、家庭用医薬品、住宅用建材、工業用ベルト、通信ネットワーク機器、SIベンダー、医療用医薬品、医療用機器、フィットネスクラブ 等

講師紹介

講師イメージ

講師名 吉田 充(よしだ みつる)
所属 APMコンサルティング 代表取締役
略歴  明治学院大学法学部卒業後、大手印刷会社に入社。  営業・企画業務の実務を経て住友ビジネスコンサルティングにてコンサルタントとして活躍。 その後独立し、1999年に株式会社イードックを設立し、現在はAPMコンサルティングの代表取締役に就任。
経営戦略、営業活動において、Excelを活用した実践的な分析、計画策定に特に定評があり、印刷物の発注システムの開発や顧客データベースの活用を中心に企業コンサルタント、セミナー講師として活躍中。
コラム .文系でもわかる!マーケティグ・データ分析の基礎(共著)

コラム一覧に戻る

コラムの更新や、マーケティングに関するサービス情報をお届けします

弊社マーケティング研究協会のメールマガジンサービスは、マーケティング研究協会(以下、当社といいます)が無料 で配信するものです。

メールマガジン登録はこちらから

Page Top