【ビジネスで使う統計学】業務分析可視化のためにアンケート調査をする場合のサンプルサイズの決め方

アンケート

最近ではコンピューティングのコストが下がって、ビッグデータ分析の技術が進んだために、何かを調べる場合に対象となるデータを全て使って調べることも可能となっています。昔はコンピューターを使うコストも高く、また計算に時間がかかったため、いわゆる全数調査というよりは、「サンプリング」による調査が行われました。今でもコンサルティングの現場では、サンプリングしたほうが良い(せざるを得ない)という場合がたくさんあります。



サンプリング調査とは

「サンプリング」調査とは対象となるデータの全体(母集団ともいいます)から、一定の標本を抽出して、標本を調べることで全体の特徴を推定しようというものです。正しいサンプリングを行えば、安いコストで調査をしつつも、それなりに正確な全体の特徴を結論づけることが可能です。

全数調査ではないので、完璧に正確ではありませんが、私たちの実務上不具合が無いレベルでの精度があれば事足りるという場合には便利な方法です。

従って、現在でもサンプリング調査を理解して使えるようになると、ビジネスにおいても大いに有用です。私の場合も様々なプロジェクトの業務分析の方法として使っています。全数調査が可能な場合でもあえてサンプリング調査を選択することもあります。


サンプリング調査を選択する理由

その理由は「コストが安く業務にかかる負担が少ないから」です。業務分析のための調査では、業務に携わる人に直接データ取得をお願いすることがあります。業務システムからデータが抽出できれば良いのですが、必ずしも必要なデータが取得できず、そのような場合はエクセルなどで記録用紙を準備してスタッフのみなさんにデータ記録をお願いします。このため、スタッフのみなさんにとっては余計な仕事が増えてしまうことになります。この負担を最小限におさえるためにサンプリング調査を選ぶのです。


サンプルサイズはどのように決まるか?

それでは、必要かつ十分なサンプルサイズはどのように決めたら良いでしょうか。実は統計学の理論上はサンプルサイズは全体(母集団)の数とは関係なく、調査で期待する正確さ(誤差・信頼度)と調査対象の性質(母比率)で決まる、ということになっています。

つまり、全体がどれほど多かろうが、これらの条件でサンプルサイズが決まるのです。この感覚が違和感になって業務の現場から理解が得られないことがありますが、理論上は正しいのです。


実際にサンプルサイズを計算してみよう

例として業務分析を考えます。作業者が毎日どんな仕事にどのくらい時間を費やしているのか、1時間おきの単位で分析する、と仮定します。この場合、どのくらいのサンプルサイズを取得したら良いか?ということが問題になります。もちろん作業者全員に全時間分の記録をとってもらう(全数調査)でも良いのですが、これでは肝心の作業が滞ってしまい、邪魔になります。したがって、必要最小限のサンプルで調べたいということになります。

サンプルサイズの算出に必要な数字は3つです。まず「母比率」。データ全体のうち一定の条件を満たすものの比率です。業務分析を行う場合は、業務担当者が全員全く同じ仕事をしていれば100%ですが、実際には少しずつ違っているはずです。現場を見てほぼ同じと判断できれば90%などとします。推定できない場合は、安全のため50%とします(母比率50%でサンプルサイズが最大になるからです)。

次に「誤差」です。誤差はどの程度のサンプリングのエラー(誤り)を許容できるか?ということです。通常は5%とします。業務分析のためのサンプリングであれば十分でしょう。

そして「信頼度」です。こちらはサンプリングが正しい割合(エラーが発生しない割合)ですので、通常は90%から95%など高く設定します。ここでは95%とします。

誤差・・・5%

信頼度・・・95%

母比率・・・90%

以上から、こちらの数字を下記のような計算ツールに入れると、必要なサンプルサイズが出てきます。

母比率の区間推定における必要なサンプルサイズの計算フォーム
https://bellcurve.jp/statistics/blog/14347.html


計算結果の読み方・導入方法

上記の例では「139」と出ます。これの意味は、139時間分のデータ記録を取得すれば、統計学的に業務全体の特徴を結論づけることが出来る、ということです。139時間というと1ヶ月の記録時間を80時間として、作業者1人では約1.7ヶ月分のデータですが、仮に作業者が2人いれば1か月程度のデータ記録で集められることになります。

例えば、同じ作業をしている人が10人のチームの業務分析を実施するのであれば、そのうち2人選抜して2日に1日くらい1ヶ月間データを記録してもらうと必要なデータが集まります。

さらに、人による偏りを避けるため、この2人は10人の中でランダムにローテーションさせたり、また、記録のタイミングは月の上旬、中旬、下旬にバランスよく振り分けて時期による偏りが出ないように工夫します。

このように139時間を超えるデータを取得して分析すれば、そのチームの業務の特徴や問題点をある程度結論づけることができるでしょう。


まとめ

上記の例でも必要なサンプルサイズは思っていたより小さいと感じるはずです。サンプリング理論に基づいて必要なサンプルサイズを決めることで過剰なデータを集めて、調査対象(作業者)に負担をかけるということが無くなりますし、データを集めて集計分析する作業も効率化することができます。

以上、業務分析可視化のためにアンケート調査をする場合のサンプルサイズの決め方、という話題でした。ちゃんと勉強してみたいという方は、こちらの本などお勧めです。




━━…━━…━━…━━…━━…━━
サンクプランズ・コンサルティング
━━…━━…━━…━━…━━…━━
個人・中小事業者のお客様を対象に会計サービス、コンサルティング、デジタルコンテンツ販売、セミナーなどを行っています。
詳しいプロフィールを見る
会計サービスについて
コンサルティングについて
デジタルコンテンツ販売について
セミナーについて
お問合わせはこちら

【ビジネスで使う統計学】アンケート結果のコメントを無料で分析する方法を分かりやすく解説

ビッグデータ


アンケートをビジネスに生かすには

ビジネスの現場において「アンケート」をとる、ということが割と頻繁に行われます。例えばセミナーなどを開催すれば、必ず最後に参加された方にアンケートを回答していただきます。セミナー以外にも展示会でブースに立ち寄ってくれたお客様にアンケートを書いていただいたり、もしくは「顧客満足度調査」と称して相当な分量のアンケートをお客様に回答して頂く、ということもあります。

問題はこういったアンケートの回答をどのようにビジネスに活用するのか?ということです。これまでの経験では、大抵の場合、次のような処理がなされます。

● 点数が付いている項目は平均点を出す。平均点が高い・低い、上がった・下がったという。

● コメントによる回答については主催者からみて顕著な例がピックアップされる。次に向けての改善点などが話し合われる。

浅薄な対応です。小学生並みという感じがします。もちろん、これでもそれなりにPDCAは回るので、何もしないようりはましですが、もう一歩踏み込みたいところです。


「統計学的に」踏み込む

どう踏み込みたいかというと、「統計学的に」踏み込みたいということになります。上記のような対応では、主催者の主観に過ぎず、真実の一端しか掴めません。いったい何が起きているのか、真実の全体像は統計学的な分析によって、見えてくるようになります

点数が付いている項目の分析は「T検定」を使いましょう。T検定を使うと平均値の変化に意味があるのか、たまたまの変化なのか、が分かります。見た目だけで主観的に平均点が高い・低い、上がった・下がったと言うのではなく、統計学的な意味付けを行うことにより、分析結果に説得力が増します。「T検定」のやり方は、次の過去記事に書きましたので、ご参照ください。

【ビジネスで使う統計学】リード・クオリフィケーションの努力が報われたかどうかの検定方法を分かりやすく解説

コメントによる回答は、いわゆる自然言語で書かれており、数値化されていないので、分析が難しくなります。このような自然言語の数値化は、従来はあらかじめキーワードを決めておき、その出現数を数える、という方法がありました。数え方は漢字の「正」の字を書いて数えたり、エクセル上の処理としてカウントしたりしていました。いずれにしてもマニュアル作業で、時間もかかりますし、見落としも多く楽しい作業ではありません。


テキストマイニングが無料で使える

ところが最近「テキストマイニング」(英語ではVerbatim Analysis)という技術が発達してきまして、アンケートのコメント欄に記載された文書を分析し数値化できるようになってきました。これにより「正」の字を書いたりすることなく、瞬時に大量のデータが分析できるようになりました。

以前はテキストマイニングを実施するには自分でプログラムを作るか、高価なサービスやソフトウエアを購入する必要がありましたが、最近はテキストマイニングを無料で提供している下記サイトがあります。

ユーザーローカル社 テキストマイニング無料ツール

https://textmining.userlocal.jp/

こちらのサイトでは、無料にもかかわらず、100,000文字までのデータを分析して下図のようにワードクラウドの作成や頻出後のカウントを行ってくれます。使い方も簡単で、アンケート結果がExcelなどで整理されているのであれば、テキスト形式に落としてツールにデータロードするだけです。

テキストマイニング

(出典:ユーザーローカル社)


テキストマイニングの結果の見方

ワードクラウドというのは、英語ではWord Cloudですが、見た通り頻出語をひとまとまりに書いたもので、頻度が大きな言葉ほど大きな文字になっています。上記無料ツールの場合、名詞は青字、動詞は赤字、形容詞は緑字になっており、ぱっと見で判別しやすようになっています。

こんなに優秀なツールが本当に無料で良いのか?非常にありがたい限りで、私もいくつかのデータ解析においてお世話になっています。

また、このツールが優れいている点は、頻出語について「スコア」を計算してくれることです。スコアについては、ウェブサイト上に次の通り説明書きがあります。

単語ごとに表示されている「スコア」の大きさは、与えられた文書の中でその単語がどれだけ特徴的であるかを表しています。通常はその単語の出現回数が多いほどスコアが高くなりますが、「言う」や「思う」など、どのような種類の文書にも現れやすいような単語についてはスコアが低めになります。

つまり、このスコアに注目して分析することで、より意味のある解析が可能となります


時系列のアンケートならさらに良い

もしアンケートを「顧客満足度調査」のように、定期的に時系列でとっているのであれば、ワードクラウドの頻出語がどのように変化しているのかを比較検討することで、自社が行った施策が期待通りお客様に届いているかどうか、または意図しない変化が起きていないかどうか、分析することができます。

さらに、頻出語のカウントについて「検定」をかけることで、統計学的に意味のある(有意な)違いが生じているかどうか、調べることも可能となります。


パワフルなプレゼンが可能に

このように統計学に踏み込んだ分析を行うことで、同じアンケート結果からより多くの内容を読み解くことができ、また「統計学」という言葉を出すことにより、クライアントや上司に対して分析結果を説明する際によりパワフルなものとなります。

以上、アンケート結果のコメントを分析する方法を分かりやすく解説、という話題でした。テキストマイニングは一見難しく見えてもやってみると意外に簡単です。ぜひお試しください。何かお力になれることがあれば、ご連絡ください。




━━…━━…━━…━━…━━…━━
サンクプランズ・コンサルティング
━━…━━…━━…━━…━━…━━
個人・中小事業者のお客様を対象に会計サービス、コンサルティング、デジタルコンテンツ販売、セミナーなどを行っています。
詳しいプロフィールを見る
会計サービスについて
コンサルティングについて
デジタルコンテンツ販売について
セミナーについて
お問合わせはこちら

【ビジネスで使う統計学】リード・クオリフィケーションの努力が報われたかどうかの検定方法を分かりやすく解説

ビッグサイト

よく東京ビッグサイトなどの会場で開催される様々な業界の展示会というものがあります。特定の業界や分野に関係のある企業が出展して新製品や新サービスの紹介をしています。これは何のためにやっているのか?というと、当然自社製品・サービスの認知度を向上して、売上アップに繋げるためです。

大抵は各社の「マーケティング部門」が主導して出展し、集客します。自社のブースに立ち寄って興味を示したお客様と名刺交換をし、アンケートなどに回答してもらったりします。この名刺やアンケートが引き合い(リード。見込み客)です。


リード・クオリフィケーション

名刺やアンケートは回収して、今後の商談に発展しそうなものを絞り込みます。この絞込みのプロセスをマーケティング用語でリード・クオリフィケーションといいます。リード・クオリフィケーションによって商談の可能性が高いものがピックアップされて、「営業部門」へと転送されます。営業は転送されてきた商談の内容を確認して、続けてフォローするのか、またはキャンセルしてフォローしないのか、判断することになります。

クオリフィケーション

リード・クオリフィケーションが営業効率を左右する

ここで重要になるのが、「リード・クオリフィケーションの質」です。質が良ければ、営業の効率がアップして次々に受注に結びつけることが出来るでしょう。一方、質が悪ければ、営業へゴミを送りつけているのと同じことになり、営業の効率を落とし、売上アップに繋がらないでしょう。

一般的にはマーケティング部門は、相当の手間隙コストをかけて「リード創出」し、また「リード・クオリフィケーション」している訳ですが、営業部門から見ると「ゴミしか来ない」「時間の無駄」ということが良くあります。結果としてマーケティング部門と営業部門は犬猿の仲となってしまいます。


リード・クオリフィケーションの質の定量化

そうなりますと、「リード・クオリフィケーションの質」を定量的に捉えて、評価することが重要になりますが、この数値化をどうやったら良いのかというのが簡単なようで難しい問題です。

ぱっと思いつくのがCVR(コンバージョンレート)を計算して数値化することです。つまり、リードが何件創出されて、そのうち何件が商談になったのかで割り算をすれば、リードから商談へのCVRが出ます。同じように、そのうち何件が受注になったのかで割り算をすれば、リードから受注案件へのCVRが出ます。(または件数ではなく金額を使って計算することもあります)

自分の知る範囲では多くの場合、このCVRを計算して終わりです。目標に対して多かったとか少なかったとか、去年と比べて多かったとか、そういう単純な比較をして、偉い人にプレゼンしてなんとなく一件落着となります。


統計学を使ったアプローチ

ですが、CVRだけでは「リード・クオリフィケーションの質」を定量的に捉えて評価するという意味では、不十分です。本来はCVRを計算したら、今回の展示会について行った一連の施策やリード・クオリフィケーションにより、「有意な差があったかどうか」を検証するところまでやらないともったいないです。

「有意な差」というのは統計学の用語で、偶然ではなく間違いなく違いが生まれたかどうか、を示すものです。風邪薬の開発で言えば、臨床試験の結果、本当に風邪に効く薬であるといって売り出して良いかどうか、が重要です。そこで薬の投与により風邪の改善に「有意な差」があるかどうかを調べます。この調べる方法が「検定」です。

同じようにリード・クオリフィケーションの結果CVRに「有意な差」があるかどうかを「検定」して、有意な差を生じることが証明できれば、マーケティング部門は営業部門に対して自信をもって商談を転送できますし、営業も信頼してその商談をフォローすることでしょう。


「検定」のやり方

「検定」の理論は小難しいのですが、やり方は簡単です。忙しいビジネスパーソンは理論を知る必要はありません(もちろん勉強しても良いのですがすぐに忘れます)ので、やり方だけ覚えましょう。

検定にはいろいろありますが、今回は「T検定」(てぃーけんてい)を使います。T検定は平均値に有意な差があるかどうかを調べるツールです。その進め方は次のとおりです。

(1)まず創出したリードについて幾つかについては、リード・クオリフィケーションを行い、幾つかについてはリード・クオリフィケーションを行いません。これは、この2つのグループについて、リードから商談へのCVRとリードから受注へのCVRに有意な差が生じているかどうかを調べるためです。営業部門にはこのような違いがあることを知らせません。

(2)次にそれぞれのグループについて、商談になった場合は「1」ならなかった場合は「0」、同様に受注になった場合は「1」ならなかった場合は「0」として下図のエクセルのように整理します。この例ではサンプル数はそれぞれのグループについて20件とっていますが、全てのリードについて検査しても良いです。

サンプル

(3)それぞれのCVRは平均を計算するだけですので、23行目のようになります。

(4)次にT検定ですが、エクセルには「T.TEST」という関数があるので、これを使います。面倒な計算は一切不要です。A24のセルに以下のように入れます。

=T.TEST(A3:A22,C3:C22,2,1)

同様にB24のセルに以下のように入れます。

=T.TEST(B3:B22,D3:D22,2,1)

(5)A24の計算の意味は、リード・クオリフィケーションのあり・なしで、商談のCVRに有意な差が生じているかどうかを検定せよ!という意味です。結果は図のとおり0.0492…となっています。この読み方にはルールがありまして、「0.05より小さかったら有意な差がある」と読みます。つまりこの例では「有意な差」あり、となります。なんでそうなのか?調べたい方は調べて頂ければと思いますが、統計学の英知によりそうなのだ!と割り切った方が良いです。

(6)同様にB24のほうを見ますと、こちらはリード・クオリフィケーションのあり・なしで、受注のCVRに有意な差が生じているかどうかを検定せよ!という意味です。結果は図のとおり0.1864…となっています。すなわち、0.05より大きいですから、「有意な差」なし、となります。


検定結果の検討

今回の検定結果から、マーケティング部門が創出したリードでリード・クオリフィケーションをすれば、リード・クオリフィケーションしないよりは「商談」にコンバージョンできる、と言えます。リード・クオリフィケーションには効果がありますので、自信をもって、「商談」を営業部門へ送り出せば良いでしょう。

ただ、現時点ではリード・クオリフィケーションが「受注」まで効果を及ぼしているとは言えません。こういったことから、リード・クオリフィケーションのやり方の改善、営業部門との連携方法の改善など、次の課題(施策)が見つかります。

もし「商談」へのコンバージョンについても有意な差が無いという検定結果になった場合には、マーケティング部門はリードの創出からクオリフィケーションまでの一連のプロセスについて再度点検して、改善を行う必要があります。

このように検定を使った統計学的なアプローチをすることにより、次のアクションがより鮮明化します。


まとめ

以上は統計学的に導かれた結論、ということになりますので、マーケティング部門・営業部門双方が納得しやすいですし、次の施策のための予算取りなど、偉い人へのプレゼンとしても効果的なものになります。

以上、リード・クオリフィケーションの努力が報われたかどうかの検定方法を分かりやすく解説、という話題でした。統計を使うとビジネスの様々な局面で役に立ちます。でもどうやったら良いか分からないよ、という場合にはご相談くださいませ。


━━…━━…━━…━━…━━…━━
サンクプランズ・コンサルティング
━━…━━…━━…━━…━━…━━
個人・中小事業者のお客様を対象に会計サービス、コンサルティング、デジタルコンテンツ販売、セミナーなどを行っています。
詳しいプロフィールを見る
会計サービスについて
コンサルティングについて
デジタルコンテンツ販売について
セミナーについて
お問合わせはこちら

【ビジネスで使う統計学】誰でもできる将来予測のやり方

ビジネスのいろいろな局面で、過去の実績に基づいて将来を予測するという必要が度々あります。例えば、コールセンターの問い合わせ件数あるいは受注件数、そういったものです。




コールセンターの問い合わせ件数

コールセンターの問い合わせ件数の場合は、過去の件数に基づいて将来の件数を予測し、その予測に応じてコール処理スタッフのスケジュールを調整したり、または新規に採用して増員したりということを行うわけです。

従って、この予測が外れるとコール処理がさばききれず、お客様に迷惑をかけたり、逆に人を採用しすぎて損失を出すということが考えられます。問い合わせ件数の予測をなるべく正確に行うことで、適正なコストであったり顧客満足の実現にができるということになります。




受注件数

受注件数についても同様のことが言えます。予測を大きく見積もりすぎてしまうと、過剰在庫に問題が生じますし、逆に予測を小さく見積もりすぎてしまうと、欠品による機会損失の問題が生じます。

このように、将来予測はビジネス上非常に重要です。しかし、なかなかこれを科学的に行っているところは少ないようです。その代わりにいわゆる KKD(感と経験と度胸)によって将来を予測し、一か八かの勝負をしているところが多いのが現実です。

 

将来予測は難しくない

一般に考えられるより科学的な将来予測はそれほど難しいものではないです。特にExcelのようなソフトを使うことで、誰でも簡単にある程度の精度で将来予測をすることが可能となります。

 

散布図と近似を使う

本格的な将来予測をやろうとするとまず説明変数を見つけて、重回帰による分析を行って将来予測を行ったりします。ですが、これはかなり手間がかかりますし、誰でもできるという訳ではありません。そこで簡便的なやり方として、散布図とその近似を使った方法を紹介します。




散布図の書き方

これはExcelの通常のグラフの書き方となんら変わりありません。ただ単にデータを並べて「挿入」の中から散布図を選ぶだけです。具体的には次のような手順になります(Mac版Excel 2016による例ですが他のバージョンでもだいたい同じはずです)。

(1)表を作る。例えば過去10年分の1月度のコール件数として以下の例を使います。


(2)散布図を書く。「挿入」からグラフの散布図を選びます。こんな感じになります。この時点でおおよそのトレンドを理解します。この例でいうと、2012年ごろから成長していますが、2015年ぐらいから成長が鈍化しているイメージです。


近似線の作り方

次に出来上がった散布図に対して近似線を作成します。近似線には単なる直線から多項近似その他いろいろありますが、Excel を使えばメニューから選ぶだけでそれぞれの近似線を描くことができます。そしてその近似の度合いはR² と言う数値によって判定することができます。R²が1に近ければ近いほど近似式は精度が高い(誤差が少ない)ということになります。従って様々な近似線をExcelに書かせてR²の値が一番大きい(1に近い)ものを選べば良いということになります。

ただし、多項式においては項数が大きければ大きいほどR²が1に近くなってきますが、このことが必ずしも将来予測の精度を上げるとは限りません。ある程度の近似線を書いたら将来予測をしてみて、それがこれまでの実績と照らして妥当なものかどうかは、最終的に人間が判断する必要があります。

(1)散布図のプロットを選択して、右クリックから「近似曲線の追加」を選びます。

すると、どの近似をするのか選ぶ画面が出てきます。ここで、「数式を表示する」と「R-2上数値を表示する」のチェックボックスをオンにして、直線近似や多項式近似などいくつかパターンを試してみます。

例では直線近似はこうなりました。R²は0.7885となっています。


(2)次に多項式近似(項数=2)でみて見るとこうなります。R²は0.8596となっています。まずまずですが、直近の減速感がうまく出ていない感じもします。

(3)そこで項数を3に変更して見るとこんな感じになりました。R²は0.8841です。まあこのくらいでしょう。結果として近似式は

Y= -2.375X³ + 14351X² -3x(10の7乗)X +2x(10の2乗)

となります。

(4)X軸が年のままだと数字が大きすぎて厄介なので、1から10までの数値に置き換えてしまうと、次のように近似式がスッキリします。

これで、近似式は下記のようになりました。

Y= -2.3753X³ + 48.98X² – 205.98X +3324.7



将来を予測する

近似式が決まったら、その延長線上に将来の数値を予測します。例のように過去10年分の12ヶ月分のデータがあるとします。そうしますと1月分のデータとして過去10年分、つまり10個のデータがあることになります。その10個のデータから近似線を近似曲線を作成して、その式に当てはめることで、11個目すなわち今年もしくは来年などこれから起きる将来の数値を算出するのです。

例の場合では、Xに11を入れて計算するとY=3823.9757と算出されます。従って、11年目すなわち2019年1月のコール数は約3823件と予測されます。

しかしこれは近似式に基づいた計算結果に過ぎませんので、ビジネス運用上の実際の予測は直近の動向やデータ以外の情報(現場の観察など)も参照して、推定することになります。例の場合でも2015年くらいからの減速を考慮すれば、もう少し少なめの3800件弱くらいが良い線かもしれませんね。まあ誤差の範囲かもしれませんが。

いずれにしても計算技術上の一定の根拠を持ちつつも、最後は人間が判断することになるでしょう。

 

まとめ

この方法の良いところは、統計など詳しくない人でもExcelで手順さえ踏めば比較的簡単に予測が可能なことです。欠点は、それほど完全なものではない、ということですが、人命に関わることでもない限りそこまで厳密である必要もありませんし、最後は現場の関係者による判断ということになりますので、必要かつ十分な方法といえるでしょう。

以上、誰でもできる将来予測のやり方という話題でした。この方法を応用してビジネスの将来予測に役立てましょう。よろしければ下記の書籍もどうぞ(画像をクリックするとアマゾンのページに移ります)。

━━…━━…━━…━━…━━…━━
サンクプランズ・コンサルティング
━━…━━…━━…━━…━━…━━
個人・中小事業者のお客様を対象に会計サービス、コンサルティング、デジタルコンテンツ販売、セミナーなどを行っています。
詳しいプロフィールを見る
会計サービスについて
コンサルティングについて
デジタルコンテンツ販売について
セミナーについて
お問合わせはこちら

 


【ビジネスで使う統計学】テストマーケティングの効果を統計的に分析する方法

テストマーケティング

同じ商品でもパッケージのデザインによって売れ行きが変わったり、Webサイトでいえばデザインによってクリック数が変わったりします。

このため、どのデザインにしたら良いか会議があり話し合うのですが、最後は多数決とかエイヤーで直感頼みで決めたり、偉い人の鶴の一声で決めたりする訳です。そこにはこれといった根拠や理由はありません。ただ単になんとなく、決まるのです。

しかし、それでは博打と同じで、特に大きな投資となる場合には、心もとないですし、選ばれなかったデザインを推していた人も釈然としません。

そこでテストマーケティングしてみよう、という話になります。例えば4パターンのデザイン全てのパッケージによる商品を店頭に並べてみたり、Webサイトのデザインを一定期間で変えたりして、どちらが選ばれるのか?というのを検証する訳です。

そうするとデータが取得できます。A/B/C/Dの4パターンのパッケージ商品がそれぞれいくつ売れたのか?とか、A/B/C/Dの4パターンのWebデザインのそれぞれで目的となるリンクやボタンのクリックが何回あったのか?というデータです。

例えば下記のような感じです。

A・・・20個売れた

B・・・30個売れた

C・・・40個売れた

D・・・10個売れた

これはもう圧倒的にCですよね、一番売れたし、となります。

ここで疑い深い人から「本当にそうか?」「たまたまでは?」という疑念が沸き起こります。

そんなときに使うのが、「カイ二乗(かいじじょう)検定」です。

 

カイ二乗検定とは

カイ二乗検定の「カイ」はギリシャ文字のΧです。英字のエックスに似てますが、ちょっと違います。Χの二乗だからカイ二乗です。

検定とは統計学界隈で使われている手法で、統計学的が裏付けのある意味のある違い(変化)が認められるかどうかを調べるやり方です。検定は、実際には難しい数式による計算を行う必要があるのですが、そういったことは専門家に任せておいて、私たちは要するにビジネスの現場でツールとして検定を使えれば良いのです。

計算自体はExcelに用意されている関数を使うだけです。この関数に数値をいれて、計算結果だけを使います。検定の計算結果はp値(ぴーち)と呼ばれていて、このp値の大きさが5%(0.05)より大きいか・小さいかで判定します。

5%(0.05)より大きければ、有意な(意味のある)違いが無い、と判定されて、上記の例ではパターンCがもっとも売れたのはたまたまで、統計学的な根拠無し、となります。

5%(0.05)より小さければ、有意な(意味のある)違いがある、と判定されて、上記の例ではパターンCがもっとも売れたのは確かで、統計学的な根拠有り、となります。

そして統計学的な根拠有りとなったら、そのことを上司なりクライアントなりにアピールしましょう。上司やクライアントはたいていの場合統計学に明るくないので、「そうなのかー」と納得してくれます。(たまに専門家の方がいて、冷や汗をかきますが)

 

Excelを使った分析のやり方

Excelでカイ二乗検定はCHITEST()という関数を使います。

まず下図のような表にデータを入れます。2行目はそれぞれのパターンの実測値を、3行目には期待値を入れます。期待値は本来どのパターンも同じになるはずですので、25ということになります。

それでどこかのセルに「=CHITEST(B2:E2,B3:E3)」と入れて計算させます。B2:E2というのが実測値の範囲、B3:E3というのが期待値の範囲の指定です。

上記の例では、計算結果は「0.00016974」と出ます。すなわちp値が5%(0.05)より小さいですので、有意であるということになり、従って統計学的にもパターンCがもっとも売れるパターンであると結論づけることができます。

今回サンプル数が全体で100でしたが、100程度はないと「たまたま」との違いを検知できないようですので、注意が必要ですね。

以上、テストマーケティングの効果を統計的に分析する方法について、でした。

統計学の基本が勉強したいときには、この本がお勧めですよ。私も愛読しています。

━━…━━…━━…━━…━━…━━

サンクプランズ・コンサルティング

━━…━━…━━…━━…━━…━━

個人・中小事業者のお客様を対象に会計サービス、コンサルティング、デジタルコンテンツ販売、セミナーなどを行っています。

会計サービスについて

コンサルティングについて

デジタルコンテンツ販売について

セミナーについて

詳しいプロフィールを見る