” ニーズが見える ” ID-POS分析
シン・Tapir-1.0の大規模なID-POS分析の実行において、どうしても統計処理に掛けるID数を絞り込む必要性に迫られ、統計的に有意と言える絞り込みについて検索してみました。
学問的な真髄についてはすっ飛ばし、数式だけを手に入れて、数値入れ入れ考察していたのですが、「ID-POS分析における有意な会員比率が分かるかも?」等の気づきも幾つかあった為、その過程を記事にしてみます。
「チーズ味が好きか?コンソメ味が好きか?」というアンケート※があったとします。
一人が「チーズ味」もう一人が「コンソメ味」と答えた時「世間の人はチーズ派とコンソメ派で半々に分かれる」と言えるでしょうか?
一方で世間の人全員にアンケートを採る事は経済合理的ではありませんし、全員から回答が返って来る訳でもありません。
では、どの位の人数から回答が得られれば「世間の人は」と言える = 統計的に有意と言えるのでしょうか?
”世間”のような母集団から、統計的に有意な回答者数=標本サイズを導き出すのが次の式です。
※.ID-POS分析におけるレシートの中でも、ノンセクションながらアンケート同様個々の顧客は「チーズ派!」「コンソメ派!」「どっちも派!」「どっちもいらない派!」と日々回答し続けています。
一般的な精度の式と、高精度な式を挙げてみます(ID-POS分析らしく”ID数”という言葉を使ってみます)。
【 一般 】 有意な標本ID数 = 384.16 ÷ ( 1 + 384.16 ÷ 母集団ID数 )
【高精度】 有意な標本ID数 = 16,641 ÷ ( 1 + 16,641 ÷ 母集団ID数 )
一般と高精度とでは、384.16 と 16,641という数値に違いがあるだけですが、この数値の中身についてここでは触れません(詳しく知りたい方は、SurveyMonkyさんのページ等をご覧下さい)。
式の構造上、母集団ID数が少なければ少ない程分母の数値が 分子+1 に近づき、標本ID数 ≒ 1に収束して行く事が、反対に母集団ID数が多ければ多い程分母の数値が1に近づき、標本ID数 ≒ 分子に収束して行く事が分かります。
一般的な精度で 母集団ID数≦14人の時と、高精度で 母集団ID数≦91人 の時に、標本ID数=母集団ID数 となります。
母集団のサイズがこの程度迄は「全員に聞かなきゃ駄目っしょ!」という事です。
逆に14人ないしは91人を超えたら必ずしも全員に聞かなくても良いという事は、まるで「人間の種類には大きく14〜91のパターンがある」と示唆しているかのようです。
マーケティングにおける”〇〇世代”のような顧客セグメントは、14※〜91セグメントに分け比較検討した上のものでなければ、統計的に有意とは言えないのかもしれません。
※.7年代 ✕ 2性別 で丁度14セグメントです。
一般的な精度で 母集団ID数≧223,221人の時と、高精度で 母集団ID数≧553,829,121人の時に、標本ID数 = 分子(最大)となります。
母集団ID数がこれ以上いくら増えても、標本ID数は一般的な精度で384人、高精度で16,641人以上にはなりません。
世界人口の40億人を母集団としても標本ID数は分子以上にはなりませんから、ズボラな方は「なぁ〜んだ簡単!アンケートって384人から回答を得ればいいんじゃん!」と思ったのでは無いでしょうか?
私も思いましたw 高精度で16,641人ですから「なぁ〜んだ簡単!16,641IDを超える処理の場合、ランダムに16,641IDを抽出して処理しちゃえばいいんじゃん!」とw
まず直感的にですが、全世界40億人の意見の集約を16,641人はおろか、384人に求める事が有意であるとはとても思えません。
図は再掲ですが、一般的な精度で223,221人、高精度で553,829,121人という母集団ID数は、要求精度が求めているアンケートにおける上限母集団ID数と捉えた方が良い気がします。
世界人口で言えば、一般的な精度で 40億人÷223,221人≒ 17,919の母集団ID数が偏らないエリアに分けてそれぞれ384人に、高精度で40億人÷553,829,121人 ≒ 7つの母集団ID数が偏らないエリアに分けてそれぞれ16,641人にアンケートを実施した方が良いのでは?という事です※。
※.結果として一般的な精度の総標本ID数は 17,919エリア✕384人=6,880,896人、高精度の総標本ID数は 7エリア✕16,641人=116,487人と、高精度の標本ID数の方が一転少なくなります。
一方私の必要性に関して言えば、例えばセブン−イレブンの年間利用ID数は553,829,121人未満でしょうが、全店舗(21,438店舗)相互の併買状況を分析しようとした際に、16,641人では1店舗につき1人を下回ってしまい、処理結果が有意になりません。
通常私たちが扱うスケールや予算規模に対して、高精度の想定する上限母集団ID数は現実的では無い為、ここからは一般的な精度での標本サイズの計算式に絞って考えて行きます。
上限母集団ID数に応じて算出式を変えるべきでは?という話題はさて置き、図を見るとスーパーマーケットであれ、ドラッグストアであれ、1店舗に求められる標本ID数に大差はありません。
553,829,121人に対してすら384人と大差は無いのですから、乱暴なイメージとしては「一箇所につき384人」といった感じです。
となれば、その”一箇所”が問題です。
「チーズ味が好きか?コンソメ味が好きか?」の答えを「全国」という一箇所に求めるのか?「静岡県」という一箇所に求めるのか?「A店」という一箇所に求めるのか?です。
地理的な空間が離れて行けば行く程、その人達を取り巻く状況も価値観もかけ離れて行く事を忘れてはいけません。
「知れるものなら全部知りたい!」という困ったちゃんも多いので、それをどの単位で知る事が以降の戦略的にも、経済合理的にもベストなのか?という一言も付け加えさせて頂きます。
標本ID数の算出式というのは経済合理性と統計的有意性の双方を担保する為のものであって、結局のところ分析の主題、すなわち欲しい答えに繋がる母集団の定義が全てなのです。
参考までにターゲットとする母集団サイズの目安と、それに対応した標本サイズ算出式中の変数x(最大標本ID数)の一覧を貼っておきます。
「一般的と言われているものよりも精度の低いものを挙げるのもどうか?」と考えた為、逆に一般が不当に低く見える表となってしまいましたが、「一般に充分事足りるからこそ一般」なのだという事を申し添えさせて頂きます。
高精度は母集団ID数という土俵が等しい時に高精度なのであって、それが経済合理的であったり実行可能であるかはまた別問題です。
①チェーンストア及びその分析における”一箇所”の最低単位は店舗(処理量が増えても、これを積み上げた方が単純性、汎用性を確保できる)
②1店舗の年間利用ID数が223,221ID超となる商売相手が無い(前々図で見ると、スーパー1店舗でそのほぼ1/10)
③とは言え「一般的」と言われている精度設計を下回らせる事には気兼ねがある
という事で、384人 ✕ 店舗数※ を、大規模処理時限定の処理上限ID数に設定する事にしました。
※.内情はもっと複雑ですw
非会員はIDを持っていない為、計算には1店舗1日の平均レシート枚数を利用する事とします。
中には1日に2回以上店舗を利用する人も居るでしょうが、これを無視できる程小さいと仮定するならば、レシート枚数をそのまま母集団ID数と捉える事が出来ます。
すると、スーパーマーケットで会員比率が17%以上、ドラッグストアで会員比率が42%以上あれば、統計的に有意なID-POS分析が成立するという事が分かります。
標本サイズの算出式は、その他にも「何店舗で実証実験をすれば、その結果をその他の店舗にも適用できそうか?」といった考察にも役に立ちそうです。
「非会員がカード会員と同じ振舞いをするとは思えない」等の賛否はあると思いますが、あくまでも統計は私たちが前に進む為の”根拠”です。
世界人口での考察時のように ”しっくり来るか/来ないか” が重要ですし、それなりにしっくり来たのであれば”やってみなはれ”が重要です。
多少いい加減だったとしても、その場に留まり疑心暗鬼を生むよりも、前に進む為のツールとして統計とお付き合い頂けたら幸いです。