「ビッグデータ」も通り過ぎていく

山本一郎さんのブログ「ビッグデータもバズワードになったんだなー」を読んでタイトルのような感想を持った。
ネットリサーチ、MROC、ビッグデータとリサーチ業界は定期的に「黒船」が現れ、「今のままでは滅びる!」と脅されてきた。ネットリサーチは確かに訪問面接調査や代表性を葬り去ったがフィールドワークの主要な手法としてリサーチ業界に組み込まれた。
MROCも定性調査の画期的な手法としてインサイトという新しいコトバとともに登場したが、手法のひとつとして定着したのかどうかもよくわからない。
最新がビッグデータであろう。
スパコンの進化とともに流体解析、気象データ解析、遺伝子解析などは改めて言われるまでもなくビッグデータである。
マーケティング関連では、インターネットのログだけでなく、人々の行動記録(ライフログ)も収集・蓄積できるようになったことがビッグデータの条件を整えたと言っていいのだろう。

ビッグデータ分析の事例として例の「ビールと紙オムツ」の話がいまでも取り上げられる。
詳しく調べてないが、スーパーマーケットのPOSデータの分析から、男性の買い物では「ビルと一緒に買われるものとして紙おむつの割合が最も高い」という結果が出たということだ。
話は(解析は)ここで終わっているはずだが、「ビールと紙おむつを関連陳列(同じ場所に一見関連のないものを一緒に陳列する店頭の手法。Cook-Doのマーボ豆腐の素を豆腐売り場に陳列する。という方法)して売り上げを伸ばした」という尾ひれ(たぶん?)がついて話が盛り上がって行ったようである。

この話のウソ臭さを山本一郎さんのブログを参考にしつつ、いくつか挙げてみる。
・おそらく「インバスケット分析」の結果だろうが、ビールと紙おむつ以外の相関関係のデータが出ていない。
・他の組み合わせに比べて「有意」だったのかどうか。(『統計学が最強の学問である』でこのあたりは追及され ていたが本が手元にない。=アウラの本棚から無断で借りて行った人は早く返すように!)
 (有意差検定の考え方についても問題・限界があるらしい)
・男性の買い物客の割合がどれくらいかわからないと、関連陳列の効果(売り上げ増)が計算できない。
・主婦客が大多数であれば、この関連陳列はマイナス効果の危険もある。
・いくらデータに相関があってもビール(チルドケースもある)と湿気を嫌う紙おむつとを関連陳列できない。
・飲料と日雑のバイヤーが違う。利益構造も違う。
・ビールの売り上げに影響するのか、紙おむつになのかわからない。

以上のようにデータ解析は不十分だし、店頭の現場もわかってないし、「おはなし」の域を出ていない。
この「ビールと紙おむつ」以上の話題が出てこない限り、リサーチ業界の上を通り過ぎていくことになりそうなビッグデータではある。

気象データはもちろんビッグデータではあるし、スパコンでのシュミレーションに向いている。
遺伝子データでは、最近アメリカで10万人、100万人規模で全遺伝子データを解析しようという試みがあるそうだ。アンジェリーナ・ジョリーが乳房切除・再建で話題になったが、ビッグデータはそういった方面で発展しそうである。