渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

「仮説ドリブン」という名の甘い罠

今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。


そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプローチは実験科学分野出身の我が身にとっては、個人的には馴染み深いものです。まだ僕がポスドクだった頃、国際会議に際して日本人研究者同士で集まる会が毎回あったのですが、その席上でお話を聞く機会があった当時のトップ研究者の先生から「この世の森羅万象は網羅しようとするにはあまりにも広大過ぎる、故に森羅万象を区切って『仮説で白黒つけられる範囲』に絞り、これを検証するということを繰り返して前に進むべき」ということを聞かされ、感銘を受けたのを覚えています。


実際、仮説ドリブンの考え方は非常に有用なものであり、今現在僕自身が主戦場とする広告・マーケティング分野でも近年は広く援用されています。それこそA/Bテストのようにズバリ仮説検定の枠組みで効果検証を行うケースもあれば、もう少し緩やかに「〇〇という仮説をもとにして」調査分析を展開していくというケースもあり、日々の仕事でも「仮説」という単語を聞くことは多いです。


しかしその一方で、「仮説を定めてその真偽を検証する」という枠組みは「結果の分かりやすさ」という点では優れているものの、当たり前ながら「仮説を設けた範囲の外側のこと」が分からないという課題も抱えます。そこで、今回の記事では「仮説ドリブン」というアプローチが裏目に出るパターンを概念的に定義した上で、それが実務においてどのような表れ方をし得るかを考察してみようと思います。

続きを読む

CausalImpactは実装によって中身に重大な差異がある

CausalImpactについては、過去にこのブログでも何度か話題にしてきたかと思います。端的に言えば、seasonalityによるバイアスを補正するための実験計画であるDID(Difference in Differences:差分の差分法)によって得られたtest/controlグループの時系列データセットに対して、介入後期間において反実仮想(counterfactual)ベースラインを予測値として与えた上で、これと実測値との差を分析することで介入の因果効果を推定するというものです。以前このブログで取り上げた記事と、ill-identifiedさんの詳細な解説記事とを以下に挙げておきます。


実際の使い方については、このブログで取り組んだ事例の記事を以下に挙げておきます。これはコロナ禍における政府の人流抑制策が、現実としてどれくらいの効果があったかを検証しようとしたものです。

業界全体を見渡してみても、CausalImpactはここ数年広告・マーケティング業界で急速に広まりつつあるみたいなんですね。理由は簡単で、マーケティング分野のデータは時系列で尚且つseasonalityが筆頭に上がるバイアスであり、DID & CausalImpactのコンビネーションはそのようなデータにおいて因果推論する上で最適だからです。特に広告やマーケティング施策などで何かしらの刺激を市場に与えた際のKPIへのアップリフトを、seasonalityを排除しつつ推定したいというケースではDID & CausalImpactほど便利なフレームワークはないと言っても過言ではないでしょう。


……ところが、最近になって思わぬ問題を業界内で耳にするようになりました。それは「使うCausalImpactのパッケージ次第で分析結果が変わる」というもので、しかも場合によっては介入効果の正負自体が変わってしまうという極端な差異が生じることもある、というのです。今回の記事は、そのような事態が起きる要因を推定した上で、同様の問題がOSSでは普遍的に起こり得るという点に注意を促すものです。

続きを読む

データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない

前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransformerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなものと受け止められても不思議はなかったかと思います。

しかし、それは同時に「データセットが持つ本質的な性質」と「データ分析手法の性質」とのミスマッチと、それが引き起こす問題とについてこれまであまり関心を持ってこなかった人が多いということなのかもしれません。そして、そのミスマッチは冗談でなく古来からある程度定まった類型があり、データ分析業界の古参なら「そんなの常識だよ」というものばかりだったりします。


ところが、最近僕の周囲でもそういうミスマッチが深刻な実問題を招いているケースが散見され、思ったよりもそれは常識ではないのかな?と思わされることが少なくないんですね。ということで、今回の記事ではとりあえず僕自身が「あるある」だと認識している「データセットの本質的な性質とデータ分析手法の性質とのミスマッチ」の代表的なケースを3つ挙げてみようかと思います。

*1:はてブが伸びたという意味

続きを読む