渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

どのような場面で多重比較補正が必要なのか

先日のことですが、Querie*1で以下のような質疑がありました。

恐らくですが、これは僕が懇意にさせていただいているマクリン謙一郎さんがコメントしていた件に関連する話題だと思われます。

分かる人が見れば「典型的な多重比較補正問題だ」と分かる話なんですが、普段から意識していないと意外と見落とされがちなポイントだと思うんですよね。ということで、最近ネタ切れなのを糊塗する目的も兼ねて今回の記事では簡単にこの話題を改めてサクッと深掘ってみようと思います。なおいつもながらですが、記事中に僕の理解不足や誤解などがありましたら、何なりとご指摘くださると幸いですm(_ _)m

*1:最近復活させました

続きを読む

2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト

毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。


今回のバージョンでは、趣向をちょっと変えて「定番」と「注目分野」というように分けました。何故こうしたかというと、平たく言って

  • 「初級&中級向け」推薦書籍リストは定番化していて毎年あまり変更点がない
  • 逆に直近のホットトピックスに関するテキストは毎年入れ替わりが激し過ぎて網羅しづらい

という課題があり、特に2点目についてはあまりにもデータサイエンス関連書籍の新規刊行が多過ぎる&僕自身がその流れについていけておらず完全に浦島太郎状態ですので、万人向けに等しくウケるようなリストを作るのは今回をもって完全に諦めたというのが実態です。


その上で、前回まで踏襲されていた定番書籍リストはバルクで提示すると同時に、あくまでも僕の独断と偏見で直近1年間のホットトピックスに沿った知識・見識を提供してくれるであろう注目書籍をピックアップしたリストを提示する、というスタイルを取ることとしました。

続きを読む

CausalImpactは実装によって中身に重大な差異がある

CausalImpactについては、過去にこのブログでも何度か話題にしてきたかと思います。端的に言えば、seasonalityによるバイアスを補正するための実験計画であるDID(Difference in Differences:差分の差分法)によって得られたtest/controlグループの時系列データセットに対して、介入後期間において反実仮想(counterfactual)ベースラインを予測値として与えた上で、これと実測値との差を分析することで介入の因果効果を推定するというものです。以前このブログで取り上げた記事と、ill-identifiedさんの詳細な解説記事とを以下に挙げておきます。


実際の使い方については、このブログで取り組んだ事例の記事を以下に挙げておきます。これはコロナ禍における政府の人流抑制策が、現実としてどれくらいの効果があったかを検証しようとしたものです。

業界全体を見渡してみても、CausalImpactはここ数年広告・マーケティング業界で急速に広まりつつあるみたいなんですね。理由は簡単で、マーケティング分野のデータは時系列で尚且つseasonalityが筆頭に上がるバイアスであり、DID & CausalImpactのコンビネーションはそのようなデータにおいて因果推論する上で最適だからです。特に広告やマーケティング施策などで何かしらの刺激を市場に与えた際のKPIへのアップリフトを、seasonalityを排除しつつ推定したいというケースではDID & CausalImpactほど便利なフレームワークはないと言っても過言ではないでしょう。


……ところが、最近になって思わぬ問題を業界内で耳にするようになりました。それは「使うCausalImpactのパッケージ次第で分析結果が変わる」というもので、しかも場合によっては介入効果の正負自体が変わってしまうという極端な差異が生じることもある、というのです。今回の記事は、そのような事態が起きる要因を推定した上で、同様の問題がOSSでは普遍的に起こり得るという点に注意を促すものです。

続きを読む