2023-12-04

CausalImpactは実装によって中身に重大な差異がある

CausalImpactについては、過去にこのブログでも何度か話題にしてきたかと思います。端的に言えば、seasonalityによるバイアスを補正するための実験計画であるDID（Difference in Differences：差分の差分法）によって得られたtest/controlグループの時系列データセットに対して、介入後期間において反実仮想(counterfactual)ベースラインを予測値として与えた上で、これと実測値との差を分析することで介入の因果効果を推定するというものです。以前このブログで取り上げた記事と、ill-identifiedさんの詳細な解説記事とを以下に挙げておきます。

実際の使い方については、このブログで取り組んだ事例の記事を以下に挙げておきます。これはコロナ禍における政府の人流抑制策が、現実としてどれくらいの効果があったかを検証しようとしたものです。

業界全体を見渡してみても、CausalImpactはここ数年広告・マーケティング業界で急速に広まりつつあるみたいなんですね。理由は簡単で、マーケティング分野のデータは時系列で尚且つseasonalityが筆頭に上がるバイアスであり、DID & CausalImpactのコンビネーションはそのようなデータにおいて因果推論する上で最適だからです。特に広告やマーケティング施策などで何かしらの刺激を市場に与えた際のKPIへのアップリフトを、seasonalityを排除しつつ推定したいというケースではDID & CausalImpactほど便利なフレームワークはないと言っても過言ではないでしょう。

……ところが、最近になって思わぬ問題を業界内で耳にするようになりました。それは「使うCausalImpactのパッケージ次第で分析結果が変わる」というもので、しかも場合によっては介入効果の正負自体が変わってしまうという極端な差異が生じることもある、というのです。今回の記事は、そのような事態が起きる要因を推定した上で、同様の問題がOSSでは普遍的に起こり得るという点に注意を促すものです。

2023-11-11

データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない

統計学機械学習時系列分析データ分析ビジネスマーケティング

前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransformerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなものと受け止められても不思議はなかったかと思います。

しかし、それは同時に「データセットが持つ本質的な性質」と「データ分析手法の性質」とのミスマッチと、それが引き起こす問題とについてこれまであまり関心を持ってこなかった人が多いということなのかもしれません。そして、そのミスマッチは冗談でなく古来からある程度定まった類型があり、データ分析業界の古参なら「そんなの常識だよ」というものばかりだったりします。

ところが、最近僕の周囲でもそういうミスマッチが深刻な実問題を招いているケースが散見され、思ったよりもそれは常識ではないのかな？と思わされることが少なくないんですね。ということで、今回の記事ではとりあえず僕自身が「あるある」だと認識している「データセットの本質的な性質とデータ分析手法の性質とのミスマッチ」の代表的なケースを3つ挙げてみようかと思います。

*1:はてブが伸びたという意味

2023-10-21

「機械学習で時系列予測はできるのか」論議がTransformerと共に帰ってきた

時系列分析機械学習 Deep Learning 統計学論文研究

先日、こちらのポストをお見かけしました。

AI技術開発部の高橋が社内勉強会の資料「時系列予測にTransformerを使うのは有効か？」を公開しました。
論文Are Transformers Effective for Time Series Forecastingの紹介を中心に、時系列予測について解説しています。ぜひご覧ください。https://t.co/LplxTT8b1d pic.twitter.com/nUXb4bGiQ3
— GO Inc. AI Tech (@goinc_ai_tech) 2023年9月28日

なるほど、NN全盛というかNN一択の時代にあっては時系列予測もNNでやるのが当たり前になったのだなという感想でした。大昔「沖本本」で古典的な計量時系列分析を一通り学んだ身としては隔世の感がありますが、これもまたNN時代の趨勢なのでしょう。

なお、元論文2点は上記リンクから辿れます。ただし、Slideshareのまとめを読んだ方が分かりやすい（というか論文自体は短くて素っ気ない）と思いますので、どちらかというとまとめの方を参照された方が良いでしょう。

……ただ、個人的な感想を書いてしまうと「ああまた相変わらず同じテーマで使うML技法を変えて堂々巡りしているな」と思ったのも事実です。そこで今回の記事では、過去に同様の議論をした際のポイントをおさらいしつつ、改めて「Transformerで時系列予測を行うのは是か非か」について論じてみようと思います。なお、僕はTransformerについてはど素人を通り越して「知ったかぶりが出来ているかどうかも怪しい」レベルの理解しかありませんので、完全なデタラメを書いている可能性が自分でも否定できません。ということで、誤りや理解不足などの点があれば是非ご指摘いただけると有難いですm(_ _)m

渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

CausalImpactは実装によって中身に重大な差異がある

データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない

「機械学習で時系列予測はできるのか」論議がTransformerと共に帰ってきた