渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

統計的因果推論

ビジネスの実務で「因果」を推測するということ

統計的因果推論と言えばすっかり統計学分野ではお馴染みのアプローチになった感があり、また機械学習分野でも扱うテーマが複雑化するにつれて注目が高まり続けているトピックスという印象があります。 このブログでも2016年ぐらいから因果推論に関する記事を…

2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト

毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。 今回のバージョンでは、趣向をちょっと…

CausalImpactは実装によって中身に重大な差異がある

CausalImpactについては、過去にこのブログでも何度か話題にしてきたかと思います。端的に言えば、seasonalityによるバイアスを補正するための実験計画であるDID(Difference in Differences:差分の差分法)によって得られたtest/controlグループの時系列デ…

MMM (Media/Marketing Mix Modeling)を回すなら、まずGeorge E. P. Boxの格言を思い出そう

「最後の統計学界の大御所」の一人で、2013年に亡くなったGeorge E. P. Box*1が残した格言 "All models are wrong; but some are useful"(全てのモデルは間違っている、だが中には役立つものもある)ですが、このブログでは過去に何度も紹介しているのでお…

蔓延防止等重点措置(まん防)の効果検証を「あえて」DID+TSclustによる時系列クラスタリング+CausalImpactでやってみた

少し前の話ですが、現在COVID-19の感染が拡大している地域で実施される「蔓延防止等重点措置(まん防)」に効果があったかどうかについて、計量経済学的な観点に基づいた政策評価レポートが公開されて話題になっていました。 追記本日午前中に元のレポート自…

犬は狼にはなれないが、狼は犬にもなれる

(Image by qimono from Pixabay)年月が過ぎるのは早いもので、2021年もあっという間にわずかな日数を残すのみとなってしまいました。ということで、恒例の1年の振り返りとともにちょっとした年末の気付きをポエムにまとめてみようと思います。

シンプソンのパラドックスのはなし

今月はモデルナワクチンの2回目接種*1やら仕事でも負荷の高い分析業務やら、はたまた執筆*2やらでネタ切れなのもあってあまりブログ記事を書けていなかったので、最近話題になった件について簡単に論じてみようかと思います。元ネタはこちらです。 これはイ…

2021年版:データサイエンティストを初めとするデータ分析職向け推薦書籍リスト(初級5冊+中級8冊+テーマ別14冊)

(Image by Pexels from Pixabay)今年も恒例の推薦書籍リストの季節がやって参りました。……なのですが、昨年はCOVID-19の影響で*1データ分析業界及び隣接分野の新刊書を読む機会が減ってしまいましたので、例年に比べてラインナップの変更をほとんど検討しな…

VARそして時系列因果性分析の復習

「新型コロナウイルス感染症における治療の進展(令和2年10月29日に開催された第13回新型コロナウイルス感染症対策分科会事務局提出資料を基に内閣官房・内閣府作成)」という資料が世間で物議を醸しているようです。ただ、これを見ていて僕が個人的に気にな…

『効果検証入門』はマーケティング実験&分析に関わる全ての人にお薦めの統計的因果推論の入門書

このブログを普段からお読みになっている皆さんはご存知かと思いますが、僕は割と口を酸っぱくして「マーケティングに携わるならきちんと実験して効果検証せよ、その介入がピュアな施策だろうと機械学習システムによるものだろうと変わらない」ということを…

{CausalImpact}を使う上での注意点を簡単にまとめてみた

実はこのネタは元々別のところでやり取りのあった話題だったりします。色々な都合があってここ最近{CausalImpact}に触れる機会が自分に限らず周囲でも増えているのですが、若い人たちから「そもそも{CausalImpact}って何をしているんですか?使う際は何に気…

ニューラルGranger因果という論文が出たらしい(追記あり)

3年前に因果フェスというイベントでGranger因果について専門家でもないのに講演させられるという稀有な経験をしたわけですが。 その時のイベント報告記事で、会場でのディスカッションの内容を踏まえて僕はこんなことを書いたのでした。 非線形Granger因果性…

実務の現場に多い時系列データ分析の際に注意しておきたい点を列挙してみる

こういうメタ分析系の記事を書く時というのは大抵ネタ切れの時なんですが(汗)、最近になってこの辺のポイントでつまずいて困っているビジネスデータ分析の現場の話を聞くことがまた増えてきたので自分向けの備忘録も兼ねて記事としてまとめておきます。 そ…

データサイエンティストもしくは機械学習エンジニアを目指すならお薦めの初級者向け6冊&中級者向け15冊(2017年春版)

(Photo credit: https://pixabay.com/en/books-door-entrance-italy-colors-1655783/)この記事は一昨年のこの書籍紹介記事のアップデート版です。相変わらず毎月のように新刊書が出続けるデータ分析業界ですが、良い本が増え続けてきたせいでついに初級者向…

実務の現場においてモデリング(統計学的・機械学習的問わず)を行う上での注意点を挙げてみる

気が付いたら僕がデータ分析業界に身を置くようになってそろそろ5年近くになるんですね*1。この5年間の間に色々勉強したり業界内で見聞してきた経験をもとに、「実務の現場においてモデリングを行う上での注意点」についてだらだらと書いてみようと思います。…

統計的因果推論(5): Platt's scalingで機械学習分類器による傾向スコアを調整してみる

この記事は以下の記事の続きです。機械学習分類器で算出した傾向スコアを調整する話ですが、最後に課題として残ったのがprobability calibrationによる実践。探してみると前回の記事でもやったisotonic regressionとか色々出てくるんですが、もう一つ出てく…

統計的因果推論(4): 機械学習分類器による傾向スコアを調整してみる

この記事は以下の記事の続きです。ご覧の通り、機械学習分類器3種で傾向スコアを算出してみたらおかしな結果になったわけです。この点について、実は後日2点ほどコメントをいただきました。1つはブコメで、 統計的因果推論(3): 傾向スコア算出を機械学習に置…

統計的因果推論(3): 傾向スコア算出を機械学習に置き換えてみると

この記事は以下の記事の続きです。前回の記事では普通にロジスティック回帰で傾向スコアを求めたのですが、傾向スコアというのは元はと言えば「共変量に基づいてそれぞれの群に割り付けられる確率値を求めたもの」なので、やろうと思えば機械学習分類器で代…

統計的因果推論(2): 傾向スコア(Propensity Score)の初歩をRで実践してみる

さて、統計的因果推論についてだらだらと独習していくこのシリーズですが、今回はDonald Rubinが考案したRubinの因果モデルで用いられる、傾向スコア(Propensity Score)を取り上げてみようと思います。「お前岩波DS3で事前に原稿読んで中身は知っているはず…

統計的因果推論(1): 差分の差分法(Difference-in-Differences)をRで回してみる

世の中様々な介入効果・施策効果を検証するためのexperimentが行なわれていると思うんですが、意外とその効果検証というのは難しいものです。特にいわゆる統計的因果推論の立場から見れば、web上で接触する一般ユーザーに対する介入や施策といったものの検証…

因果フェスでGranger因果について話してきたら、色々いじれば非線形でもやれるんじゃないかという気がしてきた

本日8月6日に駒場で開かれた日本生態学会関東地区会公開シンポジウム「非ガウス性/非線形性/非対称性からの因果推論手法:その使いどころ・原理・実装を学ぶ」通称因果フェスにて、Granger因果について話してきました。 ちなみに事前に林岳彦(id:takehiko-…