渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

統計的因果推論(2): 傾向スコア(Propensity Score)の初歩をRで実践してみる

さて、統計的因果推論についてだらだらと独習していくこのシリーズですが、今回はDonald Rubinが考案したRubinの因果モデルで用いられる、傾向スコア(Propensity Score)を取り上げてみようと思います。「お前岩波DS3で事前に原稿読んで中身は知っているはずじゃないのか」とかいうツッコミはご勘弁ください(笑)。


元々は観察データ(つまりRCTを含む実験データではない)から因果関係を推定するための手法ということで、いかにして観察データに隠れた影響を与える共変量を突き止め、その共変量から及んでくる影響をバランスさせ、真の因果効果を推定するか、というのが主眼でした。つまり、RCTを実践できないような疫学データや社会科学的データに対する適用がメインだったようです。


しかしながら、最近は例えば広告やマーケティングといった「ある程度の介入(処置)*1はできても事実上RCTを徹底することは不可能」な調査データにおいても同様のニーズが増えているとも聞きます。岩波DS3にもそのような事例の紹介が実際にされており、今後も同様の取り組みは広告・マーケティング領域では増えていくものと予想されます。


今回は僕自身の勉強が決定的に不足しているため、基本的にはほぼ全面的に他の資料を参考にしながら備忘録的に内容をまとめたに過ぎない内容に終始しています。そのため大半の数式・定義類は割愛しております。きちんとした解説を読みたいという方は岩波DS3をお求めいただくか、バント効果推定記事をお書きいただいた中村知繁さんのブログ記事をお読みいただくことをお薦めいたします。

岩波データサイエンス Vol.3

岩波データサイエンス Vol.3


そしてRでの実践部分については以下のid:isseing33さん&id:SAMさんのブログ記事を参考にしています。

http://d.hatena.ne.jp/isseing333/20110511/1305124310

Disclaimer

いつも通り、調べながらの記事なので盛大に間違っている可能性があります。間違いを見つけた方は盛大に突っ込んで下さると有難いです。。。

*1:僕個人はこれまで「処置」という語は使ってこなかったので、以後「介入」に基本的には統一しています

続きを読む