渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

香港・マカオに行ってきました

今年は遅い夏休みを9月に2回に分けて取ることにしておりまして、1回目は香港・マカオに行ってきました。実は香港には7年前にも行ったことがあるんですが、今回改めて訪港してみて色々と気付いたこと・ハマったことなどがあったので、今回もその辺の教訓などを踏まえて以後香港・マカオを訪れる方のために、そして僕らが3回目に訪れる時のために備忘録として残しておこうと思います。

続きを読む

統計的因果推論(2): 傾向スコア(Propensity Score)の初歩をRで実践してみる

さて、統計的因果推論についてだらだらと独習していくこのシリーズですが、今回はDonald Rubinが考案したRubinの因果モデルで用いられる、傾向スコア(Propensity Score)を取り上げてみようと思います。「お前岩波DS3で事前に原稿読んで中身は知っているはずじゃないのか」とかいうツッコミはご勘弁ください(笑)。


元々は観察データ(つまりRCTを含む実験データではない)から因果関係を推定するための手法ということで、いかにして観察データに隠れた影響を与える共変量を突き止め、その共変量から及んでくる影響をバランスさせ、真の因果効果を推定するか、というのが主眼でした。つまり、RCTを実践できないような疫学データや社会科学的データに対する適用がメインだったようです。


しかしながら、最近は例えば広告やマーケティングといった「ある程度の介入(処置)*1はできても事実上RCTを徹底することは不可能」な調査データにおいても同様のニーズが増えているとも聞きます。岩波DS3にもそのような事例の紹介が実際にされており、今後も同様の取り組みは広告・マーケティング領域では増えていくものと予想されます。


今回は僕自身の勉強が決定的に不足しているため、基本的にはほぼ全面的に他の資料を参考にしながら備忘録的に内容をまとめたに過ぎない内容に終始しています。そのため大半の数式・定義類は割愛しております。きちんとした解説を読みたいという方は岩波DS3をお求めいただくか、バント効果推定記事をお書きいただいた中村知繁さんのブログ記事をお読みいただくことをお薦めいたします。

岩波データサイエンス Vol.3

岩波データサイエンス Vol.3


そしてRでの実践部分については以下のid:isseing33さん&id:SAMさんのブログ記事を参考にしています。

http://d.hatena.ne.jp/isseing333/20110511/1305124310

Disclaimer

いつも通り、調べながらの記事なので盛大に間違っている可能性があります。間違いを見つけた方は盛大に突っ込んで下さると有難いです。。。

*1:僕個人はこれまで「処置」という語は使ってこなかったので、以後「介入」に基本的には統一しています

続きを読む

{rBayesianOptimization}パッケージによるベイズ最適化で機械学習パラメータチューニングをお手軽に

機械学習のパラメータチューニングというと大なり小なり大変な部分があって、今年のエイプリルフール記事に皆さん引っかかって下さったところを見るにパラメータチューニングを簡単に済ませたい!と願う人々は世の中多いようです(笑)。


少し前のMXnetを使った記事でも取り上げましたが、そのパラメータチューニングを迅速に済ませようというアイデアの一つがベイズ最適化(Bayesian Optimization)です。

要は、グリッドサーチのように網羅的に最適なパラメータを探索しに行くのではなく、一つのパラメータで精度をチェックしたらその次は精度が上がりやすそうな方向にベイズ的に逐次改善を行いながら探索していく、という方法のことです。


世の中色々seminar paper的なものがあるようですが、arXivから@さんが見つけてきて下さったのがこれ。

日本語のブログ記事なら、id:olanleedさんのこちらの記事が良いと思います。


ということでこれらのreferencesを紹介してしまえば理論的なポイントは全ておしまいなのですが、リンク先を読むのも面倒という人のためにごくごく簡単な説明だけを書いておきます。ただし僕は数学が大の苦手なので数式は紹介する気もない上に、そもそも上記のreferencesからの受け売り以外何もありません(笑)。

続きを読む