渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

モデル選択とAICとcross validationの関係を大雑把に実験してみる

Stanの開発者でもある統計学界の重鎮、Andrew Gelmanがこんなブログ記事をupしていました。

ちなみに@さんがこの件についてこんなコメントをされてました。

WAICとcross validationの関係については渡辺澄夫先生の本にも当然のように記述があって、そこで密林でポチって読んでみたのですが、いかんせん僕の数学力が弱すぎてまだ全然理解できてない有様ですorz

ベイズ統計の理論と方法

ベイズ統計の理論と方法

というザマでこの件について自分では何も勉強出来てないんですが(汗)、そもそも論としてモデル選択においてAICとcross validationってどんな関係性にあるんだっけ?というのをふと思ったので、大雑把に実験してみようかと思います。

続きを読む

統計的因果推論(3): 傾向スコア算出を機械学習に置き換えてみると

この記事は以下の記事の続きです。

前回の記事では普通にロジスティック回帰で傾向スコアを求めたのですが、傾向スコアというのは元はと言えば「共変量に基づいてそれぞれの群に割り付けられる確率値を求めたもの」なので、やろうと思えば機械学習分類器で代替しても良いわけです。実際、岩波DS3にもそのように書かれています。

ということで、前回記事のCM接触データセットに対して任意の機械学習分類器を用いて傾向スコアを算出した歳の、各種効果指標の違いを見ていこうかと思います。なおデータセットは前回から引き続きdというデータフレームに入っているとします。またAUCを求めるに当たっては{ROCR}パッケージを用いています。下準備として以下のようにインデックスを用意しておきます。

> ivec1 <- d$cm_dummy # Treated group
> ivec0 <- rep(1, nrow(d))-ivec1 # Untreated group
> ivec <- cbind(ivec1, ivec0)

あとは機械学習分類器を使っていくだけです。

続きを読む

バリ島に行ってきました

f:id:TJO:20160927123809j:plain

前回の香港旅行の際にもちろっと書きましたが、2回に分けて取った夏休みの後半はバリ島旅行に行ってきたのでした。ただし香港とは異なり、バリ島の方は一部の例外を除いてほぼ統合型リゾートであるAYANA Resort & Spa BALIにこもりっきりみたいなものだったので、特にバリ島旅行tipsのようなものを書くつもりはなく、ただ写真を羅列するだけの「そんなものはInstagramでやれコノヤロウ」的なコンテンツに終始しておりますので予めご容赦ください(笑)。そして大量の写真が羅列してあるだけなので、この記事自体は中身の割にサイズとしてはめちゃくちゃ重たいのでご注意あれ。

続きを読む