2016-10-27

モデル選択とAICとcross validationの関係を大雑把に実験してみる

R 統計学機械学習

Stanの開発者でもある統計学界の重鎮、Andrew Gelmanがこんなブログ記事をupしていました。

ちなみに@berobero11さんがこの件についてこんなコメントをされてました。

AkiらのPSIS-LOOがWAICより良いとする論文が出た。https://t.co/BWYNALp88K
渡辺先生の反論はこちら。https://t.co/MLQQvQuwM7
・WAICはCVではなく汎化誤差を小さくするもの
・MCMCを何度もやった場合の揺らぎを見よ
— Kentaro Matsuura (@berobero11) October 21, 2016

WAICとcross validationの関係については渡辺澄夫先生の本にも当然のように記述があって、そこで密林でポチって読んでみたのですが、いかんせん僕の数学力が弱すぎてまだ全然理解できてない有様ですorz

ベイズ統計の理論と方法

作者: 渡辺澄夫
出版社/メーカー: コロナ社
発売日: 2012/03
メディア: 単行本
購入: 1人クリック: 4回
この商品を含むブログ (4件) を見る

というザマでこの件について自分では何も勉強出来てないんですが（汗）、そもそも論としてモデル選択においてAICとcross validationってどんな関係性にあるんだっけ？というのをふと思ったので、大雑把に実験してみようかと思います。

2016-10-05

統計的因果推論(3): 傾向スコア算出を機械学習に置き換えてみると

R 統計学統計的因果推論機械学習

この記事は以下の記事の続きです。

前回の記事では普通にロジスティック回帰で傾向スコアを求めたのですが、傾向スコアというのは元はと言えば「共変量に基づいてそれぞれの群に割り付けられる確率値を求めたもの」なので、やろうと思えば機械学習分類器で代替しても良いわけです。実際、岩波DS3にもそのように書かれています。

岩波データサイエンス Vol.3

岩波書店

Amazon

ということで、前回記事のCM接触データセットに対して任意の機械学習分類器を用いて傾向スコアを算出した歳の、各種効果指標の違いを見ていこうかと思います。なおデータセットは前回から引き続きdというデータフレームに入っているとします。またAUCを求めるに当たっては{ROCR}パッケージを用いています。下準備として以下のようにインデックスを用意しておきます。

> ivec1 <- d$cm_dummy # Treated group
> ivec0 <- rep(1, nrow(d))-ivec1 # Untreated group
> ivec <- cbind(ivec1, ivec0)

あとは機械学習分類器を使っていくだけです。

2016-09-30

バリ島に行ってきました

旅行記

f:id:TJO:20160927123809j:plain

前回の香港旅行の際にもちろっと書きましたが、2回に分けて取った夏休みの後半はバリ島旅行に行ってきたのでした。ただし香港とは異なり、バリ島の方は一部の例外を除いてほぼ統合型リゾートであるAYANA Resort & Spa BALIにこもりっきりみたいなものだったので、特にバリ島旅行tipsのようなものを書くつもりはなく、ただ写真を羅列するだけの「そんなものはInstagramでやれコノヤロウ」的なコンテンツに終始しておりますので予めご容赦ください（笑）。そして大量の写真が羅列してあるだけなので、この記事自体は中身の割にサイズとしてはめちゃくちゃ重たいのでご注意あれ。

渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

モデル選択とAICとcross validationの関係を大雑把に実験してみる

統計的因果推論(3): 傾向スコア算出を機械学習に置き換えてみると

バリ島に行ってきました