そう言えばこのシリーズ長らく放置してました(汗)。いよいよこのブログもネタ切れが著しくなってきたので、今更そんな古いネタやるのかよと怒られるのを承知で「単に自分がやってみたかったから」というだけの理由で今更感のあるネタをやることにします。ということで、今回のネタはLSTM-RNN (Long short-term memory Recurrent neural network)です。いつも通り完全に自分専用の備忘録としてしか書いていませんので、ちゃんと勉強したい人は他のもっときちんとした資料*1や書籍*2やソース*3を当たってください。。。
続きを読むモデル選択とAICとcross validationの関係を大雑把に実験してみる
Stanの開発者でもある統計学界の重鎮、Andrew Gelmanがこんなブログ記事をupしていました。
ちなみに@berobero11さんがこの件についてこんなコメントをされてました。
AkiらのPSIS-LOOがWAICより良いとする論文が出た。https://t.co/BWYNALp88K
— Kentaro Matsuura (@berobero11) October 21, 2016
渡辺先生の反論はこちら。https://t.co/MLQQvQuwM7
・WAICはCVではなく汎化誤差を小さくするもの
・MCMCを何度もやった場合の揺らぎを見よ
WAICとcross validationの関係については渡辺澄夫先生の本にも当然のように記述があって、そこで密林でポチって読んでみたのですが、いかんせん僕の数学力が弱すぎてまだ全然理解できてない有様ですorz
- 作者: 渡辺澄夫
- 出版社/メーカー: コロナ社
- 発売日: 2012/03
- メディア: 単行本
- 購入: 1人 クリック: 4回
- この商品を含むブログ (4件) を見る
というザマでこの件について自分では何も勉強出来てないんですが(汗)、そもそも論としてモデル選択においてAICとcross validationってどんな関係性にあるんだっけ?というのをふと思ったので、大雑把に実験してみようかと思います。
続きを読む統計的因果推論(3): 傾向スコア算出を機械学習に置き換えてみると
この記事は以下の記事の続きです。
前回の記事では普通にロジスティック回帰で傾向スコアを求めたのですが、傾向スコアというのは元はと言えば「共変量に基づいてそれぞれの群に割り付けられる確率値を求めたもの」なので、やろうと思えば機械学習分類器で代替しても良いわけです。実際、岩波DS3にもそのように書かれています。
ということで、前回記事のCM接触データセットに対して任意の機械学習分類器を用いて傾向スコアを算出した歳の、各種効果指標の違いを見ていこうかと思います。なおデータセットは前回から引き続きdというデータフレームに入っているとします。またAUCを求めるに当たっては{ROCR}パッケージを用いています。下準備として以下のようにインデックスを用意しておきます。
> ivec1 <- d$cm_dummy # Treated group > ivec0 <- rep(1, nrow(d))-ivec1 # Untreated group > ivec <- cbind(ivec1, ivec0)
あとは機械学習分類器を使っていくだけです。
続きを読む