渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

Deep Learningで遊ぶ(3): LSTM-RNNで夏目漱石っぽい文章の生成にトライしてみる

f:id:TJO:20161108173639p:plain

そう言えばこのシリーズ長らく放置してました(汗)。いよいよこのブログもネタ切れが著しくなってきたので、今更そんな古いネタやるのかよと怒られるのを承知で「単に自分がやってみたかったから」というだけの理由で今更感のあるネタをやることにします。ということで、今回のネタはLSTM-RNN (Long short-term memory Recurrent neural network)です。いつも通り完全に自分専用の備忘録としてしか書いていませんので、ちゃんと勉強したい人は他のもっときちんとした資料*1や書籍*2やソース*3を当たってください。。。

*1:QiitaでもCourseraでも

*2:人工知能学会本やMLP青本など

*3:要は原典論文とか

続きを読む

モデル選択とAICとcross validationの関係を大雑把に実験してみる

Stanの開発者でもある統計学界の重鎮、Andrew Gelmanがこんなブログ記事をupしていました。

ちなみに@さんがこの件についてこんなコメントをされてました。

WAICとcross validationの関係については渡辺澄夫先生の本にも当然のように記述があって、そこで密林でポチって読んでみたのですが、いかんせん僕の数学力が弱すぎてまだ全然理解できてない有様ですorz

ベイズ統計の理論と方法

ベイズ統計の理論と方法

というザマでこの件について自分では何も勉強出来てないんですが(汗)、そもそも論としてモデル選択においてAICとcross validationってどんな関係性にあるんだっけ?というのをふと思ったので、大雑把に実験してみようかと思います。

続きを読む

統計的因果推論(3): 傾向スコア算出を機械学習に置き換えてみると

この記事は以下の記事の続きです。

前回の記事では普通にロジスティック回帰で傾向スコアを求めたのですが、傾向スコアというのは元はと言えば「共変量に基づいてそれぞれの群に割り付けられる確率値を求めたもの」なので、やろうと思えば機械学習分類器で代替しても良いわけです。実際、岩波DS3にもそのように書かれています。

ということで、前回記事のCM接触データセットに対して任意の機械学習分類器を用いて傾向スコアを算出した歳の、各種効果指標の違いを見ていこうかと思います。なおデータセットは前回から引き続きdというデータフレームに入っているとします。またAUCを求めるに当たっては{ROCR}パッケージを用いています。下準備として以下のようにインデックスを用意しておきます。

> ivec1 <- d$cm_dummy # Treated group
> ivec0 <- rep(1, nrow(d))-ivec1 # Untreated group
> ivec <- cbind(ivec1, ivec0)

あとは機械学習分類器を使っていくだけです。

続きを読む