H2OのRパッケージ{h2o}でお手軽にDeep Learningを実践してみる(2)：学習データとパラメータを変えて試す

うっかりこのシリーズでJapan.Rで喋ることに決めてしまったせいで関係各方面からのプレッシャーを感じつつある今日この頃ですが。

<a href="https://atnd.org/events/58624">Japan.R 2014 : ATND</a>

ともあれ一度乗ってしまった舟なので、このままだらだら{h2o}でDeep Learningというお題でちょっとシリーズ的にやってみようと思います。前回は適当に決定境界を描くところまではやってみたので、今度はパラメータをいじりながら決定境界を描き分けるということをやってみます。なお、他の分類器との比較という点では以前の記事をご覧いただくのがよろしいかと。

<a href="http://tjo.hatenablog.com/entry/2014/01/06/190456">パッケージユーザーのための機械学習：教師あり学習同士で分離超平面・決定境界を比較してみる - 銀座で働くData Scientistのブログ</a>

そうそう、前回もちょっと書きましたが今回のシリーズではスモールデータしか扱いませんので、必然的にDeep Learningならではの利点が生きない局面も多いです。この点はそもそも大して手間をかけてない記事なのでどうか悪しからず、ということで。。。ちなみに最近話題のCaffeなんかも興味はありますし、さらに画像分類やるならConvolutional NNについても理解しなきゃいけないなぁというのはあるんですが。

<a href="http://techblog.yahoo.co.jp/programming/caffe-intro/">Caffeで手軽に画像分類</a>
http://ceromondo.blogspot.jp/2012/09/convolutional-neural-network.html

もっともこれ以上ゴリゴリやるとしたらC++を書けない僕としてはPython バインディングで走らせる話になりそうなので、手を出すならまたシリーズを改めてやろうかと思ってます。

h2o.deeplearningでチューニング出来る各パラメータの意味

以前も強調しましたが、機械学習はパラメータを適切にチューニングしてこそ威力を発揮するもの。裏を返せば、パラメータがデタラメならただのゴミです。ということで、前回の記事でちろっと触れた各パラメータの意味をメモっておきます。

ちなみに、@n_hidekey先生がDeep Learningの動向についてまとめられた資料を公開されていて、これが非常に分かりやすいので参考までにリンクを張っておきます。

Deep Learningと画像認識～歴史・理論・実践～

ここ最近のトレンドではRBMやautoencoderも既に使われなくなり始めていて、Maxoutでベタっと多段に組んでチューニングして合わせていくという方が段々主流になってきているということのようで。

activation

ここは活性化関数、つまりNNでは必須の閾値関数の形を定義するところです。この辺の話は以前のパッケージユーザーのための機械学習シリーズのNNの記事をお読みいただくか、Wikibooksの記事をご覧いただいた方が早いかと。

従来はsigmoidとかtanhとかが使われてきたわけですが、RectifierやMaxoutが最近では高性能ということで人気があるようです。なお従来型のsigmoid / tanhについては~~今は亡き~~現在某社におられる「教授」氏が書いた解説が弊社エンジニアブログにあります。

RCOと機械学習：ニューラルネットワーク編 | RCO アドテクLabブログ

RectifierやMaxoutについては他にも以下のような資料があります。最近はautoencoderによるレイヤーごと最適化はやらずに、Maxoutでざっくりやる方が流行ってるとかかんとか。

ちなみにMaxoutは比較的最近提案されたばかりの活性化関数なんですが、H2Oは既に実装済みということで有難い限りです。

なお、Dropoutをつけるかどうかもここで指定する必要があります。Dropoutについては@n_hidekey先生のスライドにもありますが、要は中間層のユニットをランダムに途中で削除することで、ランダムフォレストっぽく学習データごとに作られるモデル同士の相関を下げることになり、汎化性能が上がるという効果が期待されます。昨年のNIPSではL1正則化とL2正則化のミックスのような数学的意味合いを持ち得るということを示した研究も出てました。

hidden

ここでユニット数を隠れ層ごとに整数値で与えてやります。1層しか与えない（例えばhidden = 3とか）とただのNNになるだけなので、H2Oを使う意味はありませんｗ　隠れ層ごとにユニット数をいじるのは、一般にはConvNetsで画像認識をやる時のように「解像度ごとに識別モデルを設定する」ような意味合いがある。。。と僕は勝手に理解してます*1。

autoencoder

論理値(TRUE / FALSE)でautoencoderの有無を決めます。Maxoutを使うケースでは要らないようです（ってかむしろ入ったらどうするんだろう）。

epochs

繰り返し回数。

hidden_dropout_ratios

Dropoutをつける場合、各レイヤーごとにランダムに落とす信号の比率を決めることができます。デフォルトでは何レイヤーあろうが全て0.5。これは個々のレイヤーがどのような情報を処理しているかによってフレキシブルに変えた方が良いのでしょうが、そこに手を入れると色々ハマりそうです。。。

実際に各パラメータを変えながらXORパターンの決定境界を描き分けてみる

ということで、実際にh2o.deeplearning使いながら色々やってみましょう。事前にXORパターンのシンプル版、複雑版、さらにグリッドデータは別に落としておきましょう。実はそのヘッダなしバージョンも別に作ってあるので、ヘッダなしのXORシンプル版、複雑版、グリッドも落としておいて下さい。

先に環境を整えておきましょう。

> xorc <- read.table("xor_complex.txt", header=T)
> xors <- read.table("xor_simple.txt", header=T)
> library(h2o)
> localH2O <- h2o.init(ip = "localhost", port = 54321, startH2O = TRUE, nthreads=-1)
> xorcData<-h2o.importFile(localH2O,path="xor_complex_wo_header.txt")
> xorsData<-h2o.importFile(localH2O,path="xor_simple_wo_header.txt")
> pgData<-h2o.importFile(localH2O,path="pgrid_wo_header.txt")

ここからやることは基本的には以下のルーチンだけです。コード中xorsとあるところはシンプル版ならxors、複雑版ならxorcに書き換えればOKです。冒頭のh2o.deeplearningの引数であるactivation, hiddenをいじっていきます。

ただし、今回は本当にサンプルサイズが小さい（100個だけ）なので、基本的にはサンプルサイズが大きい時に効果的なものはどれもまともに機能しないことが予想されるので、そこは悪しからずということで。

> res.dl<-h2o.deeplearning(x=1:2,y=3,data=xorsData,classification=T,activation="Tanh",hidden=c(10,10),epochs=20)
> prd.dl<-h2o.predict(res.dl,newdata=pgData)
> prd.dl.df<-as.data.frame(prd.dl)
> plot(xors[,-3],pch=19,col=c(rep('blue',50),rep('red',50)),cex=3,xlim=c(-4,4),ylim=c(-4,4), main="Tanh, (10,10)")
> par(new=T)
> contour(px,py,array(prd.dl.df[,1],dim=c(length(px),length(py))),xlim=c(-4,4),ylim=c(-4,4),col="purple",lwd=3,drawlabels=F)