魂の限界まで前処理をし続けている間にもう年の瀬が来ちゃいました。。。ということで、昨年末同様に今年もざっくり振り返ってみようかと思います。
柔軟な統計モデリングを目指してStan導入しました
これは1月ぐらいから真剣に取り組み続けているネタで、まぁ皆さんのご想像通り実際の業務にも取り入れていたりします。もちろん用途によっては別にMCMCとかStanとかまでやらなくてもいいじゃんという局面は多いんですが、後からいくらでも複雑なモデルを突っ込める!という点で、そしてWinBUGSよりも速い!という点でStanは大助かりです。
ちなみにこれを使って手掛けたネタで10月に鈍器*1をもらってきました。とは言っても、それだけじゃまだまだバリューとして打ち出すには何捻りも要るので精進あるのみです*2。
KDD行ってきました
本当は去年のシカゴ大会に行きたかったんですが、転職の都合で行けなかったので今回こそはということで満を持してニューヨークへ。SFN*3に比べたら小さいなー、とかうっかり呟いたら@shima__shima先生からたしなめられましたとさw
さすがのデータマイニング系のトップカンファレンスだけあって顔ぶれは豪華で、名だたる大御所の皆さん勢揃い。そう言えば@kdnuggetsの先生も本当にあの風貌のままでいらっしゃいましたw*4 でもそれ以上に印象的だったのが意外と「分類器はSVM / ロジスティック回帰 / ランダムフォレストから好きに選べ」みたいな発表が多かったこと。まー、分類器って意外とDeep Learningでもやらない限りは下手な独自アルゴリズムやるよりはあの辺の枯れた手法使った方が遥かに効率も良い*5んですよね。。。
後はやっぱりニューヨークという街そのものが印象的でした。これぞ世界の首都!って感じの巨大な大都会で、でも地下鉄が便利*6でどこへでもパッと乗るだけで行けて、街歩き自体もなかなかに楽しめました。あと、何だかんだでステーキとかグルメ面でもナイスでした。Wolfgang'sが近かったので行ってきましたが、さすが本場のaged beefは美味かったですね~。変わり種ではアッパー・ウェストのメキシカンが想像以上に美味くてびっくりでした*7。
とは言え純粋な観光地としては微妙なので*8、また出張があったら行こうかなってぐらいですかねー。今後NYCでやるメジャーなカンファレンスって何があるんだろう?
Deep Learning遅ればせながら始めました
今まではTheanoで組まなきゃー、Pylearn2で書かなきゃー的な感じでコーディングが大の苦手の僕としてはどうも取っ付きにくかったDeep Learning。これがついにRでも{h2o}を入れれば実践できる!ということで試しにやってみました。
で、やってみた感想は「パラメータチューニングつらい」。いや基礎研究方面ではパラメータチューニングもだいぶ洗練されてきてというか枯れてきていて簡単に最適化できると聞くんですが、実務でライブラリ使ってるレベルだとどうやってパラメータ最適化したら良いのやらさっぱり分かりませんorz 触発されたのか、うちの現場の新卒博士もJavaでフルスクラッチでDeep Belief Netを組んでるんですが、彼もやっぱりチューニングで困ってるとのことで。教えて、偉い人!
ちなみにJapan.Rで登壇した際のslideshareがこちら。まぁブログをまとめただけみたいな感じなので、あくまでもネタ的に。
さて来年には本当にスライド内で宣言した通りにConvNetに取り掛かっているかどうか。。。まずはCaffeとか既存のConvNetフレームワークにチャレンジしなきゃダメですね。
初めての自著を出版しました
恥ずかしながら初めての自著を8月に出版しました。もう4ヶ月経ってそろそろ売り切ったような気もするし、本書にかかわるもろもろは基本的には上記記事にまとめてあるので特に今更書くことはないんですが、やっぱり本を書くって難しいんだなぁと思いました。ブログ記事と違って、何だかんだでお金を頂戴して読んでいただくものであり、しかも公に広く宣伝されるものなので、執筆にせよマーケティングにせよ気を遣うべきポイントがブログの比ではないくらい沢山あるのだなぁというのが偽らざる感想です。
そして個人的には@ibaibabaibai先生のお気に召したらしい、というだけで満足ですw 正直言って基礎研究界隈からは見向きもされないんだろうなぁと思っていたもので、先生からは色々ツッコミを頂戴しながらも様々な席で取り上げていただけて本当に光栄の限りです。
そしてデータサイエンティスト()は。。。
去年同様Googleトレンドをご覧いただきたいわけですが。
英語圏の"data scientist"は案に相違して2014年12月現在でも未だに上昇トレンドにありますが、日本語圏の「データサイエンティスト」はもう見てて気の毒になるくらいどっぷり横這いの停滞ぶりです。ガートナーのハイプ・サイクルでいうところの「幻滅期からの回復」すら見られないということで、まぁ「データサイエンティスト()」という語に拘り続けてももう仕方ないなぁと思ってます。その辺の話は6月に沖縄で死ぬほど毒吐きまくってきましたので、そちらもご参照いただければと。
この辺についてはつい先日公開された対談記事でも色々コメントしましたが、基本的にはやっぱり「椅子の7割ぐらいは埋まったしブームとしてはもうおしまいだよね」+「残り3割はにわかじゃなくてしっかりした人材が欲しいよね」みたいな雰囲気が業界で支配的になってきている部分が大きいのかなと。
で、「しっかりした人材」って言うと端的にはいわゆる「データサイエンティスト()」じゃないんですよね。もっと普通に統計学をきちんと習得していてR / Pythonで実践できますとか、機械学習の実装をJava / Pythonのコーディングも含めて実務面でもちゃんとできますとか、DB周りの構築・運用経験があるとか、地に足のついたスキルの持ち主を期待する現場が増えているという印象で、実際にうちの現場でもそういう人材を求めているのが現状です。
そうなると結局のところ普通に「ちゃんとしたエンジニア」的な人材が欲しいという話になるわけで、最終的にはエンジニア募集と同じようなフェーズに至るのかなという印象を持っています。