渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

Deep Learningで遊ぶ(2): オンラインニュース人気度+ベイズ最適化によるパラメータチューニング

追記(2016年8月22日)

{rBayesianOptimization}の使い方を間違えていて、この記事の下部では実際にはテスト誤差ではなくトレーニング誤差を評価してしまっていますorz 実際にはScore返値にholdoutを入れるのが正解です。別に{rBayesianOptimization}単体で取り上げた記事を書きましたので、正しい使い方はそちらをお読みください。


Deep Learningをだらだらと実践してみるこのシリーズ、前回は分類だったので今回は回帰でやってみようと思います。お題はUCI ML repositoryの"Online News Popularity"です。とあるサイトに掲載されたオンラインニュース記事がそれぞれどれくらいシェア(おそらくSNS類に)されたかを、様々な特徴量と合わせて収めた39644行×61列のデータセットです。


元のニュース記事が非公開である代わりに、特徴量の中には例えばLDAにかけた時の各トピックに属する確率とかsentiment analysisの結果とかも含まれていて、ある意味極めて綺麗に前処理済みのデータと見ることも出来るかと思います。いわば至れり尽くせりのデータセットですね(笑)。これをDeep Learningで回帰してやろうというのが今回の目標です。


なおいつもながらのお断りですが、この記事はあくまでも僕個人の備忘録的なMXnetの実行例メモ的な何かです。本当にちゃんとDeep Learningを実践したい方や他のTensorFlow / Chainer / Kerasなどなどでの実践例をご覧になりたい方はこんな駄文ではなく他の記事を是非ご参照くださいorz

続きを読む

興味がない時には沢山見かけるがいざ欲しい時に限って見つからない:日本のデータサイエンティスト&機械学習エンジニアブーム

我らが業界の雄*1、てつろーさんが新たなweb連載記事を始められたようです。

このタイトルが、流石は業界経験の長いお方だけあって非常に鋭いところを突いているなと個人的には感じています。で、完全に奇遇ながら実は6月8日に旧知の友人の依頼でプレイベートな講演会に登壇してきたのですが、その時も「あれから日本のデータサイエンティスト(そして機械学習エンジニア)ってどうなったんだっけ」という話題をしてきたということもあり。。。ということで、久しぶりに与太話でもしてみようかと思います。

*1:ご本人は「もうそっちの業界の人間じゃない」と仰せですが

続きを読む

Deep Learningで遊ぶ(1): テニス四大大会データセット(追記あり: 正規化した場合の検証)

MXnet / Kerasが本格的に普及してきたことで、いよいよ「誰でも(割と)気軽にDeep Learningを実践できる」時代になってきましたね、という話を前回の記事では一通りやってみました。

ということで、これからしばらく「気軽に実践できるようになったけど実際問題Deep Learningってどうなん?」というのを色々サンプルデータセットを替えて学習&予測の挙動を見ることで、その実態を体感してみようという技術ネタシリーズをダラダラやってみようかと思います。


フレームワークはMXnet / Kerasどちらでも良いつもりですが、単に自分の環境でのお手軽さを優先して基本的にMXnetで統一しようと思います。リクエストがあればKerasでの実行例も後から追記するようにしますので、どうしてもKerasでどう回すか分からない!という方はコメント欄なりでご一報ください。

追記部分について

非常に重要なポイントが追記部分に含まれている&追記部分に書かれている方が正しいR実行例なので、必ずそちらもご参照ください

続きを読む