渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

データ前処理コンペサイト"Struggle"を開設しました

機械学習コンペと言えばKaggleというのはもはや世の中の常識(一部誇張表現あり)になりつつありますが、「データ分析プロジェクトの8割が前処理」という現実を目の当たりにし続けている身としては「そんなRDBSにデータが入った先の綺麗なところで戦うのもあまり実践的ではないような」と思っているのも事実だったりします。


そこで、まずはお試しですがこんなものを始めてみました。その名もずばり"Struggle"。

もう見たまんまで、現実にありがちな(もしくは各協賛企業から提供された本物の)「汚い」データセットをひたすら前処理して学習ラベル+特徴量のテーブルに直し、予め用意されたブラックボックスのモデル(中身はコンペ終了後に公開される)に入力して得られたパフォーマンスの高さで、前処理の腕の良し悪しを競うというコンペを各種集めたポータルです。


まだβ版なので今のところは僕が自宅のIoTセンサで集めた我が家の家族のとある行動に関して集めたデータセットを置いてあるだけですが、そうは言っても複数ファイルに分かれた生CSVで全体で15.0TBほどある正真正銘のゴミデータです(笑)。これを僕自身でも色々悪戦苦闘して前処理し、その際に試しに回してみた簡単な機械学習モデルをデータの送り先として指定してあります。


ということで、第1回のコンペはベンチマークをACC = 0.8になるように設定しておきました。前処理の腕に覚えのある皆さんの参戦を心からお待ちしております!

データサイエンティストもしくは機械学習エンジニアを目指すならお薦めの初級者向け6冊&中級者向け15冊(2017年春版)

f:id:TJO:20150308132412j:plain
(Photo credit: https://pixabay.com/en/books-door-entrance-italy-colors-1655783/)

この記事は一昨年のこの書籍紹介記事のアップデート版です。

相変わらず毎月のように新刊書が出続けるデータ分析業界ですが、良い本が増え続けてきたせいでついに初級者向けは6冊、中級者向けは何と15冊にまで膨れ上がってしまいました(汗)。ともあれ、自分のところにアフィリエイトの類は一銭も入らないにもかかわらず*1懲りずに書籍紹介をやろうと思います。


あ、最初に断っておきますが僕の知識レベルは極めて適当なので、極めていい加減なことを書いている可能性があります。また最初に読んでから時間が経っていて記憶があやふやなせいで、内容に関する記述が不正確な書評が混じっている可能性もあります。誤っているところやおかしいところがあったらバンバン突っ込んでください。よろしくお願いいたしますm(_ _)m

*1:はてなには入るのでそれすら気に入らないという皆様はアフィリエイトコードを削除したURLからお求めください笑

続きを読む

ベイズ構造時系列モデルを推定する{bsts}パッケージを試してみた

Rパッケージ紹介ばかりが続いていて恐縮ですが。。。最近になってこんなものがFacebookからリリースされていたのを知りました。

これはこれで使いやすそうだなと思ったんですが、実はGoogleからも同様のMCMCサンプリングベースの時系列分析向けCRANパッケージ{bsts}がしばらく前から出ていたりします。見た感じ日本ではほとんど知られていないように見受けられるのですが、どんなものなんでしょうか?

ということで、一応他社フレームワークの紹介をするよりはこちらのフレームワークの紹介を先にする方が筋かな*1と思ったもので(笑)、ここでは遅ればせながら{bsts}パッケージの紹介をすることといたします。

*1:あれ、MXnet重点的にやってるくせにTensorFlowはあまり取り上げてないって?あーあー聞こえなーい聞こえなーい

続きを読む