機械学習コンペと言えばKaggleというのはもはや世の中の常識(一部誇張表現あり)になりつつありますが、「データ分析プロジェクトの8割が前処理」という現実を目の当たりにし続けている身としては「そんなRDBSにデータが入った先の綺麗なところで戦うのもあまり実践的ではないような」と思っているのも事実だったりします。
そこで、まずはお試しですがこんなものを始めてみました。その名もずばり"Struggle"。
もう見たまんまで、現実にありがちな(もしくは各協賛企業から提供された本物の)「汚い」データセットをひたすら前処理して学習ラベル+特徴量のテーブルに直し、予め用意されたブラックボックスのモデル(中身はコンペ終了後に公開される)に入力して得られたパフォーマンスの高さで、前処理の腕の良し悪しを競うというコンペを各種集めたポータルです。
まだβ版なので今のところは僕が自宅のIoTセンサで集めた我が家の家族のとある行動に関して集めたデータセットを置いてあるだけですが、そうは言っても複数ファイルに分かれた生CSVで全体で15.0TBほどある正真正銘のゴミデータです(笑)。これを僕自身でも色々悪戦苦闘して前処理し、その際に試しに回してみた簡単な機械学習モデルをデータの送り先として指定してあります。
ということで、第1回のコンペはベンチマークをACC = 0.8になるように設定しておきました。前処理の腕に覚えのある皆さんの参戦を心からお待ちしております!