2016-01-27

何か僕がシンガポールに出張している間に妙なニュースが流れていたようで。

京大ビッグデータ副作用論文。機械学習知らない私でも疑問なのは、@sz_drさんも指摘してるが
y'=a1*SCORE+a2*ACT+a3*GeneID+b (1)
という式で、GeneIDという定量的に性質を示す値でないものを線形結合に加えているところだと思う。詳しい人教えて
— torusengoku (@torusengoku) 2016年1月25日

（※記事そのものへのリンクは控えました）

見る人が見れば「ああこれはleakageだな」と一瞥して終わるところなんですが、そもそもleakageってどういうことなのかピンと来ない人もいるかと思いますので、以前取り上げたデータ分析題材を例にとって実演してみようと思います。お題はこちら。

何故これを選んだかというと、このテニス四大大会データには上記で話題になっていた"GeneID"に良く似た「対戦カード2選手それぞれの名前」という特徴量が含まれているからです。ということで、Rを使って適当にやってみましょう。

（Disclaimer: 元ネタの論文は時間がないこともあって真面目に読んでいませんので、あくまでも「leakageがとんでもない副作用をもたらすケースの再現例」をここでは論じています。よってこの記事が元ネタの正確な解説でも何でもないただの与太話である旨悪しからずご了承下さい）

渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

「正答率100%」になってしまう機械学習モデルの例を挙げてみる