この記事は以下の検証記事の続きです。
先日、Twitterでこんなお話を見かけました。
分類問題で不均衡データを扱う際、ダウンサンプリングして学習すると予測確率にバイアスが生じるので、calibrationしようという話を書きましたhttps://t.co/qujK29crNY
— 岸本ばなな (@unpuy_tw) July 22, 2019
その記事がこちらです。
そう言えば、上記の検証記事の中でもコメントしたのですが「undersampling + baggingで不均衡データを補正するとfalse positiveは物凄く多くなる」んですよね。これは僕も結構気になっていて、もう少し巧みに正例の領域にだけ限局して決定境界を引けないものか?と思っていました。この方法を使えばそれが実現できるのかどうか、実際に試してみようと思います。
なお、前回の記事同様面倒なのでRでランダムフォレストのみ、baggingも100に固定します。またRスクリプト自体も対して汎用性高く書いていませんので、お手元でより汎用的に書きたいという方は適宜ご自身でパラメータのところは調整してください。
続きを読む