弊社のランチゲストにお招きしたことのある[twitter:@tmaehara]さんが、こんなことをツイートしておられました。
imbalanced data に対する対処を勉強していたのだけど,[Wallace et al. ICDM'11] https://t.co/ltQ942lKPm … で「undersampling + bagging をせよ」という結論が出ていた.
— ™ 🔰 (@tmaehara) 2017年7月29日
不均衡(imbalanced)データのクラス分類における補正方法については、代表的な手法であるclass weight(損失関数に対して負例のコストを負例と正例の割合に応じて割り引くもの)のやり方を以前このブログでも取り上げたことがあります。
ということで、ほんの触り程度ですがやってみようと思います。ちなみに計算負荷とか自分の手間とか色々考えて、基本的にはrandomForest {randomForest}でしかやりません。他の分類器については皆さんご自身でお試しくださいm(_ _)m
続きを読む