2019-08-04

Undersampling + baggingで不均衡データに対処した際の予測確率のバイアスを補正して、その結果を可視化してみる

機械学習 R

この記事は以下の検証記事の続きです。

先日、Twitterでこんなお話を見かけました。

分類問題で不均衡データを扱う際、ダウンサンプリングして学習すると予測確率にバイアスが生じるので、calibrationしようという話を書きましたhttps://t.co/qujK29crNY
— 岸本ばなな (@unpuy_tw) July 22, 2019

その記事がこちらです。

そう言えば、上記の検証記事の中でもコメントしたのですが「undersampling + baggingで不均衡データを補正するとfalse positiveは物凄く多くなる」んですよね。これは僕も結構気になっていて、もう少し巧みに正例の領域にだけ限局して決定境界を引けないものか？と思っていました。この方法を使えばそれが実現できるのかどうか、実際に試してみようと思います。

なお、前回の記事同様面倒なのでRでランダムフォレストのみ、baggingも100に固定します。またRスクリプト自体も対して汎用性高く書いていませんので、お手元でより汎用的に書きたいという方は適宜ご自身でパラメータのところは調整してください。

2019-07-15

『仕事の説明書』はこれから仕事で独り立ちしたい若い人たちにこそ読んで欲しい「仕事というゲームの攻略本」

書評書籍ビジネスデータ分析

f:id:TJO:20190703125619p:plain

以前SQL黒魔術本をご恵贈いただいた旧友の田宮さんから、ちょっと異色な本をご恵贈いただきました。その名も『仕事の説明書』。副題に「あたなは今どんなゲームをしているのか？」とあるように、世の中の仕事をある種の「ゲーム」とみなして、これをどう攻略していくか？と説く意欲作です。元々彼とは前々職時代にアナリストとして一緒に働いたこともあるのですが、本書の中にもデータを分析していかにアクションに繋げるかという話題がふんだんに含まれています。

仕事の説明書〜あなたは今どんなゲームをしているのか〜

作者: 田宮直人,西山悠太朗,パブリック・ブレイン
出版社/メーカー: 土日出版
発売日: 2019/07/08
メディア: 単行本
この商品を含むブログを見る

実は、こちらの一冊に関してはまだゲラの段階で田宮さんから「こんな本を出してみようと思っている」という相談を直に受けたことがあり、そのご縁で今回ご恵贈いただいたという経緯があったりします。というCOIを皆さんにご理解いただいた上で、相応の贔屓目もあるかもしれませんが簡単に書評をさせていただこうかと思います。なおKindle Unlimitedでも読める模様です。

2019-06-27

「データ分析をやるならRとPythonのどちらを使うべき？」への個人的な回答

R Python データサイエンティストデータ分析ビジネス人材統計学機械学習機械学習エンジニア

f:id:TJO:20190625130900p:plain
(Background image by Pixabay)

最近また「データ分析をやるならRとPythonのどちらでやるべきか」という話題が出ていたようです。

言語仕様やその他の使い勝手という点では、大体この記事に書いてあることを参考にすれば良いと思います。その上で、人には当然ながら趣味嗜好がありますので、個々人が好みだと思う方を使えば良い話ではあります。

とは言え、僕自身もクソコードの羅列ながらこのブログにR & Pythonのコードを載せているということもあるので、便乗して今回の記事では僕個人の意見と感想も書いてみようと思います。いつもながらど素人の意見（特にPythonは本業ではない）なのと、自分がメインに使っているRでもtidyverseをほとんど使わないなど割とout-of-dateな使い方をしているということもあり、読んでいておかしなところなどあればどしどしご指摘くださると有難いですm(_ _)m

渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

Undersampling + baggingで不均衡データに対処した際の予測確率のバイアスを補正して、その結果を可視化してみる

『仕事の説明書』はこれから仕事で独り立ちしたい若い人たちにこそ読んで欲しい「仕事というゲームの攻略本」

「データ分析をやるならRとPythonのどちらを使うべき？」への個人的な回答