2017-09-15

データ分析職に採用されるために必要な「実務経験」をいかにして積むべきか

f:id:TJO:20170915112843p:plain
(Photo credit: https://pixabay.com/en/team-businessmen-competence-2651909/)

元々書いていたネタが間に合わない*1っぽいので、ふと色々な記事を眺めていて思い出したネタで与太記事を書きます（笑）。と言ってもこれは実は色々なところで色々な人から相談を受ける話なので、もしかしたらこの程度の記事でもどなたかの何かしらのお役に立つかもしれません。

*1:自分の中で設定しているdeadlineに

2017-08-26

NN Playgroundに出てくる「渦巻きサンプルの二値分類」を学習器を変えながら試してみる（追記あり）

R 機械学習 DeepLearning実践シリーズ

A Neural Network PlaygroundというDeep Learningのパラメータを変えながらその挙動を見て学べる（楽しめる）サイトがTensorFlowプロジェクトからの提供であるんですが、そのサンプルデータセットの4番目に「渦巻きサンプル」（別名「スイスロール」）があります。以下の画像の右下のやつです。

f:id:TJO:20170826161104p:plain

これってDeep NNでやろうとすると意外としちめんどくさいんですが、確か杉山先生のイラスト機械学習本だとガウシアンカーネル SVMでサクッと分類できるみたいに書かれていた気がいたしまして。

イラストで学ぶ機械学習最小二乗法による識別モデル学習を中心に (KS情報科学専門書)

作者: 杉山将
出版社/メーカー: 講談社
発売日: 2013/09/18
メディア: 単行本（ソフトカバー）
この商品を含むブログ (7件) を見る

ということで、ちょうど今ネタ切れなのもあるのでちょっとした余興としてこのデータの二値分類をやってみようと思います。なおスペースの都合上試行錯誤した部分自体は割愛して、どんなパラメータにしたらどんな風にダメだったかを簡単にコメントするに留めておきますので、悪しからずご了承ください。。。

2017-08-11

不均衡データをundersampling + baggingで補正すると汎化性能も確保できて良さそう

R 機械学習

弊社のランチゲストにお招きしたことのある[twitter:@tmaehara]さんが、こんなことをツイートしておられました。

imbalanced data に対する対処を勉強していたのだけど，[Wallace et al. ICDM'11] https://t.co/ltQ942lKPm … で「undersampling + bagging をせよ」という結論が出ていた．
— ™ 🔰 (@tmaehara) 2017年7月29日

不均衡(imbalanced)データのクラス分類における補正方法については、代表的な手法であるclass weight（損失関数に対して負例のコストを負例と正例の割合に応じて割り引くもの）のやり方を以前このブログでも取り上げたことがあります。

ということで、ほんの触り程度ですがやってみようと思います。ちなみに計算負荷とか自分の手間とか色々考えて、基本的にはrandomForest {randomForest}でしかやりません。他の分類器については皆さんご自身でお試しくださいm(_ _)m

渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

データ分析職に採用されるために必要な「実務経験」をいかにして積むべきか

NN Playgroundに出てくる「渦巻きサンプルの二値分類」を学習器を変えながら試してみる（追記あり）

不均衡データをundersampling + baggingで補正すると汎化性能も確保できて良さそう