2017-08-11

不均衡データをundersampling + baggingで補正すると汎化性能も確保できて良さそう

R 機械学習

弊社のランチゲストにお招きしたことのある[twitter:@tmaehara]さんが、こんなことをツイートしておられました。

imbalanced data に対する対処を勉強していたのだけど，[Wallace et al. ICDM'11] https://t.co/ltQ942lKPm … で「undersampling + bagging をせよ」という結論が出ていた．
— ™ 🔰 (@tmaehara) 2017年7月29日

不均衡(imbalanced)データのクラス分類における補正方法については、代表的な手法であるclass weight（損失関数に対して負例のコストを負例と正例の割合に応じて割り引くもの）のやり方を以前このブログでも取り上げたことがあります。

ということで、ほんの触り程度ですがやってみようと思います。ちなみに計算負荷とか自分の手間とか色々考えて、基本的にはrandomForest {randomForest}でしかやりません。他の分類器については皆さんご自身でお試しくださいm(_ _)m

2017-07-30

トレンド・季節調整付き時系列データの回帰モデルを交差検証してみる

統計学時系列分析 R BUGS/Stan MCMC

これは実は既に元ネタのあるテーマです。

Cross-validation for time series | Rob J Hyndman

個人的にはトレンド・季節調整付き時系列データの回帰モデルをやる場合はほぼ例外なくベイジアンモデリングで回すんですが、一般にベイズ系のモデルは例えばWAICやWBICのような情報量基準でモデルの汎化性能を推定することでモデル選択することができます。ところが、トレンド・季節調整付き時系列データのように回帰部分の尤度だけでは表せない、強い自己相関のある部分が大きいデータの場合は、モデル全体のWAICやWBICを算出する方法が（まだ？）ありません。

ということで交差検証(CV: cross validation)大好き人間の僕としては、普段は適当に「学習データ：古い方から80% / 検証データ：新しい側の残り20%」みたいなholdout CVしかやっていないんですが、当然ながらこれだけではholdoutの取り方によって差がつくため、どうしても恣意性が残ってしまいます。

そんな疑問を持っている時に、人から紹介されたのが上記のリンク先記事。こちらでは"sliding window"を用いたCV方法を提案しているということなので、これを実際に自分でクソコード書きながらやってみようかと思います。

2017-07-16

ハワイに行ってきました：アウラニ＆ワイキキ滞在記

旅行記

f:id:TJO:20170703103712j:plain

7/2-8の日程で、6月の登壇仕事*1のお疲れ様会も兼ねてハワイ旅行に行ってきました。5泊7日の旅程のうち、3泊はオアフ島西海岸カポレイ地区のコオリナ・リゾート内にあるアウラニ・ディズニー・リゾート＆スパに滞在し、残り2泊はワイキキに滞在するという日程でした。

アウラニに泊まったのはディズニー・ファンでもある*2うちの嫁さんのたっての希望だったんですが、嫁さんに言わせると「意外とアウラニに関するブログ記事は多くない」ということだったので*3、これからアウラニに行こうという方々向けに、今回我が家が体験したもろもろの中で何がしか参考になりそうな情報を旅行記兼備忘録として書き留めておきます。同様の理由で、世に溢れるワイキキ情報にほんの少し付け足す程度に今回行ってみて気付いたことなども書いておきます。

なお、多分この記事に書かれているほとんどの情報は現地在住や現地に詳しい方々にとってはおそらく常識and/orうまくググれば見つかる程度の話ばかりなので、基本的には我々がこの目で見て「あーこれは日本を発つ前に知っておけば良かったかも」という情報をまとめただけの内容であることを予めお断りしておきます。どうか悪しからず。

*1:YouTubeで見られるやつです

*2:ただし日本で年パスを買うほどではない

*3:でもちょっとググった感じだとそれなりに情報は出てくるような

渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

不均衡データをundersampling + baggingで補正すると汎化性能も確保できて良さそう

トレンド・季節調整付き時系列データの回帰モデルを交差検証してみる

ハワイに行ってきました：アウラニ＆ワイキキ滞在記