渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

不均衡データをundersampling + baggingで補正すると汎化性能も確保できて良さそう

弊社のランチゲストにお招きしたことのある[twitter:@tmaehara]さんが、こんなことをツイートしておられました。

不均衡(imbalanced)データのクラス分類における補正方法については、代表的な手法であるclass weight(損失関数に対して負例のコストを負例と正例の割合に応じて割り引くもの)のやり方を以前このブログでも取り上げたことがあります。

ということで、ほんの触り程度ですがやってみようと思います。ちなみに計算負荷とか自分の手間とか色々考えて、基本的にはrandomForest {randomForest}でしかやりません。他の分類器については皆さんご自身でお試しくださいm(_ _)m

続きを読む

トレンド・季節調整付き時系列データの回帰モデルを交差検証してみる

これは実は既に元ネタのあるテーマです。

個人的にはトレンド・季節調整付き時系列データの回帰モデルをやる場合はほぼ例外なくベイジアンモデリングで回すんですが、一般にベイズ系のモデルは例えばWAICやWBICのような情報量基準でモデルの汎化性能を推定することでモデル選択することができます。ところが、トレンド・季節調整付き時系列データのように回帰部分の尤度だけでは表せない、強い自己相関のある部分が大きいデータの場合は、モデル全体のWAICやWBICを算出する方法が(まだ?)ありません。


ということで交差検証(CV: cross validation)大好き人間の僕としては、普段は適当に「学習データ:古い方から80% / 検証データ:新しい側の残り20%」みたいなholdout CVしかやっていないんですが、当然ながらこれだけではholdoutの取り方によって差がつくため、どうしても恣意性が残ってしまいます。


そんな疑問を持っている時に、人から紹介されたのが上記のリンク先記事。こちらでは"sliding window"を用いたCV方法を提案しているということなので、これを実際に自分でクソコード書きながらやってみようかと思います。

続きを読む

ハワイに行ってきました:アウラニ&ワイキキ滞在記

f:id:TJO:20170703103712j:plain

7/2-8の日程で、6月の登壇仕事*1のお疲れ様会も兼ねてハワイ旅行に行ってきました。5泊7日の旅程のうち、3泊はオアフ島西海岸カポレイ地区のコオリナ・リゾート内にあるアウラニ・ディズニー・リゾート&スパに滞在し、残り2泊はワイキキに滞在するという日程でした。


アウラニに泊まったのはディズニー・ファンでもある*2うちの嫁さんのたっての希望だったんですが、嫁さんに言わせると「意外とアウラニに関するブログ記事は多くない」ということだったので*3、これからアウラニに行こうという方々向けに、今回我が家が体験したもろもろの中で何がしか参考になりそうな情報を旅行記兼備忘録として書き留めておきます。同様の理由で、世に溢れるワイキキ情報にほんの少し付け足す程度に今回行ってみて気付いたことなども書いておきます。


なお、多分この記事に書かれているほとんどの情報は現地在住や現地に詳しい方々にとってはおそらく常識and/orうまくググれば見つかる程度の話ばかりなので、基本的には我々がこの目で見て「あーこれは日本を発つ前に知っておけば良かったかも」という情報をまとめただけの内容であることを予めお断りしておきます。どうか悪しからず。

*1:YouTubeで見られるやつです

*2:ただし日本で年パスを買うほどではない

*3:でもちょっとググった感じだとそれなりに情報は出てくるような

続きを読む