渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

トレンド・季節調整付き時系列データの回帰モデルを交差検証してみる

これは実は既に元ネタのあるテーマです。

個人的にはトレンド・季節調整付き時系列データの回帰モデルをやる場合はほぼ例外なくベイジアンモデリングで回すんですが、一般にベイズ系のモデルは例えばWAICやWBICのような情報量基準でモデルの汎化性能を推定することでモデル選択することができます。ところが、トレンド・季節調整付き時系列データのように回帰部分の尤度だけでは表せない、強い自己相関のある部分が大きいデータの場合は、モデル全体のWAICやWBICを算出する方法が(まだ?)ありません。


ということで交差検証(CV: cross validation)大好き人間の僕としては、普段は適当に「学習データ:古い方から80% / 検証データ:新しい側の残り20%」みたいなholdout CVしかやっていないんですが、当然ながらこれだけではholdoutの取り方によって差がつくため、どうしても恣意性が残ってしまいます。


そんな疑問を持っている時に、人から紹介されたのが上記のリンク先記事。こちらでは"sliding window"を用いたCV方法を提案しているということなので、これを実際に自分でクソコード書きながらやってみようかと思います。

続きを読む

ハワイに行ってきました:アウラニ&ワイキキ滞在記

f:id:TJO:20170703103712j:plain

7/2-8の日程で、6月の登壇仕事*1のお疲れ様会も兼ねてハワイ旅行に行ってきました。5泊7日の旅程のうち、3泊はオアフ島西海岸カポレイ地区のコオリナ・リゾート内にあるアウラニ・ディズニー・リゾート&スパに滞在し、残り2泊はワイキキに滞在するという日程でした。


アウラニに泊まったのはディズニー・ファンでもある*2うちの嫁さんのたっての希望だったんですが、嫁さんに言わせると「意外とアウラニに関するブログ記事は多くない」ということだったので*3、これからアウラニに行こうという方々向けに、今回我が家が体験したもろもろの中で何がしか参考になりそうな情報を旅行記兼備忘録として書き留めておきます。同様の理由で、世に溢れるワイキキ情報にほんの少し付け足す程度に今回行ってみて気付いたことなども書いておきます。


なお、多分この記事に書かれているほとんどの情報は現地在住や現地に詳しい方々にとってはおそらく常識and/orうまくググれば見つかる程度の話ばかりなので、基本的には我々がこの目で見て「あーこれは日本を発つ前に知っておけば良かったかも」という情報をまとめただけの内容であることを予めお断りしておきます。どうか悪しからず。

*1:YouTubeで見られるやつです

*2:ただし日本で年パスを買うほどではない

*3:でもちょっとググった感じだとそれなりに情報は出てくるような

続きを読む

データサイエンティストもしくは機械学習エンジニアになるためのスキル要件とは(2017年夏版)

f:id:TJO:20170625152346p:plain

この記事は2年前の以下の記事のアップデートです。

前回はとりあえずデータサイエンティストというかデータ分析職一般としてのスキル要件として、「みどりぼん程度の統計学の知識」「はじパタ程度の機械学習の知識」「RかPythonでコードが組める」「SQLが書ける」という4点を挙げたのでした。


で、2年経ったらいよいよ統計分析メインのデータサイエンティスト(本物:及びその他の統計分析職)vs. 機械学習システム実装メインの機械学習エンジニアというキャリアの分岐が如実になってきた上に、各方面で技術革新・普及が進んで来たので、上記の過去記事のスキル要件のままでは対応できない状況になってきたように見受けられます。


そこで、今回の記事では「データサイエンティスト」*1機械学習エンジニア」のそれぞれについて、現段階で僕が個人的に考える「最低限のスキル要件」をさっくり書いてみようかと思います。最初にそれらを書き出しておくと、以下のような感じです。ただし僕は機械学習エンジニアには該当しないので、あくまでもかつて前職や前々職で機械学習エンジニア採用担当だった時に想定していた要件や、同僚友人知人で機械学習エンジニアの業務を担当している人のスキルセットを見た範囲での要件を書いてあります。

データサイエンティスト


機械学習エンジニア

  • 講談社MLPシリーズの中で業務に関連する主要な巻がカバーする機械学習の手法と実装
  • 黄色い本(PRML)及びカステラ本(ESL)に該当する一般的な機械学習の知識
  • Deep Learningの実装経験及びその知識、そして代表的なフレームワークの知識(TensorFlow, Keras, MXnet, PyTorch, Chainer, Theano...)
  • Pythonに加えて実行速度の速い言語(C++, Javaなど)でコードが書ける
  • SQL文法を含むデータベース操作の技術
  • クラウドの知識

なお、ここで挙げた個々のテキストについては基本的には今年のオススメ書籍リストの中級者向け15冊の中に含まれているので、そちらをご参照ください。

ということで、それぞれの要件を何故選んだのか?という理由について以下うだうだと書いていこうかと思います。なお、しつこいようですがここで挙げている要件は僕の個人的な意見であり、いかなる企業・組織・団体などの意見も一切代表していませんので悪しからず。

*1:以下(本物)表記は割愛します、(カナ)のスキル要件はその辺の薄い本にお任せするということで

続きを読む