渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

初めてこのブログに来た方へ

これは初めてこのブログに来た方々向けのトップ固定記事です。最新記事の更新状況に応じて随時更新されます。

id:TJOとは何者なのか


データサイエンティスト・機械学習人工知能)エンジニアとは何か

データ分析を仕事にしたければ読むべき本は何か

続きを読む

LA旅行記(前編):アナハイムのカリフォルニアディズニーランド・リゾート

f:id:TJO:20191010140548p:plain

私事ですが、9/22-29即ち6泊8日の日程でLA(アナハイム→サンタモニカ)に行ってきました。何故LA?かと言うと、一つはディズニーファンの嫁さんの「Galaxy Edgeに行きたい!」というリクエストがあったのと、もう一つはLAは空港(LAX)で乗り継ぐことはあってもLA市内に立ち寄ったことはなかったので「一度はLA市内を見て回りたい」というのがあったからです。


ということであまりにも内容が多いので前後編に分けて、今回の記事では前編としてアナハイムのカリフォルニアディズニーランド・リゾート体験記を書いていこうと思います。なお、過去何回か旅行記を書いた時と同様に「適当に写真を貼っていきながら」「これから訪問する人(2回目以降自分たちが向かう場合も含む)のために『〇〇して良かった(〇〇した方が良かったかも)』という情報を書いていく」スタイルです。


言わずもがなですが、我々はLAやオレンジカウンティの住民やリピーターでもなければ、況してやカリフォルニアディズニーの常連でもないので、あくまでも初回訪問の客が適当なことを言っているだけという項目が大半であることをお断りしておきます。

続きを読む

一般的な時系列のモデリング&予測に、機械学習系の手法よりも古典的な計量時系列分析の方が向いている理由を考えてみた(追記あり)

この記事は、以下の@icoxfog417さんによる問題提起に合わせたちょっとした実験をまとめたものです。

この点について僕はこんなコメントをしたのですが。

この手の「一般的な時系列データには機械学習は向かない」論は過去何度か断片的にしてきてはいるものの、そう言えばまとめて論じたことはなかったなと思ったのでした。そこで、今回の記事では何故一般的な時系列データを機械学習で扱うのが難しいのかについて、簡単にまとめてみようと思います。


なお、いつもながらですが記事中で用いているR / Stan実装が途方も無いクソコードである点何卒ご容赦くださいm(_ _)m 加えて、理論的なポイントについてもやはり抜け漏れや理解不足などあるかと思いますので、お気付きの方はバンバンご指摘下さると有難いです(多分もっとしっかりとした確率過程の理論的背景なども踏まえた論文とかどこかにあるのではないかと思うのですが、僕には手が出ないレベルなのでここでは割愛します)。


また、僕自身はDeep Learningでもよく時系列データに対して使われるRNN系統の手法は不案内で、正直言って適切な実装が出来る自信がありませんので、今回はDeep系の手法は割愛し、代わりに枯れた理論&実装で知られるランダムフォレストを機械学習サイドの代表例として取り上げることとしました。ただしもしかしたら以下に指摘した問題点に対してロバストに良い結果を返すRNN系統の手法があるかもしれませんので、予めお断りしておきます。

続きを読む