2019-09-18

一般的な時系列のモデリング＆予測に、機械学習系の手法よりも古典的な計量時系列分析の方が向いている理由を考えてみた（追記あり）

時系列分析統計学機械学習 R

この記事は、以下の@icoxfog417さんによる問題提起に合わせたちょっとした実験をまとめたものです。

時系列予測の問題において、機械学習のモデルより既存の統計モデル(ARMAモデルなど)の方が予測精度において優良な結果が出るという研究。データへの適合=予測精度の向上ではないことも実験で示している。機械学習の研究では統計モデルとの比較も入れるべきという提言をしている。 https://t.co/jboGhYSX6E
— piqcy (@icoxfog417) September 16, 2019

この点について僕はこんなコメントをしたのですが。

だいぶ以前から「一般的な時系列データ予測の問題は単位根過程や季節調整など非定常過程との戦いなので、本質的に定常過程を想定する機械学習手法での予測は計量時系列分析など非定常過程も考慮した古典的なモデルによる予測には及ばない」と言い続けてきたけど、やっぱりそうなのかなという感想
— TJO (@TJO_datasci) September 16, 2019

この手の「一般的な時系列データには機械学習は向かない」論は過去何度か断片的にしてきてはいるものの、そう言えばまとめて論じたことはなかったなと思ったのでした。そこで、今回の記事では何故一般的な時系列データを機械学習で扱うのが難しいのかについて、簡単にまとめてみようと思います。

なお、いつもながらですが記事中で用いているR / Stan実装が途方も無いクソコードである点何卒ご容赦くださいm(_ _)m　加えて、理論的なポイントについてもやはり抜け漏れや理解不足などあるかと思いますので、お気付きの方はバンバンご指摘下さると有難いです（多分もっとしっかりとした確率過程の理論的背景なども踏まえた論文とかどこかにあるのではないかと思うのですが、僕には手が出ないレベルなのでここでは割愛します）。

また、僕自身はDeep Learningでもよく時系列データに対して使われるRNN系統の手法は不案内で、正直言って適切な実装が出来る自信がありませんので、今回はDeep系の手法は割愛し、代わりに枯れた理論＆実装で知られるランダムフォレストを機械学習サイドの代表例として取り上げることとしました。ただしもしかしたら以下に指摘した問題点に対してロバストに良い結果を返すRNN系統の手法があるかもしれませんので、予めお断りしておきます。

2019-09-10

{CausalImpact}を使う上での注意点を簡単にまとめてみた

R 時系列分析統計的因果推論

実はこのネタは元々別のところでやり取りのあった話題だったりします。

色々な都合があってここ最近{CausalImpact}に触れる機会が自分に限らず周囲でも増えているのですが、若い人たちから「そもそも{CausalImpact}って何をしているんですか？使う際は何に気を付けたら良いですか？」などと聞かれることがちょくちょくあるので、備忘録も兼ねてまとめてみることにしました。いつもながらですが、内容に不備や誤解や理解不足がありましたらどしどしご指摘くださいm(_ _)m

なお、{CausalImpact}パッケージそのものの簡潔な説明は随分昔に書きました。単純に使いたいだけならこちらの記事をお読みいただければ十分かと思います。

2019-08-26

移り変わる「データサイエンティストの『常識』」について考える

データサイエンティスト機械学習エンジニア統計学機械学習人材

f:id:TJO:20190816143411p:plain
(Image by Pixabay)

先日、こんな話題を見かけました。

【夏なので怖い話】

こないだ、いかにもエリートな男性と知り合ったんですよ

彼は年収1000万で飛ぶ鳥を落とす勢いのデータサイエンティストだっていうじゃないですか

それでふとAICの話題を持ちかけたんです

「あー現実であまり使わない数学の話はわかりません」

…おわかりいただけただろうか？
— ゆうな (@kawauSOgood) 2019年8月14日

で、悪ノリした僕はこんなアンケートをやってみたのでした。

データサイエンティストという肩書きで年収1000万円以上の高給取りが、知らなかったとしても許される項目はどれですか
— TJO (@TJO_datasci) 2019年8月15日

このアンケート結果こそが、今回の記事を書こうと思ったきっかけです。ある程度知識のある方ならお分かりかと思いますが、ここで挙げた「AIC」「正則化」「EMアルゴリズム」「カーネル法」のいずれも、基本的にはデータサイエンティストであれば「常識」の範疇に属する事項でしょう。特にAICは故・赤池弘次先生が発明した世界的にあまりにも有名な情報量規準であり、少なくとも僕がデータサイエンティストに転じた2012年頃だとステップワイズ法と併せてモデル選択で用いるべき「常識的な」指標だったと記憶しています。それが意外にも28%の人たちから「知らなかったとしても許される」扱いされたということで、個人的には大いに驚いたのでした*1。

勿論言うまでもなく、世間一般では時代が移り変われば「常識」は移り変わっていくものとされます。同じように、データサイエンティスト（そして機械学習エンジニア）にとってもまた「常識」というのは時代とともに移り変わりゆくものなのだな、というのが上記の結果を見た時の僕の感想でした。その意味で言うと、このアンケートの結果は色々な説明や解釈が可能なように見えますし、その裏側には少なくとも僕が見てきた日本のデータサイエンティストブーム・人工知能ブームの7年間の歩みが確かに横たわっているようにも感じられます。今回は、そんな「常識」の変遷について僕個人の見聞と体験の範囲で簡単に論じてみようと思います。狭い範囲の見聞談＆体験談なので、抜け漏れや誤認識があればどしどしご指摘くださいm(_ _)m

*1:いやEMアルゴリズムが一番になったのも十分に驚きでしたが

渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

一般的な時系列のモデリング＆予測に、機械学習系の手法よりも古典的な計量時系列分析の方が向いている理由を考えてみた（追記あり）

{CausalImpact}を使う上での注意点を簡単にまとめてみた

移り変わる「データサイエンティストの『常識』」について考える