渋谷駅前で働くデータサイエンティストのブログ

f:id:TJO:20171226135529p:plain

そう言えば、ちょっと前のデータ分析業界5年間振り返り記事で「人工知能ブームに引っ張られてデータサイエンティストブームも再燃しつつある」みたいなことを書いたわけですが、本当にそうなんだっけ？というところをこれまでに検証したことはなかったなぁと思い出したのでした。

ということで、手っ取り早く計量時系列分析の手法を使ってこの2つのブームの関係性を解明してみようと思います。ちなみにデータソースは以下の2つのGoogleトレンド検索結果です。それぞれ'multiTimeline_ai.csv', 'multiTimeline_ds.csv'みたいなファイル名にして保存してあります。

やることは基本的には完全に決まっていますので、お定まりのルーチンをただこなすだけです。では、早速やってみましょう。

この記事は、遥か昔のこちらの記事の続きのようなものです。また何度も何度も恐縮ですが、今回の記事内容も付け焼き刃で書いているので色々間違っている可能性があります。お気付きの方は是非ご指摘くださいm(_ _)m

各方面のエコノメトリシャンの方々と上記記事を書いた際に議論*1したことがあるのですが、その時は基本的に統計モデリングを行う際は以下のような判別表に従ってモデルを使い分けるべきだという話になったのでした。

確率分布	特徴
ポアソン分布	データが正の離散値、平均値30ぐらいまで、標本平均＝標本分散
負の二項分布	データが正の離散値、平均値30ぐらいまで、標本平均＜標本分散
二項分布	データが離散値、ゼロ以上でしかも有限 (0, 1, 2, ... N)
正規分布	データが連続値もしくは離散値でも平均値が十分大*2 (-∞～∞)
対数正規分布	同上、ただし正の値、範囲 (0～∞)
ガンマ分布	データが連続値、範囲 (0～∞)

ところが、現実にはこの判別表に従うとかえってモデリングの精度が悪くなるケースというのが実データを相手にしていると割と頻繁にあって、意外と判断に迷うことが多いんですね。端的に言うと「○○『率』のように明らかにロジスティック回帰の方が当てはまりが良さそうなものであっても、データの取得状況によっては目的変数が正規分布しているように見えて、実際に線形回帰するとR^2でも交差検証(CV)でも精度が同等もしくは優れている場合はどうするべきか」というような話です。

特に「単純にreasoning / interpretationが目的なので推定パラメータ（偏回帰係数）の大小や符号が分かればOK」という場面でどうかとなると、結構悩ましいところです。その場合は確かに線形回帰してもそれなりの結果になることが経験上見込めるからです。加えて線形回帰の方が当然ながら計算負荷も軽いので、それなりの結果になるなら線形回帰すればええやんという話になるのは想像に難くありません。

モデル精度原理主義的には「そんなのCV精度の高い方を選べばええやん」でおしまいだという気もするんですが、それでもデータの生成過程が明確に見えている状況であえて線形回帰にしてもいいんだっけ？というのが個人的にあるので、とりあえずシミュレーションデータでチェックしてみようと思います。

*1:炎上ラーニングとも言う

*2:中心極限定理が効き始める程度に大きいという意味

渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

「人工知能」と「データサイエンティスト」の2つのブームの関係性をGoogleトレンドのデータから眺めてみる

（追記5件あり）統計モデリング基礎論再び：データの生成過程から見てGLMが最適な場合にあえて線形回帰を当てはめてみる

まとめて書評：ネットワーク分析第2版・Rによる自動データ収集・仕事ではじめる機械学習