渋谷駅前で働くデータサイエンティストのブログ

George E. P. Box - Wikipedia

統計学や機械学習の世界ではよく引用される"All models are wrong; but some are useful"（全てのモデルは間違っている、だが中には役立つものもある）という格言ですが、2013年に亡くなった統計学の大家George E. P. Boxの言葉だと伝わっています。Wikipediaにも別建ての記事があって、例えば

Box repeated the aphorism in a paper that was published in the proceedings of a 1978 statistics workshop.[2] The paper contains a section entitled "All models are wrong but some are useful". The section is copied below.

Now it would be very remarkable if any system existing in the real world could be exactly represented by any simple model. However, cunningly chosen parsimonious models often do provide remarkably useful approximations. For example, the law PV = RT relating pressure P, volume V and temperature T of an "ideal" gas via a constant R is not exactly true for any real gas, but it frequently provides a useful approximation and furthermore its structure is informative since it springs from a physical view of the behavior of gas molecules.

For such a model there is no need to ask the question "Is the model true?". If "truth" is to be the "whole truth" the answer must be "No". The only question of interest is "Is the model illuminating and useful?".

All models are wrong - Wikipedia

というようにどの文献でどのような文脈で語られたかが記されています。個人的にはこの理想気体の状態方程式の例はなかなかに分かりやすいなと思った次第です。

しかしながら、現実にモデリングを行った上でモデルの選定という場面になった時に例えば「もっと精度の高いモデルでないとダメだ」みたいな意見が（特に非研究・非開発部門の人々の口から）出ることが少なからずあり、それが足かせになるケースもあるようです。

単に学習データへの精度が高いモデルばかり嗜好することの危険性は、過去のブログ記事でも何度か汎化性能がいかに大事かという論の一環として取り上げたことがあります。

ところが汎化性能の問題も理解した上で、それでもなお「とにかくモデルとしてはもっと交差検証精度の高いモデルでないとまかりならん」みたいな高精度至上主義みたいな要求が出る現場も世の中にはあると時々聞きます。

気持ちはもちろん分からないでもありません。何故なら統計分析にせよ機械学習システムにせよ、モデルというのはできれば高精度であるべきで予測精度にも優れている方がありとあらゆる面で有利だからです（ズバリinferenceする場合でも単にreasoningする場合でも）。概して、特に非専門家になるほど「（学習データへの）精度99%」「交差検証精度93.5%」と言った誰でも理解できる単純なbig numberに囚われがちです。

一方で、モデリングの実務の現場はそんなに単純なものではありません。ケースバイケースですが場合によってはそれ以上モデルの精度を上げようとするとコストも時間もかかって割に合わない。。。ということもあります。そういう時にいかにしてモデリングを行うべきかというのは、現場でモデリングを担当する身としては悩ましい問題です。そこで、そういう時に何を意識すれば良いのかを以下にちょっとだけ考察してみます。

そうそう、いつもながらですが僕が思いつきで書いてみただけの論なので間違いなどが多数ある可能性があります。お気付きの方はどしどしコメントなどでツッコミをいただけると有難いですm(_ _)m

f:id:TJO:20180106153417p:plain

第一生命が例年行っている「大人になったらなりたいもの」つまり子供のなりたい職業ランキングのキャンペーンで、昨年2017年度の男の子のランキングでは「学者・研究者」が15年ぶりに1位になったというのが大きなニュースになっていました。

なのですが、ここで「日本人が3年連続でノーベル賞を受賞したことなどが影響しているのではないか」というコメントがなされている点に個人的に引っかかりました。僕の記憶にある範囲では、過去に日本人のノーベル賞受賞者が多かった時期でも有名なこのキャンペーンで「学者・研究者」が上位になったケースはそれほど多くなかった印象があるからです。

と言っても、ここで印象が云々言っていてもただの床屋政談になるだけなので、試しにきちんとデータセットを用意してきて、可能な限り定量的に分析してみようと思います。

データソース及びデータセット

順序ロジット単回帰で「日本人ノーベル賞受賞者数」と「学者・研究者の順位」との関係性を探る

個人的にデータを見ていて覚えた感想

Twitterで流れていた説

注意点

追記1（こちらの方が重要）

追記2

お断り
この記事の末尾の追記1の方が原理的には正しい分析をしているので、そちらも是非ご覧ください。

渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

"All models are wrong; but some are useful"（全てのモデルは間違っている、だが中には役立つものもある）という格言

男の子のなりたい職業1位が「学者・研究者」になったのは本当に日本人ノーベル賞受賞者のおかげか？（追記あり）

NIPS2017チュートリアルによるDeep Learningの現状まとめ