2018-02-07

データサイエンティスト＆機械学習（人工知能）エンジニアのスキル要件と、過熱する人工知能ブームが生み出す狂騒曲と（2018年2月版：追記あり）

f:id:TJO:20180130155202p:plain
(Image by Pixaby)

この記事は去年はてブ1100以上ついてしまった与太記事の続編です。その時はタイトルを読んで字の如く「データサイエンティスト」と「機械学習エンジニア」の満たすべきスキル要件（の2017年版）について考察したものでした。

で、まだ1年しか経ってないのに何でまた引き合いに出したのかというと、最近のメディア報道やニュースリリースの類などを見ていると「データサイエンティストにディープラーニングをやらせる」とか「高度な統計分析のできるエンジニアが必要」みたいなどう見ても色々混同している感のある内容が目に付くので、改めてちょっと自己流に交通整理してみようかなと思ったのでした。

特に、空前の人工知能ブームで「人工知能」の語が人口に膾炙すると同時に2014年頃にブームが終わったはずの「データサイエンティスト」の語が何故か復権してしまい、そこら中のメディアでかつて空回りした前回のブームと同じように濫用されている感があります（上記の5年間振り返り記事でも書きました）。それに伴い、そもそも論としての「ビッグデータ」とか「データ活用」などを取り巻く社会の動きにもかなりの混乱というかカオスが起きているように見受けられます。その辺の事情もちょっと掘り下げながら、ダラダラと論じてみようと思います。

2018-02-02

データ分析は「強者の武器」、駆け出しのうちはデータが貯まるまでの間に他にやるべきことがある

統計学機械学習データ分析ビジネス

f:id:TJO:20180202163807p:plain
(Image by Pixabay)

こんな面白い記事が出回っているのを先日見かけたのですが。

この6年弱のデータ分析業界での個人的な経験や業界内で見聞してきた知見の範囲で言うと、そもそも「データ分析は『強者の武器』であって小さな組織が使っても強い武器にはならない」というのがあると思っています。言い換えると「スタートアップと呼ばれているうちはデータ分析以外のところに注力すべき」ということかと。ということで、その辺の話をざっくり書いてみようかと思います。

2018-01-25

"All models are wrong; but some are useful"（全てのモデルは間違っている、だが中には役立つものもある）という格言

統計学機械学習 R

George E. P. Box - Wikipedia

統計学や機械学習の世界ではよく引用される"All models are wrong; but some are useful"（全てのモデルは間違っている、だが中には役立つものもある）という格言ですが、2013年に亡くなった統計学の大家George E. P. Boxの言葉だと伝わっています。Wikipediaにも別建ての記事があって、例えば

Box repeated the aphorism in a paper that was published in the proceedings of a 1978 statistics workshop.[2] The paper contains a section entitled "All models are wrong but some are useful". The section is copied below.

Now it would be very remarkable if any system existing in the real world could be exactly represented by any simple model. However, cunningly chosen parsimonious models often do provide remarkably useful approximations. For example, the law PV = RT relating pressure P, volume V and temperature T of an "ideal" gas via a constant R is not exactly true for any real gas, but it frequently provides a useful approximation and furthermore its structure is informative since it springs from a physical view of the behavior of gas molecules.

For such a model there is no need to ask the question "Is the model true?". If "truth" is to be the "whole truth" the answer must be "No". The only question of interest is "Is the model illuminating and useful?".

All models are wrong - Wikipedia

というようにどの文献でどのような文脈で語られたかが記されています。個人的にはこの理想気体の状態方程式の例はなかなかに分かりやすいなと思った次第です。

しかしながら、現実にモデリングを行った上でモデルの選定という場面になった時に例えば「もっと精度の高いモデルでないとダメだ」みたいな意見が（特に非研究・非開発部門の人々の口から）出ることが少なからずあり、それが足かせになるケースもあるようです。

単に学習データへの精度が高いモデルばかり嗜好することの危険性は、過去のブログ記事でも何度か汎化性能がいかに大事かという論の一環として取り上げたことがあります。

ところが汎化性能の問題も理解した上で、それでもなお「とにかくモデルとしてはもっと交差検証精度の高いモデルでないとまかりならん」みたいな高精度至上主義みたいな要求が出る現場も世の中にはあると時々聞きます。

気持ちはもちろん分からないでもありません。何故なら統計分析にせよ機械学習システムにせよ、モデルというのはできれば高精度であるべきで予測精度にも優れている方がありとあらゆる面で有利だからです（ズバリinferenceする場合でも単にreasoningする場合でも）。概して、特に非専門家になるほど「（学習データへの）精度99%」「交差検証精度93.5%」と言った誰でも理解できる単純なbig numberに囚われがちです。

一方で、モデリングの実務の現場はそんなに単純なものではありません。ケースバイケースですが場合によってはそれ以上モデルの精度を上げようとするとコストも時間もかかって割に合わない。。。ということもあります。そういう時にいかにしてモデリングを行うべきかというのは、現場でモデリングを担当する身としては悩ましい問題です。そこで、そういう時に何を意識すれば良いのかを以下にちょっとだけ考察してみます。

そうそう、いつもながらですが僕が思いつきで書いてみただけの論なので間違いなどが多数ある可能性があります。お気付きの方はどしどしコメントなどでツッコミをいただけると有難いですm(_ _)m

渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

データサイエンティスト＆機械学習（人工知能）エンジニアのスキル要件と、過熱する人工知能ブームが生み出す狂騒曲と（2018年2月版：追記あり）

データ分析は「強者の武器」、駆け出しのうちはデータが貯まるまでの間に他にやるべきことがある

"All models are wrong; but some are useful"（全てのモデルは間違っている、だが中には役立つものもある）という格言