この話題もだいぶ長引いてきましたが、そろそろこの辺で「決定版」ということにしたいと思います。
実はTwitterでも色々議論した話なんですが、やはり「データサイエンティスト」(Data Scientist)という語は曖昧過ぎて、色々混乱は生むし、あまつさえバズワード化が一気に進んじゃったし、もうどうしようもないんですよね。
ということで、LinkedInに溢れているグローバル系外資企業あたりのデータ分析系求人情報を参考にして、以下の3カテゴリに分けてみました。僕はこれが「決定版」だと思ってます。ただし、内容としては以前の記事(「データサイエンティスト」イコール「機械学習・データマイニング・統計学の専門家」とは必ずしも限らない)で書いたものとほぼ同じです、念のため。
- Quantitative Analyst
- Quantitative Engineer
- Quantitative Researcher
全てにQuantitativeの語が付いているのは、もちろんデータを扱う職種と言ったら何かにつけて「定量的に○○する」人であるからです。というより、Quantitative XYZというのがグローバル系外資でデータ分析関連職種を表すキーワードになりつつあるので、英語表記にする&概念を明確化する際には、この語をできるだけ使うようにしたいと思います。以下詳細。
Quantitative Analyst: データを分析し、結論を出す人
これが従来のデータサイエンティスト(Data Scientist)に当たります。即ち、スキル要件としては
- データマイニング
- アナリティクスorレポーティング
- コンサルティングorマーケティング
の3つの能力をバランス良く持っていて、ビジネスの意思決定にストレートに貢献できる人材のことです。この辺の話については、5月の講演会のスライドをご覧下さい。
他の二者との比較で言えば、「ビジネスの人」ということになると思います。その意味では、やはりコンサルタントorマーケッターをベースとして、データサイエンスのスキルを上乗せした人材ということになりそうです。
Quantitative Engineer: データを分析するためのアルゴリズムと基盤を研究開発し、その上で実装し、結論を導くサポートをする人
要するに、機械学習・最適化などのアルゴリズムのエキスパートです。スキル要件としてはPreferred Infrastructureのリサーチャーの採用ページに載っているものが最も妥当ではないかと思います。また、従来のデータマイニングエンジニアやDBエンジニアから派生した人たちも、ここに該当しそうです。
全体のイメージとしては(間違っているかもしれませんが)例えばJubatus研究開発チームとか。いずれにせよ、データ分析手法そのもののエキスパート集団というのが僕の理解です。
PFIの例を見ても分かる通り、Engineerと称していますが、実際にはほぼ完全に「機械学習・最適化などのアルゴリズムの研究者兼サーバーサイド実装エンジニア」です。ちなみにほぼ同じような要件をFacebookのズバリ"Quantitative Engineer"というタイトルでの求人広告で見たことがあります*1。
その意味で言えば、これは一つ目のQuantitative Analystに比べると物凄くハードルの高いポジションだとも言えます。少なくとも機械学習・最適化・統計学で研究開発実績を持つ修士・博士でないと難しいことでしょう。また、今後の「データサイエンス基盤の自動化」の流れを考えると、そのような人材がさらに必要とされることになるだろうと予想されます。
Quantitative Researcher: データを分析し、必要とあらばアルゴリズムと基盤にも手を入れ、データの根底にある本質を見出せるだけの洞察力を備える人
これが実は一番曖昧かつややこしいかもしれません。以前の記事(Facebookが考えるデータサイエンス「研究者」の要件)でもこの職種については紹介しましたが、いずれにせよ上記2つとは異なるタイプのエキスパートだと思っています。
恐らくですが、ここに最もよく当てはまるのは計量経済学・社会学・生態学・疫学・行動科学などの、データそのものではなく「データの根底にある本質」を追究する体系の専門家でしょう。そのために、機械学習や最適化もそうですが、何よりも統計学を駆使して「データのばらつきの向こう側にある真実」を捕まえに行く。。。そういうイメージです。
それらの専門家は、時としてアルゴリズムや分析手法の研究開発に勤しむこともありますが、主たる関心事は「そのデータが何を表しているか」を理解する、ということであったりします。
実際、例えば楽天に今年から発足したデータサイエンティスト・チームは、理論物理学や計量経済学のエキスパートから構成されていると聞き及んでいます。これはまさに好例ですね。
そのような「データに対する確かな洞察」を持つエキスパート集団から成るのが、Quantitative Researcherなのだと思います。Quantitative Analystとの最大の違いは、「ビジネスに関係あるかないかとは無関係にそのデータの本質に迫ることができる」という点ではないかと。もちろんビジネスが絡んだらちゃんと適切な結論を出せるけれども、仮にビジネスが絡まなくてもデータの向こう側で躍動している現象の法則・本質・真実に到達できる、そんな感じです。
そして恐らく、僕も行動科学(を含む認知神経科学≒脳科学)のエキスパートだったことから、ここに分類されることになるのでしょう。と言うか、そうなるべく頑張らなきゃですね。笑
ちなみに
もちろん、これら三者が別々に動いてしまったら戦力としては大幅ダウンになってしまうことでしょう。
ブレインパッド草野社長が提唱されている「三位一体説」のアナロジーそのままで、三者ががっちりタッグを組んでこそのデータサイエンス・チームになるのではないでしょうか。