データサイエンティストは精鋭の6000人しか要らないかもしれない - 渋谷駅前で働くデータサイエンティストのブログ

ちょっと前の話ですが、Vapnikマン氏*1(@sla)の超絶素晴らしいインタビュー記事が出てました。

データサイエンティストが要らなくなる日が来るかもしれない

しかも、あの「ネガティブにデータサイエンティストな日記」のid:dscaさんが、Vapnikマン氏のインタビュー記事に触発されて

データサイエンティストが要らない日はもう来ている

という素晴らしい記事を書かれていて、これはもう釣られるしかないでしょーといった風情です。そんなわけで全力で釣られたついでに煽り記事書いてみました。いつも通りロクな内容ではないので、念のため（笑）。

そもそも25万人もデータサイエンティストって必要なのか？

日経が「今後データサイエンティストは25万人不足する」とか吹かしてくれたおかげで、今やすっかり「25万人」説が広まってしまったわけですが。

結論から言うと、日本国内ではそんなに要りません。僕の超絶大ざっぱな試算では「2万4000人」と見積もってます。もっと言えば後に述べる通り、この数字はさらに減る見込みですが。

試算の根拠はものすごく単純です。僕が置いた仮定は、

東証一部上場orそれに準ずる規模の大企業に、
データサイエンティストなんてたかだか1部門に3人（3つのスキル要件を3人で分担する）もいれば十分で、
必要とする部門はたかだか企画・製造・人事・経理の4部門ぐらいだろう

というもの。これを実際の値を入れて計算すると、

2000社　×　3人　×　4部門　＝　24000人

になるというわけです。正直言って1社で12人も必要かよ！？という気もしますが、ひとまずここは一つの理想形ということで置いときます。それでも、「25万人不足」はどう見ても吹かし過ぎというのはこれでよく分かるんじゃないかと思います。まぁ、そもそも25万人っていうのは多分全世界（百歩譲ってアメリカ）での数字なんでしょうけどねー。

データサイエンティストは本当に要らなくなるのか？

結論から言うと、以下の2要因によって必要数は減っていくと思います。

データ分析体制を導入した企業が勝ち組と負け組に分かれる
データ分析がコモディティ化して上級データサイエンティストだけが必要とされる精鋭化が進む

前者は以前にもちろっと書いた通りで、今やどこの企業も陰に陽にデータ分析体制を導入して必死に現在のデータサイエンティスト・ブームに乗ろうとしているところです。

けれども、どう見ても全ての企業が成功するとは僕には到底思えません。専門スキルのある人材も集めず、ゼロから自社でデータ分析部門を立ち上げて回せるようになったというNTTぷららのような事例はやはり稀少です。僕が見聞している範囲では、むしろ苦戦しているところの方が多数派という印象すらあります。

よって、時間が経つにつれて高コストなデータ分析体制を維持するのを諦めて「撤退」*2するところもあれば、そもそもブームに乗らずに自社では導入しないままというところも出てくるでしょう。上記の「2000社」が半分の「1000社」になると思えば大体正しいかと。

一方で後者はVapnikマン氏の言う通りで、普通のITエンジニアの業務に比べればデータ分析まわりはかなり自動化できる部分が多いんです*3。現時点でも、例えばSVMのような人気の機械学習分類器はこの地上にある大半のプログラミング言語に対応したライブラリが多数出ていて誰でも実装できますし、MahoutやJubatusといったフレームワークのおかげでかなりの種類の機械学習や統計分析がHadoopなどの大規模分散処理環境に乗っけることが可能になっています*4。

そうやって自動化されたデータ分析フレームワークに、使いやすいweb UIを付け加えたBIツールを乗っけてしまえば、分析するだけなら知識のないコンサルタントやマーケッターやアナリストでも何の苦もなくできるようになりますよね。そうなると「アルゴリズム実装」「アドホック分析」というデータサイエンティストの業務はどんどんコモディティ化が進んでいきます。

もしかしたら、自動化を待つまでもないかもしれません。既に途上国エンジニアへの安価でのアウトソーシングが話題になっているわけですが、今後途上国に安い人件費でコモディティ化されたデータ分析業務を請け負うデータサイエンティストが登場しないとは限りません。そうなれば、彼らで担える仕事はどんどん奪われていってしまいます。

当然の帰結として、自ずとデータサイエンティストという人材を自社で確保して多数置いておく必要性も薄れていきます。

例えばですが、先ほどの試算のうち「3人で1チーム」の前提は、分析フレームワークを原理レベル・基盤レベルでサポートできる*5上にビジネスレイヤーも自ら回せる、精鋭クラスの「アルゴリズム実装系」人材と「アドホック分析系」人材とのペア2人がいれば足りるということで減らせます。PDCAはこのペアがタッグになって、ビジネス部門側と組んで回せば良い話かと。

そして全体数についても、NTTぷららの例を見ての通り全部門に各々配置するまでもなく、全社で集約して6名（2名のチーム×3）ぐらいでも回せることでしょう。むしろその方が効率的です。ということは、

1000社　×　2人　×　3チーム　＝　6000人

ということになります。うわー、6000人か。。。でも、ぶっちゃけ実際に現場で働いている雰囲気からすると、これが最も妥当な数字だと思います。日本全体では万という単位のデータサイエンティストが必要になることは、これまでも、そしてこれからもないでしょう。きっと6000人もしくは数千人のオーダーで十分です。

むしろデータ分析の現場には、そこまで高いデータサイエンスの専門性を持たないけれども、実務に強い人材を入れていくべきということになっていくはず。すなわち、ビジネス面ではコンサルタント・マーケッター・アナリスト、技術面ではサーバーサイドエンジニア・DBエンジニア、と言った顔ぶれです。彼らを束ねる精鋭の上級データサイエンティストがいれば十分というわけです。

なので、「最後まで必要とされる上級データサイエンティスト6000人」の中にどうやって滑り込むか？ということを、既にデータサイエンティストとして働き始めてしまった人*6は真剣に考えていかなきゃいけないんだろうなー、と思ってます。

・・・ということで、今回もロクなこと書きませんでした（笑）。悪しからず。

*1:ひどさん：ちなみに定期的にTwitterユーザーネームが変わるので今この名前かは分かりません、悪しからず

*2:要は自社でデータ分析せずに外注するということ

*3:様々な流儀や「アート」のあるコーディングに比べると、データ分析というか統計解析や機械学習は学術的な基礎が固められていて定義もほとんどぶれないので、自動化するのは言うほど難しくない

*4:まだ非線形 SVMはできてませんが

*5:ただフレームワークを利用するだけのレベルのデータサイエンティストは不要になる

*6:自分だよ、自分