渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

データサイエンティストという職業の10年間の変遷を振り返る


(Image by Gordon Johnson from Pixabay)

TL;DR 今年の6月に僕自身がデータサイエンティストに転じて10年という節目の年を迎え、10月でDavenportの「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説から10周年になるのを機に、この10年間のデータサイエンティストという職業の変遷を振り返ることにしました。


6月の回顧録記事でも書いた通り、僕がデータサイエンティストの仕事に就いてから今年で10年になります。最近も同じかどうかは分かりませんが、古くから「10年ひと昔」という常套句がある通りで個人的には大きな節目の年だと感じています。

一方で、今年の10月にはあまりにも有名な「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説が出てから10周年を迎え、後述するようにDavenportは「今もデータサイエンティストは21世紀で最もセクシーな職業か?」という総説を寄稿していたりします。


ということで、6月の回顧録記事ではデータ分析業界全体の10年分(正確には前半5年分にさらに後半5年分)の振り返りを書きましたが、今回は改めて「データサイエンティストという職業」の10年間の変遷を振り返ってみようと思います。とは言え、どちらかというとこの10年の間にこのブログで何度か書いたデータサイエンティストのキャリア論記事の振り返りに終始する感じになっているので、以前からこのブログをご愛読いただいている方々には「もう読み飽きたよ」という内容かもしれませんが、平にご容赦いただければと思います。


(※なおこの記事自体は公開後も何度か加筆修正されていますので、出来れば毎回最新版の内容をチェックしてくださると有難いです)


黎明期:地道な「分析屋」の時代


この時代のことは、正確に言えば僕自身も最初から居合わせていたわけではないので、全て伝聞に頼った話になります。時期としては2012年第3四半期以前で、まだ「データサイエンティスト」という言葉が日本はおろか世界的に見てもまだまだ知られていなかった頃です。


ちょっと微妙な表現かもですが、データ分析業界の古参というか「古老」の方々から聞かされてきたのは「黎明期のデータ分析は指折り数えるくらいしかいない『分析屋』による職人仕事だった」という話ですね。2010年頃までには実は現在データ分析業界で用いられるようになる統計学機械学習の手法の多くが既にある程度完成されていたわけで、そこには勿論後にDeep Learningと呼ばれるようになったNN技術も含まれます*1。ただ、何といってもその需要が乏しかったこともあり、古老から良く聞いたのが「そもそもデータ分析による解決が必要な仕事自体がどこの社内に行ってもなかった」という話でした。


実際、今でこそデータサイエンティストが活躍する業界の代名詞となったweb改善・デジタル広告&マーケティングといった業界は当時はまだそこまで隆盛を誇っておらず、もっと地道な品質管理・工程管理的な仕事をしていた人も少なくなかったようです。僕がデータ分析の仕事を始めた頃は結構「タグチメソッドは使わないのか?」と言われたものですが、10年以上前は「データ分析」と言ったらまだまだそういう世間の認識のされ方をしていたのではないでしょうか。


僕が調べた限りでは、この頃世間で用いられていたのは「データサイエンス」という語ではなく、「データマイニング」という語でした。リンク先のWikipedia記事にもあるように、元々1990年代に計算機性能が向上したのに伴って進歩した領域だったものの、2000年代はまだその応用先に恵まれていなかったようです。


ちなみに、この頃巷で知られていたのは「次の10年でテクノロジー業界で注目を集める仕事は統計分析だ」というフレーズでした。特にHal Varian*2New York Timesに語ったこのコメントについては実は僕も初めての企業転職をしていた頃に聞き知ってはいて、実際に各社の採用面接に臨むに当たってアカリクのTさんからの勧めもあって自己PRのネタにしていました。まぁ、今にして思えば「脳研究で統計学を使っていたので統計分析には自信があります!」なんていうのは途方もない誇大広告だったわけですが(笑)。


一方で、黎明期の中でも最後の方に当たる2010年頃はちょうどHadoopがデジタル事業を手掛ける企業各社に広まりつつあった頃で、当時は必然的に「データ分析屋=Hadoopが使える人」という暗黙のコンセンサスがあったように記憶しています。皆さんご存知の通りHadoopJavaで実装されていますが、そこから「データ分析屋=Javaが書ける人」という連想があったせいか当時のデータ分析業務に関わっていた人の多くがJava使いだったという印象があります。WekaというJavaベースの機械学習フレームワークがありますが、その点で当時は割と広く使われていたような気がします。しかし何と言っても、当時はまだ統計分析も機械学習もライブラリ・パッケージ類の整備がそこまで進んでいなかったこともあり、「とにかくJavaである程度書ける」というのがスキル要件だったのではないでしょうか。特に直接MapReduceを書けるというスキルは物凄く重宝されていたように思います。


ところで、RやPythonそのものは当時既にある程度データ分析業界で市民権を得つつあったようです。実際、TokyoRTokyo Webminingといった有名勉強会はこの黎明期の頃から既にあり、黎明期のデータ分析業界人たちが集まっていたと聞きます。ただ、上記のようにまだどちらの言語も現在ほど多彩な統計分析・機械学習の最新手法パッケージに恵まれた時代ではなかった*3はずで、既にお忘れの方もいるかもしれませんがTokyoSciPyという「SciPyの勉強会」もあったぐらいでした。当時はまだまだのんびりと皆が勉強したり、実装したりした体験を共有し合っては親睦を深めるといった感じの、牧歌的な時代だったように記憶しています。


以上の事情を総合すると、当時のデータサイエンティストはまだ「データサイエンティスト」とは呼ばれておらず、個々の現場における「分析屋」として時にJavaを書いてHadoopクラスタを管理したり、また時にRなりPythonなりでHadoop(もしくはMySQLなどのDB)で集計・抽出したデータをデスクトップで扱える範囲で細々と分析をしていた、のではないかと思われます。職業としてもそこまで魅力的と広くみなされていた形跡は特になく、現場によっては一種のオタク的な扱い方をされていた人も多かったのではないでしょうか。データ分析職を部門としてまとめて整備していたのは、ソシャゲ事業者などごく一部に限られていたという印象です。


なお、僕が「データサイエンティスト」の肩書きを前々職で得たのは2012年の6-7月ぐらいの頃です。後述するDavenportのHBR総説が公開されるよりも3ヶ月以上前のことで、当時そんな言葉があるということ自体を僕は全く知らず、唐突にそんな肩書きを僕に付与した当時のCTOはつくづく慧眼であったと思います。また2010年以降になるといわゆるソシャゲ事業の隆盛もあり、web解析・改善といった領域におけるデータ分析のニーズが高まっていったものと見られます。

追記


この記事を受けて、2008-09年頃の業界事情をブログでご紹介してくださった方々がいらっしゃいます。当時の状況が非常に良く分かる内容ですので、是非ご一読ください。

第一次ブーム:見限られるのも早かった、アメリカ発の珍奇で目新しい職業



2012年10月に、Davenportがあまりにも有名な「データサイエンティストは21世紀で最もセクシーな職業である」という総説をHBRに寄稿します。諸説ありますが、個人的にはこの時をもって「データサイエンティスト」という職業が全世界に認知された瞬間だと理解しています。この総説は2013年2月に翻訳されてHBR日本語版に掲載され、4ヶ月遅れで日本でもデータサイエンティストの一大ブームが沸き起こります。第一次データサイエンティストブームの到来です。あまりにも有名な「データサイエンティストに必要なのは『ビジネス力』『データサイエンス力』『データエンジニアリング力』の3つの要素」という言説が生まれたのもこの頃です。


参考までに2013年の前々職在籍時に講演した時の資料を貼っておきます。当時の「データサイエンティスト」像がどんなものであったかがお分かりいただけるかと思います。


同じ時期にはこのブームに乗ってナントカ協会が創設されていますし*4、一方でIT関連メディアに「データサイエンティストが分析した〇〇」といった提灯記事が流れたりするようになっていった記憶があります。ちなみに僕がこのブログを開設したのも2013年の3月末のことで、まさに第一次データサイエンティストブームの真っ只中でした。このブログのおかげで僕は既に黎明期から築き上がりつつあったデータサイエンティスト業界で名を知られるようになり、まだ2年目の新参者ながらTokyoR, Tokyo Webminingといった勉強会に呼ばれて登壇したり、また業界の実力者の人々との交流を深めるようになりました。


経済メディアやIT関連メディアで喧伝された話題とは裏腹に、当時データサイエンティストが活躍していた業界と言えばweb解析・改善(その後アプリ改善へとシフトしていった)やコンサル・マーケティング界隈、業種であればeコマースやアドテクさらにはソシャゲ辺りが多かったと記憶しています。データサイエンティストたちが集まる勉強会で参加者の顔ぶれを見渡してみても概ねそれらの業界の人たちが占めており、少なくともそれらの技術コミュニティにおける様々なコンセンサスは良かれ悪しかれそれらの業界における共通認識の影響があったように思います。例えば、相変わらずHadoopとその関連技術*5は大きなウェイトを占めていましたし、加えてこの頃からRとPythonがデータ分析向けのプログラミング言語として広く認知されるようになったという印象があります。


このブログで初めてはてブ1000超えを記録した記事をお読みいただけば、当時の雰囲気がどのようなものであったかを何となく感じていただけるのではないでしょうか。2022年の今現在から見ると臍で茶を沸かすような項目のオンパレードですが、この頃はまだクラウドもそれほど普及しておらず、オンプレのサーバで事業を回し、ローカルのスタンドアロン環境でデータ分析をするというのが当たり前だったことを鑑みれば、データ分析と言えば往々にしてこんな感じのものだったのです。即ち、事業システムからマーケティングに関わるユーザー行動ログを取ってきて、Hadoopで集計したデータテーブルをローカルのRStudioに入れて、様々な多変量解析を行なって事業改善のためのインサイトを導き出し、そのインサイトをまとめた資料を事業チームに提供して、実際にビジネスの現場を変えていく……そんなことを僕もやっていたものでした。


……という雰囲気の中、データサイエンティスト業界にはにわかに降って沸いた大フィーバーに煽られてどんどん多くの人が新規参入してくる日々が続いたのですが、2014年ぐらいになると潮目が変わってきます。その当時の状況を明快に喝破した文章が、意外にも技術評論社さんのサイトに載っています。


技術的な内容に触れていない書籍をたよりにデータサイエンティストを志した方は,残念としか言いようがありません。

端的に言えば、軽薄なブームに煽られて我も我もとデータサイエンティスト職に就いた人々の多くがプログラミングなどの技術的基礎を持っていなかったせいで、データ分析の現場ならどこであっても求められるような最低限のIT業務もできない人たちが続出したということですね。以前の記事でも取り上げたように、先述したデータサイエンティストの3要素を引き合いに出して「データサイエンティストにはビジネス力が必要」を曲解して「ビジネス力さえあればデータサイエンティストを名乗ってOKッ!」という謎ムーブメントも起きたぐらいなのです。そして実際、この頃多発した「なんちゃってデータサイエンティスト」が各種メディアなどで開陳していた「分析(と称するもの)」には浅薄なものが目立ち、IT/tech業界関係者からは散々に嘲笑されたものでした*6。当時は冗談でも何でもなくて「データサイエンティストを名乗るのは恥だ」という風潮が広まり*7Twitterでは「やーいお前の父ちゃんデータサイエンティスト」と煽られたなんていうジョークまでが流れたくらいです。


ただし、そういう事態に至ったもう一つの理由として「データサイエンティスト=スーパーマン説」が当時は根強かったということもあるのではないかと思っています。即ち「データサイエンティストである以上はビジネス力・データサイエンス力・データエンジニアリング力の全てを併せ持つスーパーマンであるべき」という、それこそDavenportのHBR総説でも提唱されていた非現実的なスキル要件ですね。「非現実的」と既に書いている通りでそんなものは未だもって絵空事なわけですが、当時は大真面目にあらゆるところで喧伝されていたものでした。そういう風潮があるが故に「お前データサイエンティストなんだって?だったら世間で良く言われる通りお前もスーパーマンなんだろ?え?スーパーマンじゃない???じゃあ何でデータサイエンティストなんて名乗ってるんだよ」と叩かれるようなパターンもまた結構あったように思います。これもまた「データサイエンティストとは名乗りたくない人々」が続出した原因だったのではないでしょうか。


同じ頃、前職在籍当時の2014年夏のハッカーズチャンプルーで話した時の資料がこちらです。前々職での講演からたったの1年ちょっとしか経っていないのに、もうデータサイエンティストを「オワコン」呼ばわりしているという有様で、当時の雰囲気がお分かりいただけるかと思います。


また、今にして思えば当時はまだまだ後の世に言うDXが進んでいない企業が多く、折角データ分析しようにもそもそもデータが用意されていないという現場の方が明らかに多数派だったようです。「プログラミングもまともに出来ないデータサイエンティストもどきを集めたデータ分析部門」と「データをろくろく用意できない企業」との悪魔合体がそこかしこで生じた結果、何の成果も挙げられないデータサイエンティストなんて抱えるだけ無駄だとばかりにデータ分析部門を閉鎖する企業が相次いだのもこの頃です。


結果的に第一次データサイエンティストブームは「データサイエンティスト」という単語を社会に広めたところで急速に萎み、いきなり「幻滅期」に突入して終了してしまいました。後に残ったのは「データサイエンティスト=口先ばかりの紛い物」という有難くない負のイメージと、データサイエンティストとは名乗りたくないがデータ分析の仕事は地道に続けているという、黎明期からの古参たちだけでした。ちなみにその頃の僕はどうしていたかというと、2013年に前職に移り、その後第一次ブームが萎んだ後の2016年に現職に移っています。「名乗るのも恥」とまで言われていたデータサイエンティストという肩書きを、会社指定のものとして一貫して使っていた変わり者だったのです。


一方で、「データサイエンティスト」という単語そのものが社会に広まったこともあり、2015年頃を境にして「新卒入社でいきなりデータサイエンティストとして採用される」いわば生え抜きデータサイエンティストが登場するようになります。彼らの多くは大学・大学院の情報学や計量経済学といった専攻の出身者で*8統計学機械学習などの専門教育を受けた上で参入してきており、中には以後の時代の中核を担う存在になっている人たちもいます。ただし、その割合は少子化の進行もあっていつでもそれほど大きいものではなく、多数派を占めて業界の潮流を大きく変えるには至っていないように感じています。


余談ながら。このブログで最初の「データサイエンティストのスキル要件」記事を書いたのも第一次ブーム後の幻滅期真っ只中だった2015年のことです。今でもこのブログのはてブ最多記録を保っている記事ですが、ご覧の通りでこの時はまだ「データサイエンティスト」単体のスキル要件しか解説しておらず、まだ「機械学習エンジニア」という概念は出てきていません。


というのは、機械学習分野においては2006年のDeep Learning(深層学習)の登場によるNeural Network(NN: ニューラルネットワーク)の復権、2012年のILSVRCにおけるAlexNetの圧勝がもたらしたNN技術の躍進、その後Caffe, Chainer, TensorFlowなどの登場がもたらした「OSSのNN時代」の到来があったものの、まだ社会の側に機械学習単体での社会実装へと繋がる下地が乏しかったからです。2015年以降のKaggle / KDD cupなどの機械学習コンペにおける日本人たちの活躍も、この頃はまだまだ社会に広く知られる話題ではなかった気がしています。「機械学習エンジニア」という概念を僕が提唱するようになったのは、この後に述べる第二次ブーム以降のことです。


第二次ブーム:「いわゆる人工知能」の担い手が社会から求められる


2016年の3月に、一つの革命的事件が起きます。それは、DeepMindの開発した深層強化学習システムであるAlphaGoが当時の囲碁における世界トップ棋士との5番勝負に勝利し、「チェスや将棋とは違って最後まで人類の方がコンピュータよりも強い」と言われ続けてきた囲碁においてもコンピュータが優位であると決定づける、画期的な成果でした。この「事件」を機に世の中には「シンギュラリティ」に関する議論が沸き起こり、急速に「人工知能」という言葉とその概念(さらには不安と懸念と恐怖)が社会に浸透していきます。果ては某超有名昭和的サラリーマン漫画にまで「天才インド人研究者が作った謎の小箱に入ったAI」なるものが登場した*9ほどで、いかに人工知能なるものが急速に人口に膾炙したかが良く分かります。


このブログでも俄かに沸き起こった人工知能ブームに合わせて解説記事を書いたのですが、たまたまNHKスペシャル人工知能の進化について解説した番組が放映されるタイミングにかぶったせいか、はてブ1000超えを記録しています。ともあれ、2016年を境にして日本の国内外を問わず一挙に沸騰した人工知能ブームは、文字通り世界を変えていくことになります。


そして、このタイミングで再び「データサイエンティスト」が脚光を浴びることになります。即ち「機械学習のスキルを持つデータサイエンティストが人工知能を開発して世にリリースしていく」というイメージが醸成されていったことで、すっかり幻滅期に落ち込んで見る影もなかったデータサイエンティストという職業が息を吹き返していったのでした。折りしも、Kaggleのトップランカーたちを高待遇で採用するという大手企業が何社も現れたことで「人工知能機械学習)に強いデータサイエンティストは稼げる!」という世評も広まったようで、再びデータサイエンティストを目指す人々が増えていきました。第二次データサイエンティストブームの到来です。


しかし、第二次ブームでは以前と違ってとにかく「機械学習を駆使して人工知能を作る」人材が求められるようになり、自ずとそのスキル要件も従来のデータサイエンティストとは異なるものになっていっているというのが僕の個人的な観測でした。これに基づき、「機械学習エンジニア」という新たな概念を提唱したのが2017年のスキル要件記事です。


この記事以降、僕は「データサイエンティスト=アナリストの延長」「機械学習エンジニア=エンジニアの延長」というコンセプトを提唱するようになりますが、これは個人的には我ながら上手いまとめ方をしたなと勝手に思っています(笑)。実際問題、この頃からデータ分析職というと「アウトプットする先がヒト」であるアナリスト側と「アウトプットする先がシステム」であるエンジニア側とに分かれていったという印象があるので、この分類は割と実態に即していたのではないでしょうか。


ただ、実際の企業社会では依然としてこの二者はごっちゃにされてひとまとめに「データサイエンティスト」として募集・採用されることが多かった記憶があり、それによる混乱も結構あったようです。SNSなどに流れてくる日本の会社のデータサイエンティスト募集要項の中に「機械学習を用いてデータを分析して経営陣にレポートを提出する」みたいなものを見つけた時は、流石に僕も笑うしかなかったですね。


データサイエンティストにせよ機械学習エンジニアにせよ、第二次ブームで人材需要の主たる業界となったのは第一次ブームに引き続いてアドテク・eコマース・コンサル界隈と、さらにこの頃から増えてきたtech系スタートアップ界隈だったように思います。平たく言えば「デジタルのデータが事業の主流を占める」業界ということで、やはりデータの取れる現場でないとこれらのデータ分析職はまだまだ機能しないということだったのでしょう。


結果から言うと、業界全体としての進歩はありながらも2019年頃には「やっぱり人工知能(AI)の事業応用は難しいよね」という風潮が濃淡はありながらも広がっていった印象があり、一時の人工知能ブームにはやや翳りが見えてきたというのが現場の肌感覚でした。もっともこの頃はまだML Opsの考え方も広まっておらず、機械学習システムの開発を既存のソフトウェアエンジニアリングと同じレベルで整備・推進するための枠組みもまだ道半ばだったように思います。


ただ、その一方で「データサイエンティストの仕事=人工知能機械学習)システムを作る」という先入観がこの第二次ブームで生まれ、その後定着したのも事実だと思います。少なくとも、この頃の各種メディアやSNSなどで流布される「データサイエンティストとは」論の大半が「人工知能」「AI」「深層学習」といったキーワードで埋め尽くされたものばかりであったと記憶していて、「データサイエンティスト=アナリストの延長」というイメージは弱まっていき、入れ替わりで「機械学習エンジニア=データサイエンティスト」というイメージがどんどん強まっていったという印象が強いです。もっともこれには当事者たちの志向も影響していたかもしれないという気がしています。理由は単純で、アナリストの延長として「ヒトに対してアウトプットする」のは何だかんだでコミュニケーションコストを費やすので面倒だと、またエンジニアの延長として「システムに対してアウトプットする」方がずっと楽だと思う人が多かったからではないかと。


これらの世の趨勢もあり、過熱していた第二次ブームは「エンジニアの延長たる機械学習エンジニアが常に一定レベルで求められる」という定常的な需給状態へと移行し、一旦沈静化したものと僕個人は見ています。しかし、ほんの1年経ったところで人類は地球レベルの未曾有の危機に見舞われ、データサイエンティスト業界もその影響を大きく受けることになります。新型コロナウイルスパンデミックの到来です。


第三次ブーム:DXブームと共に「とにかくデータサイエンティストと名乗りたい」人々が殺到


この記事を書いている間も現在進行中であるCOVID-19パンデミックは、文字通り世界中のあらゆる人々に大きな影響を及ぼし、時に社会のあり方全体をも変革するほどの、まさに人類史に残る大事件となりました。


そんなパンデミック下において急速に拡大したのがリモートワーク。特に各地の当局がロックダウンなり外出制限なりをかけた場合はどうしても職場に出社もできず、家で働くしかないわけです。しかし、世の中の多くの企業は社員全員にリモートワークをさせたくても、例えばハンコを押さなければいけないとか紙の書類を処理しなければならないといった理由で、ままならないことも多かったようです。そこで日本社会で幅広く叫ばれるようになったのが"DX" (Digital Transformation)でした。これは端的に言えば企業の業務の「デジタル化」「IT化」を目指すものであり、例えば日本政府がデジタル庁を設立したのはその最も象徴的な出来事と言えるでしょう。まさしくDXブームの到来です。


で、ここからが良く分からないのですが「DXにはデータサイエンティストが(も)必要だ」という世論がじわじわ広がっていって、コロナ禍の中にあってもデータサイエンティストの需要が旺盛になっていったようです。DXブームによって程度問題ながらも多くの企業に「デジタルデータ」が新たに生まれるようになり、これを分析したら何か良いことがあると思う経営者やマネジメント層が増えたということもあるのでしょう。いずれにせよ、様々な就職・転職斡旋サービスに「データサイエンティスト」の職名を冠した求人募集が多く出回るようになったようです。


この流れに沿って生まれたのが、あえてネタ元の表現を借りると「未経験から3ヶ月でデータサイエンティストになって一発逆転」*10を目指そうという人々、即ち「データサイエンティストワナビー」でした。恐らくこれは「未経験からwebエンジニアになって一発逆転」*11と同じ流れに属するトレンドで、要は「コロナ禍でもリモートワークが出来て尚且つ高給にも恵まれる*12割に新しい職業なので未経験者でも就くのが簡単と思われる」仕事の人気が沸騰するという現象なのだと思われます。この現象について、旧知のしんゆうさんは「データサイエンティストと名乗りたい人々」のブームだと喝破されていますが*13、僕も大いに同意するものです。ともあれ、この現象はコロナ禍にあってもデータサイエンティストになりたいという人々を沢山引き寄せ、至るところでデータサイエンティストスクールやオンライン講座が大盛況になったり、某協会が主催する最初歩レベルの検定試験にも志願者が殺到するという帰結を産みました。第三次データサイエンティストブームが到来したというわけです。


この記事を書いている2022年10月現在も、第三次ブームは現在進行中です。SNSを眺めていると毎日掃いて捨てるほどの「これからデータサイエンティストを目指します!」という声を見かけますし、ブラウザなりアプリなりを開けば「あなたもデータサイエンティストになれる!」というデータサイエンティストスクールやオンライン講座の広告が山ほど舞い込んできます。僕のところにも「副業でデータサイエンティストスクールの講師をやりませんか」というスパムメールが様々な媒体経由で日々流れてきますし、毎日呆れるばかりです。


ただ、正直に言ってこの現状は極めて歪んでいるなと感じています。理由は極めて簡単で、かつてのゴールドラッシュで儲かったのが「金を掘っていた人々」ではなく「金を掘る人々にジーンズやツルハシを売っていた人々」であったのと同じように、「データサイエンティストになろうとしている人々」よりもどう見ても「データサイエンティストになりたい人々に情報や教育コンテンツや資格認定を売る」人々の方が儲かっているように見受けられるからです。つまり、第三次ブームはゴールドラッシュと大差ないということですね。


一方で、データサイエンティスト(そして機械学習エンジニア)の主たる業務とも言える「統計学機械学習の社会実装」においては、以前の記事でも指摘したように未だもって非常に大きな課題が山積したままです。特に第一次・第二次ブームで既にそれらの導入が済んでいる現場ならまだしも、DXブーム以降の第三次ブームで導入しようとしている現場は文字通りゼロからのスタートになるはずで、その大変さたるや想像を絶するものがあると思われます。結構な熟練の手練れのデータサイエンティストでも手を焼いたという話を伝聞ながらちらほら聞きますので、そういった現場にいきなり投入される促成栽培のデータサイエンティスト(ワナビー)たちにとっては地獄の悪夢になるのではないでしょうか。


ということで、個人的には「情報や教育コンテンツや資格認定を売りさばく人々」が喧伝するような「バラ色のデータサイエンティスト人生」にありつけなかった、促成栽培のデータサイエンティスト(ワナビー)たちが沢山出てくるようになった日には、一気にこの第三次ブームも幻滅期を迎えて萎んでいくのではないかと予想しています。良いか悪いかという意味でいうと、確かにデータサイエンティスト業界に対して何であれネガティブなイメージが新たに付け加わるという意味ではあまり良くない話ではありますが、第一次ブームの時に「名乗るだけでも恥」とまで言われたことを考えれば大した話でもないのかな、と思う次第です。


ところで、第一次ブームの火種となったHBR総説を著したDavenportは10年後の答え合わせとして新たなHBR総説を寄稿しています。その内容をごく簡単に要約すると、

  • より制度化(職制としても教育としても)が進んだ
  • 様々な職種への分化が進んだ
  • 技術の進歩で仕事の進め方が変わった
  • 倫理(公平性など)面の課題が増えた

というものです。その意味では、確かにこの10年でデータサイエンティスト業界は質的な側面においては非常に大きく変化したように個人的には感じています。他方で、量的な側面即ち「人材の需要」という点では依然としてそこまで増えていないという感触があります。勿論これは僕が見ている世界が狭いだけの可能性がありますが、少なくとも個人的な観測範囲では「優秀なデータサイエンティスト(及びデータ関連職)がごく少数いれば良い」とする現場・組織がまだまだ多い*14気がしています。


あえて言うなれば、10年経ったことで「社会からのデータサイエンティストの認知は年々広まりつつある」ということだけは間違いないでしょう。仕事でもプライベートでも、声をかけてきた人がどこそこのデータサイエンティストだった、というシチュエーションに出くわす頻度は年々増えていっています。流石に「どの企業のどの現場に行っても必ずデータサイエンティストがいる」とまでは言わないにせよ、主要な大企業に行けば多かれ少なかれ最低1人はデータサイエンティストがいる、という感じにはなりつつあるようです。


後は、どれくらいデータサイエンティストたちがその価値を発揮できるかにかかっているのでしょう。これまた以前の記事でも書いたように、コロナ禍初期の不況に見舞われたアメリカのtech業界ではデータサイエンティスト・機械学習エンジニアのレイオフが相次いだわけですが、その理由がやはり「必ずしもビジネスに貢献していないから」だったというのは象徴的だと思っています。現在進行中の第三次ブームも、ウクライナ危機とそれに伴うエネルギー危機そして極端なドル高に由来する世界経済の混乱の中で、どのように推移していくかは全く読めない状況です。


個人的な見解:本質的には「強い課題意識を持って学び続けられる人に向いている仕事」


ここまで「データサイエンティストという職業」の10年間の変遷を振り返ってみましたが、3回あった(過熱した)ブームのいずれにおいても必ず話題に上っていたのが「データサイエンティストになるための資質」でした。これはぶっちゃけ時代ごとに結構違いがあるんですが、ここでは僕自身の個人的な見解を開陳しておきます。


3年前に書いた記事では当時組織したばかりのサブチームで駆け出しデータサイエンティストたちをトレーニングした経験を簡単にまとめましたが、その時にやはり再認識したのが「データサイエンティストとして活躍し続けられるための資質」でした。これは物凄く単純で、記事中でも書いたように「強い課題意識を持って学び続けられること」に尽きるんですよね。言い換えると「強い内発的動機を持っている」ということです。


というのは、去年書いた記事でも指摘したようにデータサイエンティストの仕事というのは「学び続けなければ務まらない」代物だからです。確かに、決められた手順を踏んで分析したり予測モデルを構築したりするのは、手順さえ覚えれば出来ます。しかし、いざそれが上手くいかなかった時にトラブルシューティングを行うには、往々にしてそれらの分析やモデリングの根底にある理論や性質を理解している必要があります。理由としては、汎用的なソフトウェアの開発などの出力は程度問題ながら「確定的」に振る舞う一方で、統計分析や機械学習の出力は「確率的」に振る舞うからです。つまり、コーディングや実装だけではそれらの挙動をコントロールすることが出来ないことがあり、それでもコントロールするためにはそれ以外の部分にアプローチする必要があるというわけです。


言い換えると、これは「上っ面のノウハウを覚えただけでは上手くいかないことが多い」という話でもあるんですね。だからこそいわゆるtech giantsと呼ばれる企業のデータサイエンティスト採用審査では単に過去実績を問うだけでなく、例えば教育歴(計算機科学系や応用統計学系の学位など)を求めたり実地課題(コーディング面接やケース面接など)を課したりするわけです。この辺の話は毎回ブームになる度に「そんなのどうでもいいから今流行りの人気職業にもっと人を呼び込もう」というムードに流されてしまっている気がしますが、同時にその度ごとに「雇ってみたけどやっぱりダメだった」みたいな失敗談がそこかしこに湧いてくるのを見かけるので、いい加減皆さん反省した方が良いのではないかと思うのです。面倒であっても、ある程度のクオリティコントロールはした方が良いと個人的には考えています。


同時にこれは新たにデータサイエンティスト業界に参入する人たちについても言えることで、その理由は「高給取りになれそうだから」「リモートワークだけで仕事できそうだから」「ワークライフバランスが良さそうだから」「新しくて未来のありそうな職業だから」「単に格好良さそうだから」でも何でも良いと思います。が、ひとたびデータサイエンティストになろうと志す以上は、程度問題ながら「学び続ける習慣」を身につけ実践して欲しいと願う次第です。それは良い仕事をやり続けられるというだけに留まらず、時と場合によっては自分の身を守ることにも繋がります。面倒臭がらず、是非学び続けていってもらいたいと思います。


二つ目の論点として職種の分化というのがあります。最近のスキル要件記事をお読みの方はご存知かと思いますが、現在僕が提唱しているのは「データサイエンティスト」「機械学習エンジニア」「データアーキテクト」の3職種です。これらはそのまま「アナリストの延長」「ソフトウェアエンジニアの延長」「DBエンジニアの延長」を意識していて、棲み分けとしては完全に「統計学(一部機械学習)」「機械学習」「データ基盤」の3領域に分解する形になっています。平たく言えば、僕が長年に渡って主張している「チームで役割分担すればチーム全体としてスーパーマンになれる」というスタイルです。


ただ、世の中を見ていると割と今でも最初期の「三拍子揃ったスーパーマン的データサイエンティスト」を求める界隈も根強く残っているようで、実際に某協会辺りは今でもそれを標榜しているように見えます。それが良いか悪いかという議論は今となってみると結構難しい気がしていて、例えばちょっとした中小企業が「DXを推進するに当たって我が社で初めてのデータサイエンティストを採用したい」と考えた場合にわざわざ3人も新たに雇い入れるのはやはり大変なはずで、できれば最初は「3領域全てがそこそこ分かるオールラウンダーなデータサイエンティストがまず1人来て欲しい」と考える方が穏当だと思われるからです。なので、「3職種で役割分担」と「スーパーマン」のどちらが適切かはデータサイエンティストを採用する組織の規模やフェーズによる、とした方が良いのかなと考えています。


そして三つ目の論点として「統計学に通じたデータサイエンティストが少ない」という問題があります。これは既に書いた通り、第一次ブームの頃は「統計分析したアウトプットをヒトに渡す」仕事が多かったのに対して、第二次ブーム以降は「機械学習システムを組む」仕事が増えると同時に「データサイエンティスト=機械学習エンジニア」という先入観が社会に広く浸透したということが理由として挙げられます。


しかしこれが実は落とし穴で、これまた上述の通り機械学習システムで直接事業を変革できるような企業や組織はDX道半ばということもあってまだまだ少数派のままで、多くの現場では今でも「手持ちのデータを統計分析してその知見をもとに人手で事業を改善する」というコンサル的なスタイルを保っているんですね。なので潜在的には実は「統計学でコンサルをやれるデータサイエンティスト」の方が需要は大きいと感じています。


にもかかわらず、近年のデータサイエンティスト育成スクールやオンライン講座の類はその大半が「機械学習とそのためのコーディング技術」を教えるものばかりで、まともに統計学を教えているものは殆どありません。中には「現役トップデータサイエンティストが教える統計学」と謳いながら完全にデタラメな内容を並べているものもあるほどで、呆れるばかりです。機械学習システム開発であってもその効果検証には統計学の知識が必要になることはままあるのですが、この調子では先が思いやられます。


幸いにして、日本には統計検定という統計学の学識を適切に問う優れた検定試験制度があり*15、主に社会人向けの数学スクールなどを中心に各級ごと(特に1級・準1級・2級)に統計検定に向けた統計学の学習コンテンツが提供されているのは希望の持てるところだと思っています。願わくば、統計学の習得にも目を向けるデータサイエンティストがもっと増えて欲しいものです。


後は、蛇足ではありますが「成果を見えるところで見せる」ということですね。

使い古した動画で恐縮ですが、やはり「成果が見えにくい」と言われがちなデータサイエンティストという仕事だからこそ、成果を見せられるところでしっかり見せることが業界としてはそのレゾンデートルを訴求する上で大切なことだと思っています。


幸いにして、昨今のデータサイエンティスト業界では分かりやすい成果が挙がることが増えたようで、様々な成功事例がところどころでプレスリリースやニュースリリースやメディア記事などの形でアピールされるようになってきています。勿論個々のケースにおいてはNDAなど秘密保持の観点から公開できないということも多々あるかと思いますが、これからも今まで以上にデータサイエンティストによる成果が目に見える形で社会に知らしめられるようになることを願っています。


最後に


長々とデータサイエンティストの10年史と僕個人の見解を並べてきましたが、何度も書いているように「すぐ吹き飛んで消えそうだったデータサイエンティストという職業が意外にも社会に根付いた10年間」であったというのが率直な感想です。9年前に「データサイエンティストは10年以内に消える」というブログ記事*16を引用したことがありますが、結局10年後も続いてそうだなという気がしています。


ところで、最後に余談ながら。「データサイエンティストはどの業界にいるのか」という疑問は定期的に話題に挙がる気がしていて、例えば前掲の2014年のスライドでは以下の業界を挙げています。

  • アドテク(広告)
  • eコマース
  • ソシャゲ
  • コンサル
  • 製薬
  • 流通
  • メディア
  • tech系スタートアップ

しかし、現在ではこの10年間で「データサイエンティストがいる業界」は飛躍的に増えたのではないでしょうか。例えばスポーツアナリティクスは10年前だとまだそれほど広まっていなかった印象がありましたが、今や多くのプロスポーツチームがデータサイエンティストを抱えてチーム戦略を立てるようになりました。MLBにおけるフライボール革命*17は、MLBにおけるビッグデータ分析がもたらした「副作用」だとまで言われるそうで、良くも悪くもデータ分析が選手たちのプレー内容をも左右するようになってきていることが分かります。


そして今後も、「データサイエンティストがいる業界」はさらに増えていくのでしょう。それはもしかしたら相変わらず「データサイエンティスト(※ただし優秀な実力者に限る)求む」みたいな雰囲気のままなのかもしれませんが、それでも旺盛な需要がある限りは新規の参入者も現れ続けるでしょうし、必然的に彼らを効率良く着実に育成する方法論もいずれは確立されていくのでしょう。それは案外、今現在日本各地の大学に乱立しつつある「データサイエンス学部」によって成し遂げられることなのかもしれません。また、第一次ブームの最初期にある程度見かけたものの、第二・三次ブームではあまり見かけなくなっていた「大学の研究者(しかも統計学機械学習分野の)からデータサイエンティストに転じる」ケースがここ最近増えてきており、そういう人たちの専門性によって業界全体の底上げがなされるのではないかという期待もあります。


……ということで、今回の記事では過去10年のデータサイエンティスト業界の変遷を振り返ってみました。この記事で僕が開陳した業界展望が正しかったかどうかは、また10年後の記事で検証するということにでもして、お開きにしたいと思います。

*1:ただしTransformerとかdiffusion modelとかは当然ありませんでしたが

*2:Halには2017年にMountain Viewまで直接会いに行ってきました

*3:例えばScikit-Learnも当時は今ほど機能が充実していなかった記憶があります

*4:僕も創設時の発起人名簿に名前を連ねています

*5:特に分散処理周り

*6:僕自身の低レベルな情報発信もその風潮を助長した可能性は否定できませんがorz

*7:当時はこんな感じのブログ記事もありました→データ分析する人が、なぜデータサイエンティストと呼ばれたくないのか - ネガティブにデータサイエンティストでもないブログ

*8:もっとも当時はデータサイエンス学部というものは主流ではなかったので主に工学部・理学部などが多かった

*9:最先端に乗り遅れるな、サラリーマンのバイブル「島耕作」 : 市況かぶ全力2階建

*10:「未経験文系から3ヶ月でデータサイエンティストになって一発逆転」はここで終わり (2020/7/31 更新) - todo-mentor’s diary

*11:未経験からWebエンジニアを目指す人に伝えたいこと

*12:【経済インサイド】ビッグデータ分析、新卒年収は1000万円以上 東大生の人気職種に(1/2ページ) - 産経ニュース

*13:第3次データサイエンティストブームと、データサイエンティストの終わりの始まり、か?|データ分析とインテリジェンス|note

*14:客先常駐メインのコンサルとかはまた別

*15:他国ではあまり同様の仕組みを聞いたことがない

*16:データサイエンティストがこれから10年以内に消える理由3つ - ネガティブにデータサイエンティストでもないブログ

*17:ビッグデータ活用でMLBのホームランが増えた?:日経ビジネス電子版