渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

何故「データ『サイエンティスト』」と呼ばれるのか?という問いへの端的な答え

f:id:TJO:20210927143344p:plain

第一次データサイエンティスト・ブームから8年以上が経つわけですが、結構不思議なのが今でも「何故データ『サイエンティスト』という名前なのか?彼らは研究者ではないのだからおかしい」という議論が定期的に沸き起こる点です。


f:id:TJO:20210927143214p:plain

その理由は色々ありそうですが、つい最近ではこちらのNHK報道特集でフィーチャーされたのが大きかったのかもしれません。つまり、それまで「データサイエンティスト」という語を知らなかった人たちがこのようなメディア報道に触れて初めて知るたびに、上記のような疑問を持つ人たちが現れては各所で議論になるという流れが繰り返されているということなのでしょう。


ということで、いつも通りネタ切れで書くことがないので今更ながらですが「何故データ『サイエンティスト』と呼ばれるのか?」という疑問に対する、僕なりの回答をざっくり書いてみようと思います。なお、恒例ながら事実誤認や理解不足の点など記事中にありましたらご指摘下さると幸いです。

前段としての「定義」



まず、大前提となる「データサイエンティストとは何か」という定義ですが、これについては毎年書いている恒例のスキル要件記事を参照していただければと思います。僕はいわゆる「データサイエンティスト」をさらに3つの小職種に分けて、それぞれ

  • データサイエンティスト(アナリストの延長)
  • 機械学習エンジニア(ソフトウェアエンジニアの延長)
  • データアーキテクト(DBエンジニアの延長)

と定義しています。ただし、しんゆうさんのように「参入時期によって分ける」という分類を提唱している方もおられるので、参考までに併記しておきます。いずれにせよ、僕個人の意見としてはデータサイエンティストの定義は既にある程度確立している(確立され得る)ものだと認識しています。


しかし、これはあくまでも「定義」の話であって、肝心の「何故『アナリストの延長』がデータ『サイエンティスト』と呼ばれるのか」という問いへの答えにはなっていません。これには2012年にまで遡って歴史的経緯を紐解く必要があります。


そもそも何故「データ『サイエンティスト』」なのか


端的に言えば理由は2つしかなくて、

  • 「データサイエンス (Data Science)」を駆使して仕事をする人なので、その職業名としてそのまま「データサイエンスする人 (Data Scientist)」となった
  • そもそも黎明期においては様々な定量科学分野の科学者 (Scientist) から転じて参入した人が多く、またそれが望ましい人物像とされた経緯がある

というものです。前者は極めて単純な話で「サイエンスをする人はサイエンティスト」の延長として「データサイエンスをする人はデータサイエンティスト」である、というものです。


後者については、2012年のあまりにも有名なHBR記事「データサイエンティストは21世紀で最もセクシーな職業である」において詳細に記されています。これも以前の記事で解説した通りです。


Perhaps it's becoming clear why the word "scientist" fits this emerging role. Experimental physicists, for example, also have to design equipment, gather data, conduct multiple experiments, and communicate their results. Thus, companies looking for people who can work with complex data have had good luck recruiting among those with educational and work backgrounds in the physical or social sciences. Some of the best and brightest data scientists are PhDs in esoteric fields like ecology and systems biology. George Roumeliotis, the head of a data science team at Intuit in Silicon Valley, holds a doctorate in astrophysics. A little less surprisingly, many of the data scientists working in business today were formally trained in computer science, math, or economics. They can emerge from any field that has a strong data and computational focus.


おそらく、「サイエンティスト」という語がこの新しい職種にフィットする理由は段々明らかになってくるだろう。例えば、実験物理学者であっても実験装置をデザインし、データを集め、多くの実験を実施し、その結果を分かりやすく大勢に伝えなければならない。これまでも、複雑なデータを扱えるような人材を探す企業は、そうした物理学・社会科学といった学歴及び研究歴をバックグラウンドとして持つ人材を採用してきた。実際、トップレベルのデータサイエンティストはたいてい生態学やシステム生物学と言った深遠な研究分野のPh.D.ばかりだ。他にも例えば、シリコンバレーIntuit社でデータサイエンス・チームの責任者を務めるGeorge Roumeliotisは、天体物理学で博士号を取得している。大して驚くようなことではないが、ビジネスの現場で働くデータサイエンティストの多くは計算機科学、数学、経済学などでもきちんとした教育を受けている。彼らデータサイエンティストは、データとその分析に強くフォーカスする分野であればどの研究分野からでもやってくるものなのだ。

(筆者による意訳:原文の太字・イタリック体は筆者)

言い換えると「元々サイエンティストだった人材が転じてデータサイエンスの世界に参入したのならば、その人材はデータサイエンティストである」ということなんですね。当時はまだ細かい下位区分が意識されることのない時代で、データサイエンティストといったら一人で統計分析・機械学習システム構築・DB基盤管理など全てをこなせるべきだと言われていたものですが、それは当時のデータ分析業務がまだ一人である程度こなせた牧歌的な時代だったということでもあります。


実態を反映しない誤解について


「データ『サイエンティスト』というネーミングが気に食わない」論に付随する言説として、以下のようなものを見かけることが往々にしてあります。

  • データ「サイエンティスト」なのだから研究を(も)行うべき
  • データ「サイエンティスト」と名乗るからには博士号取得者であるべき

これらは「データサイエンティストがサイエンティストを名乗りながら基礎研究を行なっておらず、データサイエンス関連分野の博士でもない」という実態を踏まえた批判と思われるのですが、この点についても上記の歴史的経緯を踏まえると以下のように指摘できるかと思います。


まず、先述の通りデータサイエンティストはあくまでも「データサイエンスする人」であり、必ずしも研究活動をする人だとは限りません。実際、例として現職ではData ScientistとResearch Scientistは明確に分離されたroleになっています。


同じ要領で、データサイエンティストだからといって博士号を要求する求人が多数派というわけでもありません。例えば僕の観測範囲では、シリコンバレー系tech企業だとminimum qualificationsにPhDを記載するケースはResearch Scientistにはあっても、Data Scientistに対して記載することは稀であるように見受けられます。ただし、preferred qualificationsにPhDを要求するケースが大半なのは事実ですし、同様にminimumの方に修士号を求めるケースが大半というかほぼ全てであるという印象です。


脱線したついでに書き添えておくと、そういったシリコンバレー系tech企業のData Scientistの求人でjob descriptionのところに「研究開発」を明示的に掲げているところもやはり稀です。大半の求人が「ビジネス部門やプロダクト部門と協働する」という趣旨のことを書いているように見えます。もっとも、実態としてはPhD持ちが少なくなく、業務に関連しようとしまいと研究活動をしていることもよくあるので*1、「事実上の研究者」であることもままあるようです。


「サイエンティスト」の語を付すことに否定的ならば、是非代案を


色々論ってきましたが、それでも「データ『サイエンティスト』」という呼称そのものが不適切・おかしい・気に入らないという論は9年前から現在に至るまで本当にゴマンと見かけます。ただ、それならば「データサイエンティスト」の代わりに日本語圏のみならず英語圏含めた世界中で幅広く受容され使われるような「データサイエンスを駆使して仕事をする人」にふさわしい職名の代案が欲しいんですよね。


例えば最近では各社ともData Scientistというjob familyに統一してきていますが、数年前まではシリコンバレー系tech企業各社ではQuantitative Analystという職名で募集していました*2。個人的には別にQuantitative Analystでも差し支えないと思うんですが、やはり英語でも名前が長ったらしい(日本語だと尚更)上にいまいち職務内容がイメージしにくいというのが敬遠されているのか、年々この呼称は減っているようです*3


裏を返すと、それだけData Scientistという職名がシリコンバレーですら人口に膾炙していて、その名前から職務や要件がイメージしやすいがために広く使われているということなんですよね。そういう現実を踏まえた上で、それでも違う呼称が良いというのであればそれ相応の代案を個人的には求めたいところです。


ちなみに、僕自身は無能なボンクラながらかつては別分野の研究者(科学者)だった時期もあり、その点では今現在の自分の職名が「〇〇サイエンティスト」である点にはそれほど違和感はありません。あえて言うなら、僕は統計学機械学習そのものの研究者であったことはない一方で現在はビジネスにサイエンスを活かす仕事をしているので、何なら「ビジネスサイエンティスト」のような職名でも構わないと思っています。加えて書くと、個人的にはQuantitative Analystも実は捨て難いと思っていたりします。


余談


「データ『サイエンティスト』」という職種は、巷で「高給取りでワークライフバランスにも優れたスマートな職業」というイメージが広まっている上に、その「サイエンティスト」という語の響きも相俟ってか、キャリアアップの野心に溢れる多くの若い人たちを惹き付けているように見えます。


そんな風潮を憂えて厳しい現実を指摘する記事も以前書いたことがありますが、端的に言えばデータサイエンティストとは「成ろうと思い目指して成る」ものではないと考えています。僕の中では、データサイエンティストとは「その名を称した上で誰からも認められる成果を挙げて初めて周りからも認められる」ものなのです。見ようによっては、そういうデータサイエンティストに向けられる社会からの厳しい視線と過剰な期待があるが故に「『サイエンティスト』と名乗るのはおかしい」というツッコミもまた多く生まれているということなのでしょう。


そういうことを鑑みるに、「未経験から3ヶ月で〇〇をマスターすればデータサイエンティストになれる!」という幻想が各所に蔓延する現在の風潮は、あまりにも危ういと感じています。社会からの厳しい視線と過剰な期待に耐えられるだけの「中身」があってこその、データサイエンティストという職業であると改めて指摘しておきたいと思います。

*1:普通に仕事しながら論文を書いている人も結構多い

*2:これに対してResearch Scientistだがデータサイエンス領域を対象とする人材をQuantitative Researcherという職名で募集していたところがある

*3:念のためIndeedで調べてみたところ、現在シリコンバレーでQuantitative Analystという呼称で求人を出しているのはTeslaただ1社のみだった