六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

どんな人がデータサイエンティストに向いているのか?

以前新卒配属に関連して書いた記事で、「もうちょっとデータサイエンティストの定義とか育て方とか書かなきゃいけないなー」的なことを呟きましたので、何となく適当に書いてみることにします*1


そもそもデータサイエンティストは「科学者」である


「科学者」というと、アカデミック業界にいたことのない人だと

  • 白衣を着ていて
  • 試験管を振っていて
  • 顕微鏡を覗いていて

みたいなイメージを持っているかもしれませんが、そもそも白衣を着てない科学者だって世の中にはいっぱいいます*2。それこそ、大学などの機械学習や応用数理学の研究室に行けば、白衣を着てない科学者≒Quantitative Researcherの人々が沢山います。


そう、データサイエンスも「科学」なのです。それは何故かと言えば、Scienceの語が付いているのを見れば分かる通り、科学的方法に従ってデータを扱うことこそがデータサイエンスであり、実際これからはそのように社会からは期待されることでしょう*3


ですから、何よりもまずデータサイエンティストになろうという人は「科学者になれる人」であることが大前提だと、僕は思うのです。


もしかしたら、「科学者でなんかなくても良い」という人もいるかもしれませんね。でも、「データサイエンティスト」がもし「科学者」でなかったら? それは、多分普通の「アナリスト」「マーケッター」「コンサルタント」といった人たちと何も変わらないんじゃないでしょうか。


Data Scientistと言うからには、「科学者」であるべきだと思います。


ただし文系理系は関係ない


だからと言って、例えば「科学者=理系なんだから理系以外はデータサイエンティストにはなれない」なんて阿呆なことを書く気はありません。そもそも、理系でも科学的に物事を扱えない(扱えなくなった)人なんて珍しくないです。


つまりもっとぶっちゃけて書くと、「文系でもデータサイエンティストになれる」ということです。ただし、いかな文系でもそれなりに科学的に物事を扱う経験に慣れてる人*4の方が、より適しているだろうとは思いますが。


要は、「科学者」としての自覚を持って、「科学的方法」に基づいて、データを扱える人であれば文系理系は関係ないということです。


自分の主観よりも「データという客観」を優先できる人


自分の信じる主観と、データがもたらす客観とが矛盾していたら、迷わず後者を優先できる人でないと、僕個人はデータサイエンティストにはなれないと思っています。


ぶっちゃけ、上の2条件を全て満たしていたとしても、これが出来ない人は実はアカデミック業界にも珍しくありません*5。「自分はこうだと信じてたんだけどなぁ・・・いいや、データの方をいじっちゃえ♪」とか。


アカデミック業界なら、「この論文はウソでした」で撤回され、社会的制裁を適当に食らわされて終了でしょう。でも、ビジネスの世界ではそれどころでは済みません。


もし、自分が信じる予想とデータが異なったからと言ってデータを改竄・捏造し、ウソのレポートを提出して経営施策の変更を提案し、結果的にその施策が間違いだったということになったら? その間違った施策のせいで、会社の事業で何十億・何百億円もの損害を出してしまったら?


その人自身が手が後ろに回って豚箱行きで済めばまだ良いのです。もしこれが会社の存亡の危機になったら、何百何千もの同僚が路頭に迷う危険性すらありますね。


・・・というのは極端な例にせよ、多かれ少なかれデータサイエンティストは会社の経営に介入するケースがあります。そこでデータが示す客観的な事実を何よりも最優先にできない人に、そもそもそんな経営に介入するような提案を皆さんはさせますか?


データサイエンティストには、「データという客観」を最優先にして欲しいものです。


おまけ


「科学的方法」Wikipedia記事の、さらに「研究者レベルの素養」のところに分かりやすい4条件が列挙してありますが、これをデータサイエンティスト風に書き直せばこんな感じになるでしょうか。


  1. 自分で調査テーマを定めることができるか?
  2. 調査テーマを検証可能な問題にブレークダウン出来るか?
  3. 自分で計測*6手順を定めることができるか?
  4. 自分の計測結果に自信が持てるか?


実は1番目はむしろビジネスサイドの要請だったりすることが大半なので必ずしも自分で決められるようなものじゃないんですが、それでもこの4条件はそれなりに妥当なんじゃないかなぁと思ってます。

*1:僕の、インターネット企業でビッグデータ(と俗称されるもの)をデータサイエンティスト(と俗称されるポジション)として捌いている個人的な経験の範囲内での、単なる私的な意見ですので念のため

*2:僕も被験者さんを招く実験の時(実験者が誰かを明示するため)以外に白衣なんて着たことないです。もっと書くと、白衣というのはあくまでも有害物質やバイオハザードに該当する試料が衣服に付着するのを避けるための防護服の一種なので、あんなものを着て人前に平気で出てきてはいけません

*3:今のところはまだまだバズワード的扱いがキツいので、社会からは訝られている感もありますが

*4:計量経済学や、コテコテの実験心理学(心理統計とか)を専攻していた人とか

*5:だから結構な頻度でデータの改竄・捏造による論文不正事件が起きる

*6:DBとか、要するにHadoop / Hiveとか