六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

「データサイエンティスト」イコール「機械学習・データマイニング・統計学の専門家」とは必ずしも限らない

各種メディアを見ていると、いよいよ日本も「データサイエンティスト元年」が来ちゃったんじゃないかと思ってしまうほど、これでもかというくらいデータサイエンティストに関する記事が出まくってる感が半端ない昨今なんですが。


そういう記事を見ていると、何となーくですが微妙に2種類に分かれてる印象があります。つまり、

  • データサイエンティストは数学や統計学の知識があるというより、データ活用の勘や経験に優れビジネス的に役立つ分析に長けた人材であるべきだ(例その1, 2
  • データサイエンティストは何よりもまず統計学機械学習などの専門知識に通じているべきだ(例その1, 2

という、パッと見だと互いにdisってるんじゃね?みたいな相反する方向の記事がそれぞれ結構増えてきてるように見えるんですよね。


現場でwebマーケティングにゴリゴリ取り組んでいる自称データサイエンティスト*1の身からすると「どっちでもええやん」と言いたくなるところなんですが、自分のステマも兼ねて(笑)ちょっと書いてみようと思います。


四の五の言う前に…


もう何もかも面倒臭いので、最初に結論を書いちゃいます。もっともこれも過去の記事で散々書いたことですが・・・

  • 「ビジネスに役立つ分析ができる」と「機械学習データマイニング統計学etc.ができる」は別物
  • あくまでもビジネスに貢献できるということが第一義
  • でもどっちみち両方の要素は同時に必要になる
  • なのでスーパーマンを呼ぶorそれぞれのエキスパートを集めるのどちらかはやるべき


本当にもうこれだけです。これ以外に言うことなんてないです。はっきり言って、ただこれだけのことなのでそもそも論調が二つに割れること自体よく理解できないんですが、それは多分「どちらも相容れない」と思ってる人が多いからなのでしょう。


いやいや、相容れないなんてことないですよ。何故なら、どちらも基本的には経験を積めば熟達可能なもので、それなりの素養が基礎としてあれば「どちらか片方の超エキスパート」「両方ともそこそこのエキスパート」ぐらいにはなれるものだからです。現場感覚的には。


個人的に考える「データサイエンティストの区分」


僕が思うに、データサイエンティストを表す一番相応しい表現は「知恵袋としての科学者」なのではないかと。科学的方法論に基づいてビジネス的な問題解決の筋道を示すのがミッション。もちろんアルゴリズム開発や実装もできれば鬼に金棒だけど、それらは他のエキスパートに依っても良いように思われます。

以前書いたように、データサイエンティストと一口に言ってもFacebookの定義に従えば

  • Data Scientist (Quantitative Analyst)*2
  • Quantitative Researcher
  • Quantitative Engineer

の3種類に分かれるわけですが、その中でも筆頭のData Scientist (Quantitative Analyst)こそが日本語で言うところの「データサイエンティスト」であろう、というのが僕の持論です。


Data Scientist (Quantitative Analyst)は経済学・経営学・疫学・心理学・生態学などの研究者に近い存在。対してQuantitative Engineerは計算機科学や数理科学の研究者に近いエキスパート。双方を合わせた、より基礎研究に近い立場がQuantitative Researcherなのでしょう。


つまり、Data Scientist (Quantitative Analyst)はデータの対象を科学して、何がしかの意義ある結論を出そうとする人。データの扱い方とデータそのものを科学する方法論を知っていて、それらを活かしてデータの本質に迫ろうという人々です。


対してQuantitative Engineerはデータそのものを科学し実装する人。データの扱い方及びデータそのものを科学する方法論自体を編み出し、それを実装までこぎつけられるエキスパートですね。そして、どちらの立場からも科学し、ブレイクスルーを追究する人がQuantitative Researcherということです。


…と僕自身は思ってるんですが、「データサイエンティスト」と言った時に先ほどの3種類をごっちゃにしてしまう人が多いせいで、話がおかしくなってるケースがあるように思われるんですね。世の中の人のイメージの大半はQuantitative Engineerなのでは?


そもそも、様々なメディア記事を見る限り、データサイエンティストには「ビジネスに貢献し得る」という期待がかけられているわけです。ならば、その主役はビジネスからやや離れているQuantitative Engineerではなく、ビジネスの現場に最も近いData Scientist (Quantitative Analyst)そのものであろうと僕は思うのです。


もちろん、Quantitative Engineerがダメなんてことは全くありません。その高度なスキルセットを背景にした上でビジネスに強くコミットし、データが示唆する本質を追究するData Scientist (Quantitative Analyst)を兼ねれば、これこそ本物の鬼に金棒です。あえて言えば、それが世間で期待される「データサイエンティスト」像なのでしょう。


穿った見方をすると…


「それを言っちゃあおしめえよ」って言われそうですが、要するにこれって「ポジショントーク合戦」なんじゃないかなぁ、と。つまり、「ビジネスに役立つ分析ができる」「統計学機械学習ができる」のうち、どちらか片方だけができる(片方しかできない)人々の、ポジショントークという。


まぁ、僕もどちらかと言うと後者のクチなのでポジショントーク万々歳なんですが(笑)、実地に現場でやってると嫌でも両方とも必要になるので、そんなこと言ってられないというのが偽らざる本音です。少なくとも、今この場で面倒を見ている事業の全体像&ある程度のディテールも分からずに、データサイエンスミッションなんてできっこないんですから。


そういうわけで、特に調べたりすることもなく、何となく

  • HDFSに入ってるユーザー行動データのaction_type[0], action_type[1]...とかで機械学習アルゴリズム使って分類した結果が出せれば、後はマーケッターにでも任せりゃいいじゃん
  • もらってきたHiveクエリで合計値を1人単位まで洩らさず正確に集計さえできれば、データマイニングとか難しいこと考えなくてもUI導線をどう変えてDAU増やせるかなんて分かるじゃん

みたいなことを思ってる人は、今からでも遅くないので反対側にいる人たちが何をやっているか?を観察してみたらいいんじゃないかなー、と僕は思う次第です。視野も広がりますよー。


追記


僕自身はLinkedInプロフィールにはData Scientist / Quantitative Researcherと書いていますが、これはもちろん僕の出自=認知神経科学者を意識した自称です。


ビジネスの世界に移っても、データの本質を追究する研究者という自負は失わずに進歩し続けたいと願う次第です。


(※Data Scientistは語呂を合わせる意味でもQuantitative Analystと呼んでも良いのではないか、というご指摘を頂いたためいくつか加筆修正してあります)

*1:未だに「自称」です、念のため

*2:Quantitative Analystが良い対応語ではないか、というご指摘をTwitterで頂きました。確かにGoogleもAmazonもこれに該当する職をQuantitative Analystと称しているので妥当かも