六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

Thomas H. Davenportのデータサイエンティストに関するHarvard Business Reviewの記事を改めて読んでみる

今やデータサイエンティスト論の「古典」となりつつあるThomas H. DavenportのHarvard Business Review掲載記事ですが。


現在は有料記事になっているものの、実はHBR web版に無料会員登録をすると月4本まで無料で読めるということでこの記事も全文を読むことができます。ということで、せっかくなのでこの機会にちょっと読んでみようと思います。


あ、公式の日本語版があるのは知ってますが、有料の紙媒体しかないので今回は触れません。公式訳から見てあまりにも拙訳が間違ってる場合はご指摘ください。。。


ざっくりとしたまとめ


結構長い文章なので、書評の時と同じようにちょっとざっくりまとめてみようと思います。基本的には色々事例を引きながらだらだら書くタイプの論説記事*1なので、素のままで読むとだるいかも。

  • まず、LinkedInのJonathan Goldmanの話から始めよう。彼はスタンフォードで物理学のPh.D.を取った後、LinkedInのサイト改善データ分析に従事。最初は社内でもなかなか存在感を発揮できなかったが、当時のCEOに見出されて徐々にそのデータ分析の力量を発揮するようになった。
  • Goldmanは「データサイエンティスト」の典型。ビッグデータから何かを探し出すことが求められる時代の寵児。「データサイエンティスト」という名前は2008年ぐらいからようやく登場したものだが、今やどこの企業からも引っ張りだこで供給が需要に追い付かない。
  • そもそも「データサイエンティスト」とは何者なのか。その要件は多岐に渡るが…
    • ビジネスに貢献し、
    • データの海を泳げるだけのセンスがあり、
    • データ分析手法の限界を熟知し、必要とあらば新たな手法やツールを開発し、
    • データの可視化も得意とし、
    • 何よりもコードが書ける、
    • その上でビジネスパーソンとのコミュニケーションにも長けている。
  • そんな要件を満たす人間はこれまでのビジネスシーンにはなかなかいないが、定量的研究分野の研究者には少なからずいる。「サイエンティスト」という名前がマッチする理由もだんだんわかってくるだろう。
  • ただし最も重視されるのは何だかんだでビジネスの現場でうまく振る舞える能力。優れたビジネスパーソンを獲得した上で、データ分析スキルを教え込むことにした企業もある。データサイエンティスト養成コースも急増している。
  • データサイエンティストを惹き付ける要素は何か。高い給料を求めるのは当たり前。一方で単なるアドバイスをし続けるよりも何かを作りたいという人も多い。そして何よりも、彼らの多くはルーチンワークをこなすことよりもイノベーションを引き起こす新しい何かにトライすることに価値を見出す。
  • データサイエンティストは求められるものが大きいほどさらなる努力を惜しまないメンタリティの持ち主が多い。多くを期待し、さらなる能力を引き出すべき。そういう彼らの成長をサポートするために、カンファレンスやセミナーへの参加を積極的に認めることも必要だ。
  • このように、データサイエンティストはデータと情報が拡大し続ける向こう10年間における、最もホットなポジションだ。彼らをうまく使いこなせない企業は、いずれライバルの後塵を拝する。ビッグデータの時代の波を捕まえたいのなら、その波に乗れる彼らが必要なのだ。


ドキュメンタリー的な文章なので、まとめにくいったらありゃしない。。。それでもこのDavenportの論説を読むと、ベイエリア界隈でのここ数年のデータ分析の実際が色々と読み取れるので*2、それだけでもなかなか面白いのではないかと思います。


この当時の論調は「データサイエンティスト=スーパーマン」だった


改めて読んでみて思ったのは、あまりにもデータサイエンティストに多くのものを求めすぎてるなー、という印象でした。だって、「ビジネスのことも分かって統計学機械学習のことも分かってコードも書けてDBも扱えてデータの可視化にも長けていて」って、そんだけ何もかも出来るとかお前誰やねん!みたいな。


ただ、LinkedInのデータサイエンティストであるJonathan Goldmanの事例を見ても分かるように、データサイエンティストというポジションが登場して間もない黎明期のうちは、まだその存在意義が世に知られていないどころか雇っている企業からも理解されておらず*3、存在意義を証明するために自ら立ち回って何でもやり、目に見える成果を出してみせなければいけなかったのでしょう。


とは言え、そのような黎明期は既に過ぎ去ったと僕個人は見ています。ハイプ・サイクルでいうところの流行期も過ぎ去ろうとしていて、今や目の前に幻滅期が見えてきている状況です。そういう状況においては、より現実的なソリューションが模索されることでしょうし、実際そうなっていると見聞している範囲では感じます。


その意味では去年の秋~今年の初めぐらいに流行った「データサイエンティスト三位一体説」*4も陳腐化し、今のところは僕の見立てでは「アルゴリズム実装系vs.アドホック分析系」という軸でのデータ分析人材の導入が、低強度*5で進んでいるといったところかと。その辺の詳細はこの辺の過去記事にて。


今のところはどこの現場でもこの方向性で半年ぐらい来てる印象ですが、向こう1年となると分からないですね。ましてや5年後とかになったら全く想像がつかないです。。。


何故データ「サイエンティスト」なのか


ところで、最近よく聞く声として「データサイエンティストは『サイエンス』なんてしていないのに何故『サイエンティスト』と称されるのか?」というものがあります。これは実は僕も以前からちょっと疑問に思っていたポイントです。「科学的手法に基づいてデータ分析する」からと言って、全員が科学者になるわけではなかろうと。id:dscaさんも突っ込んでいらっしゃいましたね。


この点について、Davenportの原文には以下のように書いてあります。

Perhaps it's becoming clear why the word "scientist" fits this emerging role. Experimental physicists, for example, also have to design equipment, gather data, conduct multiple experiments, and communicate their results. Thus, companies looking for people who can work with complex data have had good luck recruiting among those with educational and work backgrounds in the physical or social sciences. Some of the best and brightest data scientists are PhDs in esoteric fields like ecology and systems biology. George Roumeliotis, the head of a data science team at Intuit in Silicon Valley, holds a doctorate in astrophysics. A little less surprisingly, many of the data scientists working in business today were formally trained in computer science, math, or economics. They can emerge from any field that has a strong data and computational focus.


おそらく、「サイエンティスト」という語がこの新しい職種にフィットする理由は段々明らかになってくるだろう。例えば、実験物理学者であっても実験装置をデザインし、データを集め、多くの実験を実施し、その結果を分かりやすく大勢に伝えなければならない。これまでも、複雑なデータを扱えるような人材を探す企業は、そうした物理学・社会科学といった学歴及び研究歴をバックグラウンドとして持つ人材を採用してきた。実際、トップレベルのデータサイエンティストはたいてい生態学やシステム生物学と言った深遠な研究分野のPh.D.ばかりだ。他にも例えば、シリコンバレーIntuit社でデータサイエンス・チームの責任者を務めるGeorge Roumeliotisは、天体物理学で博士号を取得している。大して驚くようなことではないが、ビジネスの現場で働くデータサイエンティストの多くは計算機科学、数学、経済学などでもきちんとした教育を受けている。彼らデータサイエンティストは、データとその分析に強くフォーカスする分野であればどの研究分野からでもやってくるものなのだ。

(筆者による意訳:原文の太字・イタリック体は筆者)


ここでは実験物理学者が引き合いに出されていますが、要は「基礎科学(定量的分野の)研究の研究者であれば基本的にはほぼ同じことをしてきたはずだから、ビジネスの現場におけるデータ分析にも向いているはずだ」ということなんですね。


なので、これは微妙な言い方かもですが「元々サイエンティストだった人材がデータ分析業界に転じてくればそれはデータサイエンティストだ」ということなのでしょう。言い方を変えると、

「サイエンティスト⇒データ分析者⇒データサイエンティスト」

は成立するが

「データ分析者⇒データサイエンティスト⇒サイエンティスト」

は必ずしも成立しない


のだと思われます。これはある意味データ「サイエンティスト」の門戸を狭める言説だと言えなくもないのですが、少なくともこのDavenportの記事が出た当時はそういう定量的研究分野出身の研究者が一種のデータサイエンティスト候補のモデルケースとして語られていたということなのでしょう。


ちなみに僕もボンクラとは言え一応実験科学の研究者だったことがありまして*6、Davenportが指摘したようなことは一通り何度か自分でやった経験があります*7。つまり、

  1. 背景となる知識・情報を集めて吟味し、
  2. 真偽を検証すべき仮説とその検証のための分析手法を定め、
  3. 適切に条件統制された実験計画を立て、
  4. 計画に沿ってデータを計測・取得し、
  5. 事前に定めた分析手法に合うようにデータを前処理し、
  6. 仮説が検証できるレベルまでデータ分析を行い、
  7. データ分析結果から仮説検証の如何を考察し、
  8. 仮説検証の結果を受け手に分かりやすい形で公開する。


という一連のプロセスですね。現実にはここまで理想的な形で研究プロジェクトが最初から最後まで走ることは多くないと思うんですが*8、実験科学の研究者ならまぁ大体この流れを常にイメージしながらやるものなんじゃないでしょうか。


Davenportはほぼ同じ流れでデータ分析のプロセスが走ることをイメージして、上記のようなことを書いたのだと思われます。実際に、そういう流れのもと作られたのが例えば以前の記事で紹介した「6週間で定量的研究分野の博士たちをデータサイエンティストに生まれ変わらせる」プログラムなのでしょう。


ともあれ、「サイエンティストがデータ分析に転じればデータサイエンティスト」だということはこれで分かりました。なので、そういう人はデータサイエンティストと名乗れば良いし、そうでない人は色々お好きに他の肩書きを名乗ればいいんじゃないでしょーか*9


別に肩書きが違うからと言って、仕事の中身が変わるとも思えないので。。。とは言えエンジニア仕事べったりになればそんなサイエンスとか綺麗事言ってられっかコノヤローみたいなことにもなるし。。。ということでお後がよろしいようで。

*1:こういうエッセーを英文で読むのはそもそもしんどい

*2:Zyngaの話なんかも出てきます

*3:最初の頃は何を言ってもガン無視されたという話が出てくる

*4:某B社さんが提唱されていたやつですね

*5:採用ペースは減速してると思います

*6:大昔某誌に出したらFriston閥にめちゃくちゃなロジックでボコボコに蹴っ飛ばされてrejectされ、別の雑誌に出したらValdes-Sosaから大絶賛のコメントが来て一発acceptとかあったな。。。ああいう学説派閥同士の綱引きはマジ勘弁

*7:でも所詮「つもり」だろというツッコミはご勘弁を。。。

*8:あまり色々書くと問題が多いのでここでは深入りしません(苦笑)

*9:もちろん元サイエンティストであっても「データサイエンティスト」の肩書きが嫌な人はお好きに名乗ればよろしいかと