渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

似非データサイエンスと似非データサイエンティストを斬る(海外記事紹介)


ちょっと前の記事で恐縮なんですが、物凄く面白いネタを見つけたので紹介します。Forbes本誌が選ぶ「最も影響あるビッグデータ専門家トップ20人」にもリストされている、Ph.D. Data ScientistのVincent Granvilleが、自ら主宰するデータサイエンスのポータルサイト"AnalyticBridge"に寄稿したものです。


題して「似非データサイエンス」。その内容なんですが、もうはっきり言って出だしから超クソミソに叩いてますwww

Books, certificates and graduate degrees in data science are spreading like mushrooms after the rain.


Unfortunately, many are just a mirage: some old guys taking advantage of the new paradigm to quickly re-package some very old material (statistics, R programming) with the new label: data science.


To add to the confusion, executives, decision makers building a new team of data scientists sometimes don't know exactly what they are looking for, ending up hiring pure tech geeks, computer scientists, or people lacking proper experience. The problem is compounded by HR who do not know better, producing job ads which always contain the same keywords: Java, Python, Map Reduce, R, NoSQL. As if a data scientist was a mix of these skills.


(拙訳)
雨後の筍のごとく、データサイエンスに関する書物・資格・学位が続々と新しく登場している。


残念ながら、大半はただのまやかしだ。前々から業界にいる古い連中が、単に前々からある古いもの(統計学やRといった)をチャチャッとパッケージし直して、「データサイエンス」という新しいラベルを貼るのが上手いというだけに過ぎない。


しかもなお混迷を深めているのが、データサイエンティストを擁する新部門を立ち上げようとしている企業の経営層たちが、往々にして実際には何を求めているのかを理解していないということだ。そこで結局、単なるギークなり、計算機科学者なり、ともかく適切な経験を欠いた不適格な人々を雇う結果になっている。また、それらの点を理解していない人事部門にも責任の一端がある。求人広告に、いつもありきたりの同じキーワードを並べてしまうからだ。即ち、Java, Python, MapReduce, R, NoSQLなどなど・・・あたかもデータサイエンティストが、それらのスキルをミックスしたものであるかのように。

かなーり辛辣ですねw 別のところに書かれていますが、現代におけるデータサイエンティスト(Data Scientist / Quantitative Analyst)というのは、そもそも色々な意味で従来型のデータマイニングのスペシャリストとは異なる部分が多いだから、両者をごっちゃにしてはいけないというのがGravilleの主張です。


もうちょっとはっきり書くと、「データサイエンティストと称するからにはビジネスにコミットできなければいけない」ということ*1。この点について、Granvilleはデータサイエンティストの要件として以下の各項目を挙げています。

  • business acumen
  • real big data expertise
  • ability to sense the data
  • distrust models
  • knows about the curse of big data
  • ability to communicate, understand which problems management is trying to solve
  • ability to correctly assess lift or ROI on the salary paid to you
  • ability to quickly identify a simple, robust, scalable solution to a problem
  • being able to convince and drive management in the right direction, sometimes against their will, for the benefit of the company, its users and shareholders
  • a real passion for analytics
  • real applied experience with success stories
  • data architecture knowledge
  • data gathering and cleaning skills


(拙訳)

  • ビジネス面での洞察力
  • 実際にビッグデータを扱えるだけの専門性
  • データそのものを肌感で扱える感覚
  • 従来モデルを疑ってかかれる
  • 「ビッグデータの呪い」を理解している
  • チームとして解決すべき問題がどれであるかを聞き出し、理解できる能力
  • 自分の給料の投資利益率(費用対効果)を正しく評価できる能力
  • ある問題に対するシンプル、ロバストかつスケーラブルなソリューションを迅速に決定できる能力
  • 会社、ユーザーそして株主の理系のために、たとえ意に反してでもチームを説得し正しい方向に導くことができる
  • アナリティクスそのものへの情熱
  • 成功体験
  • データアーキテクチャの知識
  • データ収集とクレンジングのスキル


何か適当なこと書いてるなコイツ、と思いましたが黙っておきます。笑 ただ、Granvilleが言いたかったのは「データサイエンティストと名乗るのならば、機械学習統計学データマイニングの知識に加えて、これらのビジネススキルを兼ね備えているべき」だということなんですね。


理由は簡単で、大学・研究所や企業のエンジニア部門の中に収まっているデータマイニングスペシャリストとは異なり、データサイエンティストは往々にして企業の戦略を左右するようなビジネス部門に入ることになることが多いからだと思われます。なればこそ、のこういう提言かと。


ちなみに、本文のこの後には似非の例が2つ挙がっていて、曰く「データサイエンス入門と称するeBook」「データサイエンスの資格認定講座」が槍玉に挙げられています。僕のこのブログも槍玉に挙げられないように気をつけなきゃですねw


なお、似たような趣旨の記事としてこんなものも見つけました。


これも最高級に面白いです。もうセクション見出しからしてナイスです。

  • Even web giants like Facebook and Yahoo generally aren't dealing with big data, and the application of Google-style tools is inappropriate.
  • Big data has become a synonym for "data analysis," which is confusing and counter-productive.
  • Supersizing your data is going to cost you and may yield very little.
  • In some cases, big data is as likely to confuse as it is to enlighten.
  • So what's better — big data or small?


(拙訳)

  • FacebookやYahoo!のようなweb業界の巨人たちですら「ビッグデータ」なんて扱ってないし、Google的なツールを導入するのは不適切だ。
  • ビッグデータという言葉は「データ分析」の類義語になりつつある。それは混乱の元になるし、反生産的ですらある。
  • データを肥大化させるのにはコストがかかる挙句、多分大して利益にならない。
  • 場合によっては、ビッグデータというのは啓蒙すればするほど混乱のもとになる。
  • で、何がいいの?ビッグデータ?スモールデータ


いやー、もう斬りまくってますねwww ちなみに内容はMicrosoft Researchの報告書などを引用して、Facebook / Yahoo!などの有名グローバルIT企業の実態を踏まえながら書かれていますので、それなりにちゃんとしたものだと感じました。この記事の結論はものすごーくシンプルで、

Remember: Gregor Mendel uncovered the secrets of genetic inheritance with just enough data to fill a notebook. The important thing is gathering the right data, not gathering some arbitrary quantity of it.


(拙訳)
思い出して欲しい:あのグレゴール・メンデル*2ですら、ノートを1冊埋める程度のデータから遺伝の法則の秘密を解き明かしたということを。大事なことは「正しい」データを集めることであって、大量のデータを集めることではないのだ。


言い換えると、ビジネスの意思決定のために必要な「正しい」(適切な精度・規模・種類の)データを集めることこそが、重要なのだということ。そして、それがまさにデータサイエンティスト(Data Scientist / Quantitative Analyst)に求められる資質・能力なのかな、と思った次第です。


原文を読むともっと色々面白いことが書いてありますので*3、興味のある方は「英語だから」と面倒臭がらずにぜひお読みあれ。もっとも、どちらかというと床屋政談みたいな内容ですが。。。


(※「ビッグデータの呪い」についてもそのうち書きます)


(※※id:dscaさんのブログ記事「いずれデータサイエンティストの陥るキャリア・プラトー現象」にて言及いただきました。物凄く面白く、しかもためになる記事でお薦めです)

*1:もっともこういう曖昧なことを言うからバズワード化してるんだろ、とも思いますが

*2:「メンデルの法則」のメンデルです。ただし彼のデータはほぼ確実に改竄であったと言われているという罠(笑)

*3:例えば「計算機科学とデータ構造の知識があっても、それはデータサイエンスの3分の1をカバーするに過ぎない」とか