(Image by Pixabay)
この国では未だに訳の分からない、何も実態を反映しない「データサイエンティスト論」がそこら中に流布されている模様ですが、そんな中Harvard Business Reviewにこんな素晴らしい記事が出ていたのを見つけたのでした。
その公式日本語記事が先日出たので、こちらの方が読みやすいかもしれません。
正直言って、この記事の本文をお読みいただければ特に何も付け加えることはありませんし、全く同じ内容の提言は異口同音に(それこそこのブログも含めて)この5年以上に渡って散々喧伝されてきたので今更繰り返すような話でもない気がしますが、個人的には非常に的を射た内容の記事だと感じたこともあり、自分の経験と合わせて少しまとめて解説してみようかと思います。
そもそもデータサイエンティストとは何者なのか(だったのか)
まず、2012年当時に他ならぬHBRが掲載した「データサイエンティストは21世紀で最もセクシーな仕事だ」記事の論調としては、僕が6年前に書いた解説記事の以下のパラグラフがよくまとまっているかと思います。
要は「基礎科学(定量的分野の)研究の研究者であれば基本的にはほぼ同じことをしてきたはずだから、ビジネスの現場におけるデータ分析にも向いているはずだ」ということなんですね。なので、これは微妙な言い方かもですが「元々サイエンティストだった人材がデータ分析業界に転じてくればそれはデータサイエンティストだ」ということなのでしょう。
つまり「サイエンティストがデータ分析に転じればデータサイエンティスト」だと言っているわけで、個人的な印象としてはHBRは今でもこの見解を崩していないように思われます。またかつて無能のボンクラながら研究者として食っていた我が身から見ても、この見解は普遍性高く本質を突いているように見受けられます。
一方、今年の初めに(特に日本における業界動向を踏まえて)書いた記事では僕は以下のように提唱しました。
HBR初めUS以下英語圏のメディアの論調としてはデータサイエンティストも機械学習エンジニアも一緒くたということが多いのですが、僕はあえてそこを分業させるべき(そして現実問題として分業が進んでいる)ということを強調したのでした。これに関しては今でも賛否両方の意見があるようですが、実態としては日本のみならず例えばシリコンバレーの状況を見ても分業が進んでいるように見えるので、自分としては的外れではないと思っています。
今回のHBR記事の提言
以上の背景を踏まえた上で、1〜2ページ目の以下のパラグラフを読むと極めて分かりやすいのではないかと思います。
データサイエンスは企業にとって、他社とは一線を画す革新的なケイパビリティを与えてくれる。だが、このような革新的なケイパビリティは、データサイエンティストが設計したり予測したりして生まれるというよりもむしろ、好奇心主導のティンカリング(試行錯誤)を通じて見出されるものである。
そこで、データサイエンスの流行に飛び乗る前に、その環境整備を検討したい。「自社の事業計画をデータサイエンスがいかに支援し実行するか」よりも、「想像もしいなかったことをデータサイエンティストが思いつくよう、権限を持たせる環境をいかに整えるか」に、より検討の時間を割くのである。
データサイエンティスト、それも特に優れた人材は、好奇心にあふれている。明確な目標に向けて仕事をし、特定の業績指標の達成に重点を置き、責任をもっている。
だが、(よい方向にではあるが)たやすく気の散る人たちでもある。仕事に取り組む過程で、データの探索中にさまざまなパターンや現象、例外に出くわし、これがデータサイエンティストの好奇心を駆り立てるのだ。
(原文ママ、太字筆者)
端的にまとめれば「データサイエンティストには好奇心ドリブンで動いてもらった方が良い」ということ。彼らの知的好奇心を尊重し、さらにはくすぐることで、データサイエンティストたちが自発的に「知的に面白く」「なおかつ事業に貢献する仕事をする」ように仕向ける、ということが重要だということを言っているわけです。もう一つ、この記事には重要な下りがあります。
データサイエンティストは説明できない現象を見つけ、直感を得て、ティンカリングを始める。彼らが探索する許可を求める必要がないのは、探索を実行に移したところで比較的低コストだからだ。許可を求めていたとしたら、幹部やステークホルダーはもしかしたら「ノー」と答えたかもしれない。
「低コストの探索」と「結果を測定する能力」という2つの要素により、データサイエンスは他の事業部門と一線を画している。
この下りの少し前に「データサイエンティストの試行錯誤(探索行動)は『データを調べ何度もモデリングや分析をして都度その精度を測る』というものなので、他部門(例えば生産部門やマーケティング部門)が何かモノや契約を実際に作り動かして試行錯誤するのに比べてコストがかからない」「データサイエンティストは自分たちが見つけた解に意味がありそうだと思ったらA/Bテストなどの効果測定を行うことでそれらを立証する」という趣旨のことが書かれています。これらが「低コストの探索」「結果を測定する能力」という2語にまとめられているのですが、言い方を変えればこれは「データサイエンスという試みのフットワークの軽さ」を表しているとも言えそうです。
古典的な各種業務領域(例えば営業・生産・経営企画など)に比べれば、試行錯誤をするにせよ、その結果の効果測定をするにせよ、データサイエンス部門はコストもかからず迅速に結論に到達することができる。それこそがデータサイエンス部門そしてデータサイエンティストの強みだ、と言っているわけです。こういう切り口の議論はあまり見ないので、個人的にはかなり新鮮だという印象を受けました。
勿論、データサイエンス部門単体ではプロダクト改善にせよビジネス改善にせよ完結させられないので、現実には他の事業部門と協働して形にして完結することが求められます。そのための他の事業部門とのコミュニケーションは不可欠であり、データサイエンス部門が孤高の存在であるかのように孤立するということはあり得ません。しかしながら、データサイエンス部門の優れた特徴を活かすためにある程度の特別扱いは必要だ、という議論はこれまでにも何度も出てきてはその度に消えていったものですが、こうして実際にデータサイエンスで成功を収めている企業の幹部が力説すると流石に説得力を感じますね。
こう言った議論を踏まえた上で、なおデータサイエンスを未だに導入していない企業・現場はどのようにしてそれらを導入するべきかという点について、この記事では以下の3項目を提言しています。
データサイエンスを独自の部門と位置づける
マーケティングや、製品、財務といった他の部署の配下に置いてはならない。代わりに、CEO直下の独自の部署としよう。
これに関しては、個人的にはpros & consのある話だと思っています。データサイエンス部門をCEO直下に置くことで自由度も裁量も高い環境のもとで優れた成果を出し続けている企業もあれば、CEOが失脚した際についでにデータサイエンス部門も坊主憎けりゃ袈裟まで憎いとばかりに冷遇されて事実上お取り潰しになった企業もあるので、難しいところではあります。ただし、CEO直下でなくとも「それぞれの部署の中で独自のチームと位置付ける」ことは非常に良いやり方だと思います。またここで提案されているように「独自の事業目標と責任を持たせる」ことも、ともすればただのサポートファンクションに陥りがちなデータサイエンス部門を、主役級の位置に引き上げる上では良い策でしょう。
データサイエンティストが自律して動くのに必要な技術リソースは、すべて与える
この節では若干の混乱が見られますが、端的に言えば「自由にクラウドを使わせる」ということであり、これには僕は完全に同意です。オンプレの開発体制のもとでインフラ・サーバーサイド・DBといった役割分担が乱立している環境よりは、データサイエンティスト単独でもある程度のところまでやれるようなクラウド開発環境を用意するべきだ、ということですね。そういう点で「フルスタック」(何でも出来る)という呼び方はまた違うのかなと思いました。
実際、例えばですがデータ分析の計算環境はCloud Compute Engine(と各種コンテナなど)で、データを貯める先はCloud Storageに、DWHにはBigQueryを、というようにクラウド環境を適宜割り振れば、プロダクトの本番環境を作るほどではなくともデータサイエンスの出番となるPoC / prototypeまでなら完結させられるはずです。そういうレベルの環境と裁量をデータサイエンティストに与えるべき、というのには全面的に同意します。
学習と実験を積み上げるプロセスを支える文化をつくる
これはすなわち、経験を通した学習や、あいまいさの許容、長期的リターンと短期的リターンのバランスといったことに対して、企業全体が共通の価値観を持つ必要がある、ということを意味する。このような価値観は、一人が持っていたところで活かしようがなく、組織全体で共有される必要がある。
僕は何度か色々なところで「データ・ドリブンなカルチャーがない現場ではデータサイエンスは機能しない」と言っていますが、同義の話だと思いました。これに関しては論を俟たないでしょう。言ってみれば「数字嫌いな社長」のもとではいつまで経ってもデータサイエンスは経営上の意思決定には関与できないわけで、うっかりすると経営者レベルからカルチャーを変えていなければならないということもあり得ます。それはこの次のパラグラフにも書かれていて、
ただ、即座に自社で実践する前に、覚悟しておきたいことがある。より従来型に近い企業で実施するのは、不可能とは言わないまでも、かなり困難である。スティッチ・フィックスのようなスタートアップ企業でも、もしデータサイエンスに自律性を創業時から与えていなければ、うまく機能していたか私にはわからない。
私はスティッチ・フィックスに6年半在籍し、幹部職に就いているが、データサイエンスを後から「導入する」必要はなかった。創業したときからデータサイエンスは存在していたため、データサイエンスに必要な仕事の方法は、私たちにとってより自然なものであったのだ。
身も蓋もない話をすると「創業時から一貫してデータサイエンスのカルチャーが社内に存在する会社でないとデータサイエンスを実践することは難しい」というわけです。これは僕も自分の体験や様々な見聞から、まさにその通りだと感じています。なので、後からデータサイエンスを自社に導入しようという企業は、うっかりすると会社を一度潰して新たに作り直すくらいの努力を要するかもしれません。真剣にデータサイエンスを自社に導入してその恩恵にあずかりたいという企業は、それこそ「自社をぶっこわす」ぐらいの意気込みで臨む必要があるのだと思います。
個人的な感想と提言
この記事自体については、僕自身も似たようなことを8年弱に渡る業界経験の中で感じてきたことをうまく言語化してくれたものである、と感じました。
その上でもう一段踏み込んでコメントすると、最初のブームから6年以上が経ち、ひと回りしてきて改めて思うのは、データサイエンティストというものはやはり「サイエンティスト」なのではないかと。即ち、好奇心の赴くままにデータの中から「面白いもの」を掘りまくって見出し、実験することによってその意義と再現性を実証し、有意義だと分かったらこれを定式化する。そしてそれが同時に「役に立つもの」でもあればさらに広く社会の目に触れるように表に出してきて、他部門と協働しながら役立つようにスケーラブルに仕上げる。これは科学研究における取り組み方とそこまで大きく変わる話ではありません。言ってみれば「科学的方法」そのものです。
そういう「サイエンティスト」が「サイエンス」をする、という試みを個々の現場そして企業が後押しすることによって、より大きなインパクトを個々の企業の事業やひいては社会に与えることが出来るようになる、というのがデータサイエンスという領域全体が目指すべき未来像であるべきだと思う次第です。
一方で、データサイエンティストという「職掌」に就く(あるいは就こうとする)人たちのキャリアパスは非常に多種多様で、必ずしも全員が「サイエンティスト」というわけではない、という点を考慮する必要があるようにも思われます。その意味では、これはかなり難しい相談かもしれませんが、データサイエンティストという職掌に就く人たちのために統計学や機械学習やプログラミングやデータ基盤技術や実験計画法についてトレーニングするだけでなく、「科学的方法」についてもトレーニングする必要がもしかしたらあるのかもしれない、という気がしています。
あとは、やはりこの手の議論で必ずつきまとう組織論でしょうか。この点については、正直に言えば経営学的な観点からのもっと普遍性の高い議論があっても良いと思っているのですが、8年弱という短い時間では断片的な経験則は集まるものの、なかなかそこまでの深い議論に発展しないということなのかもしれません。。。なのでもう少し時間が経って「経営」という観点からのデータが集まってから改めて突っ込んで考察してみたいと思います。