旧知のシバタアキラさん*1が、こんなインタビュー記事に登場されていて話題を呼んでいるのを拝見しました。日本の第一次データサイエンティスト(DS)ブームの最初期から一貫してDSとして活動し、それ以前はポスドク研究者だったという、僕個人にとってはあまりにも共通点の多い「同世代DS」のシバタさんのメッセージだけに、僕にとっては大いに首肯できるものがあります。
ただ、無駄を削いでエッセンスだけに絞られたメッセージになっているせいか、各所で付いている反応の数々を見ると「もしかしたら誤解されているのでは?」という印象を受けるものもチラホラ目についたのが気になりました。そこで、勝手ながらシバタさんのメッセージに合わせて、同世代DSとして僕も長年感じてきた課題意識を盛り込んだ注釈もしくは解説のようなものを書いてみようと思います。要はポエムですので、R/Pythonコードも数式も出てきませんよということで、予めご了承ください。
それからもう一点。ここでは「データサイエンティスト」「機械学習エンジニア」を、それぞれ「アナリストの延長」「エンジニアの延長」と分けた上での、データサイエンティスト単体の話題に絞っています。機械学習エンジニアの場合は以下の議論に当てはまらない点が多い旨最初に指摘しておきます。そして、以下データサイエンティストは文脈上差し支えない場面では適宜「DS」と略すこととします。
- 「課題解決」が出来なければ、仏作って魂入らず
- 「技術」がなければ、魂あれども仏無し
- 「期待されたDSが活躍できず干される」は都市伝説ではない
- どれほど困難に見えても「スーパーマン」を理想像として目指し続けるべき
- 余談
(Image by Gerd Altmann from Pixabay)
「課題解決」が出来なければ、仏作って魂入らず
シバタさんのインタビュー記事には、以下のようなことが書かれています。
—— 「データサイエンティストとして求められる能力」とは、どのようなものなのでしょうか。
シバタ:まず、何より重要なのが、課題発見能力。サイエンスでも、ビジネスでも、データサイエンティストが真っ先にやるべきは課題発見です。
ビジネスにおいて、利益に多大なインパクトを与える課題の発見は、非常に重要です。ここでいうビジネスパーソンとしてのデータサイエンティストとは、企業に蓄積されたデータを活用し、価値を生み出す人です。課題発見能力なくして、それは実現しません。
この「サイエンスでも、ビジネスでも」というくだりには、まさに我が意を得たりという印象を受けました。と言うのは、別のところで「もともとデータサイエンスは、サイエンスのために生み出された技術」と指摘されているように、DSというのは最初期においては「元々サイエンティストだった人がビジネスの世界に転じて、サイエンスのために使っていた技術をビジネスのために使うようになった人」だったからです。
この辺の事情はあまりにも有名な2012年のダベンポートによるHBR論説でも触れられている通りで、本来は「元々サイエンティストだった人材が産業界のデータ分析業界に転じてくればそれはデータサイエンティスト」だったのです。言い換えると「関心事として解くべきリサーチクエスチョンが先にあり、それを解くための手段としてデータサイエンスを使う」ということに慣れていた人たちが、最初期のDSでした。DSという概念はその頃から現在に至るまで一貫して「産業界に属するもの」と見做されており、同時に「ビジネス上の課題を発見し、これを解く人々」と捉えられていました。
実際、僕自身もしがないポスドクながら研究者(サイエンティスト)だったことがあるので分かるのですが、サイエンスというのは「解くべきリサーチクエスチョン」を立てるところからして既に難題であるケースがままあります。それどころか、「このリサーチクエスチョンを解けばサイエンスが大きく進歩する」というそのクエスチョンを探し当てられたらその時点で大成功ということすらあるのが、サイエンスの世界です。そういう「課題発見&解決」という営みに習熟しているという意味でも、元々サイエンティストだった人々にとってはDSというのは天職たり得る職業だったのではないかと思います。
しかし、時代が降るにつれてその流れは少数派となり、代わって最初からデータサイエンス(そして統計学や機械学習)そのものを大学・大学院で学んできて新卒で就職してきたり、はたまた産業界の別の職種から独学や専門スクールでの研修などを経て転職してくるなどして、サイエンティストとしての経歴無しにDSという肩書きの仕事に就く人が増えてきたのです。これは、ある意味「解くべきクエスチョン」が明確にない状態で先に「解くための手段」を身につけたDSたちが増えたという話でもあります。
それにより、良くも悪くもDSという仕事に対して「技術的な面白さ」「方法論の高尚さや深遠さ」だけを追求する人が増え、結果として「技術的に面白い仕事しかしたくない」というDSも増えていった……というのが、僕の9年間に渡るDS業界経験から感じ取っている印象です。しかし、それはDSという職種全体の産業界への定着ないしサバイバルのためにはマイナスです。この点について、記事中ではさらに以下のように指摘されています。
—— テクノロジーに精通しているだけでは、データサイエンティストにはなれないと。
シバタ:その通りです。むしろデータサイエンティストとして活躍するには、事業課題解決における当事者意識といった、ソフトスキルすら求められます。
私が採用面接をする際は、データサイエンスを通じて、事業にインパクトを生み出した経験があるのかを確認します。そうした経験がない人はむしろ多数ですが、弊社では採用しません。
データサイエンスを通じて事業成長に貢献した経験がない人は、「データの力を本気で信じていない」と感じるからです。「本当に役に立つものなのか」と、データサイエンティスト自身がその価値に懐疑的では、事業インパクトを達成することはできません。
(太字下線筆者)
DS業界には、結構な長きに渡って*2「データサイエンスなんてものは所詮知的好奇心を満たすためのものであって、ビジネスに明確に貢献できるようなものではない」と自嘲するような雰囲気がありました。「すぐにはビジネスに貢献できないのだから、長期的視点から投資して欲しい」という意見も根強くあったように思います。
ところが、それはともすれば「データサイエンスが本当にビジネスの役に立つとは思っていない」ということであり、DS当人たちがそう思っているだけならともかく、うっかりするとその懐疑的姿勢を外側の人たち*3に悟られるということにも繋がってしまいます。ただでさえ、DSという仕事は未だに外側からは「高給取りなのにイマイチ役に立つかどうか良く分からない」と懐疑的に見られることが少なくない*4わけで、そこでDS当人たちが「自分たちでも役に立つとは思っていません」と告白してしまったらどうなるかは、論を俟たないでしょう(その末路については後述)。
「DSである以上はデータサイエンスを社会実装しなければならない」という話を以前書いたわけですが、ここでの議論もこれと方向性は同じです。即ち「DSである以上は課題を発見&解決できなければ存在意義が問われる」のであり、DSとしてやっていくためには「ビジネス上の課題を解決しなければならない」のです*5。それは、産業界で働くDSにとっての大前提であり、課題を解決しない(できない)DSというのはまさに「仏作って魂入れず」なのです。
「技術」がなければ、魂あれども仏無し
各所でこのインタビュー記事への反応を見る限りでは、どうも先述したようなシバタさんの指摘に呼応して「そうだそうだ、DSである以上は当事者意識と課題解決力が技術力よりも重要だ」という声が結構少なくないようです。実際、この記事のトップ画像には「技術力よりも当事者意識」と大書されているので、読んだ人の中には「技術力<当事者意識(課題解決力)」というメッセージだと受け取った人が相当数いるのではないかと思っています。しかしながら、インタビュー中ではこうも説かれています。
大前提として、プログラミングができることも必要です。最近では、データサイエンスの中核的な技術であるPythonに習熟していることが求められます。そのうえで、データベースを操作するためのSQLなどのスキルも必要でしょう。
Pythonだけが挙がっていてRが挙げられていないのはR/Python両方のユーザーとしてはちょっとだけ不満ですが(笑)、技術力に関しても「大前提」という強い語が使われていることに注意が必要です。
4年前の記事でも指摘したことですが、2013-14年頃の第一次DSブームでも同じような誤解が蔓延った結果として「なんちゃってDS」が大量に発生し、DS業界全体の評判を下げてしまう結果になっています。つまり「DSは技術力云々以前にビジネス課題を解決できなければならない=ビジネス課題さえ解決できるならDSと名乗ってヨシ!」*6という主客転倒した風潮が広まったことで、プログラミングも出来なければDBも触れない代わりにExcelや既存のデータ分析ツールをマウスでぽちぽちクリックして、門外漢にはいかにもそれっぽく見える低レベルなアウトプットを出すという程度なのに、DSと名乗って時代の最先端を行っているかのような顔をしていたビジネスパーソンたちが少なからず目についたものです。
では何故DSは統計学や機械学習に通じていなければならないのか? これには様々な説明が可能ですが、僕個人は「多変量を扱う非直感的なデータ分析が出来ることが重要だから」だと考えています。上記の過去記事でも論じていますが、ヒトが直感に基づいて表計算レベルで扱えるのは一般には単変量、即ち1対1の変数同士の関係性までです。どれほど頑張っても1対2とか1対1対1とか、せいぜい三次元が限界でしょう*7。しかしながら、この地上に溢れるデータの多くはそんな単純なものではありません。定番のWine Qualityデータセットですら11個もの共変量があり、しかもそれらの間には偏相関のような面倒な関係性も紛れ込んでいます。これを、素人でも扱えるような表計算レベルの分析で理解しようとするのには限界があります。
そんな問題も、多変量を扱える統計学や機械学習の各種モデリング手法を使えば、かなりシンプルな関係性に落とし込んで理解できる上に、未知データに対する予測のようなことまで出来るわけです。統計学や機械学習を初めとするデータサイエンスを適切に学べば、せいぜい直感で分かる範囲のことしか扱えない表計算レベルの分析よりも、遥かに広く深い分析を行うことが出来るようになるのです。これに、DBやSQLなどデータ基盤に関わる技術も身に付ければ鬼に金棒でしょう。
よって「課題解決できる」ことも大事ですが、「技術」もまた等しく重要なのです。ビジネス課題解決に長じていても技術力のないDSは、いわば魂あれども仏無しと言っても過言ではないでしょう。
「期待されたDSが活躍できず干される」は都市伝説ではない
今回のインタビュー記事を読まれた方の中には、以下のくだりを見てギョッとした人がいるかもしれません。
とはいえ、給与の高いデータサイエンティストを使いこなせていない企業が大半なのも事実です。
みなさんが日常的に利用するサービスを展開する有名企業の中には、「採用ブームに乗っかって青田買いをしたものの、利益につなげることができずに大量解雇する」という事態に陥っている企業もあります。
この辺の事情は僕も時々「DS業界与太話」として言及することもあるのですが、一方で「都市伝説だ」「嘘をつくな」「クビなんてあるわけないだろう」などと頭ごなしに否定されることも結構あったりします。
しかしながら、第一次DSブームの頃からの古参としてはこの手の話題は珍しいものではありません。最近はコロナ禍もあって特にUSでは誰もが知る有名企業のDSの大量レイオフやDS部門解散といった話が出ていますが、それ以前のしかも日本国内であっても、大量解雇とは言わずとも*8「DS部門がお取り潰しになって無関係の部署への配置転換を嫌ったDSが全員退職」という話を聞いたのは一度や二度ではありません*9。中には、一度DS部門をお取り潰しにした後で、何食わぬ顔で「改めてDS募集を始めました」という求人広告を打っている有名大企業もあったりします。
しかも、そういうケースの多くに当てはまるのが、伝聞の範囲ではありますが「DSに期待していたにもかかわらず思うような成果が出なかったので損切りとしてお取り潰しにした」という帰結。これは本当に多いです。マネジメント側から「DSの側にビジネス課題の解決に貢献しようという意欲がない」「DSが研究開発ばかりしていて実務的なデータ分析をやらない」といった不満が出るケースが多かったと伝え聞きます。技術のないDSも大概ですが、課題解決をしない(する気がない)DSの末路も決して明るいものではないのです。
どれほど困難に見えても「スーパーマン」を理想像として目指し続けるべき
かつて第一次DSブームの頃は、ダベンポートのHBR論説記事を真に受けて「DSはデータサイエンス・データエンジニアリング・ビジネス貢献の全てをオールマイティにこなせるスーパーマンであるべき」という主張が広く流行ったものでした。その一方で「そんなユニコーンのような稀少種がこの地上にいるわけがない」と実務家たちから侮られ、DSなんてものは空想の産物であると謗られた時期もありました。その後、折衷案として「3つそれぞれの専門を複数人で分担して『チームプレー』型のオールマイティーなDSチームを作れば良い」という主張が出てくるようになり、最近では「チーム分担型DS」が当たり前になりつつあるように見受けられます。
しかしながら、僕個人の観測としては冒頭にも述べたように「データサイエンティスト」と「機械学習エンジニア」とが分化するに伴い、後者が「エンジニアの延長」としてより学術技術的にピュアな方向に向かう一方で、前者は「アナリストの延長」としてよりプラグマティックな方向に向かうようになったと見ています。即ち、DSはよりビジネスの課題解決の現場に近いところを歩む存在に再び向かいつつあるということです。
その意味では、今後のDSは改めて「技術」も「(ビジネス上の)課題解決」も完璧ではないにせよある程度以上は等しく担えるような、スーパーマンとまでは言わずともオールラウンダーとして振る舞えることが求められる存在になるのではないかと思っています。特に、近年はデータ関連職の細分化が進んだことで、むしろ以前よりも「データ分析という営みの全体像」を俯瞰しマネジメントすることが難しくなっています。そんな中にあって、守備範囲の広いDSは文字通りデータ分析の司令塔としての役割を期待されることが増えていくのではないかと予想しています。しかし、「博学の薄学」ではどれほど守備範囲が広くてもDSとしては力量不足でしょう。
故に、今後のDSは「理想像としてはデータ関連スキル全てにオールマイティなスーパーマンを目指す」べきで、その姿勢があってこそある程度以上「技術」にも「課題解決」にも長けた優れたデータ分析プロジェクトの司令塔たり得るのではないか、と個人的には考えています。そして、そういう優れたDSばかりになれば、DS業界は今後も社会と産業界からの期待に応えられ続け、また繁栄し続けられるのではないでしょうか。
余談
ところで、記事にこんなことが書かれているのに気付きました。
日本を代表するデータサイエンティストの尾崎隆さんは、データサイエンティストは「アナリストの仕事に統計学や機械学習を持ち込んだもの」であり、アナリストの仕事を「統計分析や機械学習によってさらにブーストさせる」仕事だと、ご自身のブログで語られています。私も、全くの同意見です。
引用していただいた僕の持論は全くもってその通りなのですが、それよりも何よりも僕は日本を代表できるようなデータサイエンティストなどでは断じてございません……せいぜいが「日本を代表するデータ老害おじさん」といったところでしょうか(笑)。お粗末様でした。
*1:DataRobot Japanの代表にもなられて、おそらく同世代DSの中では一番の出世頭でいらっしゃるのではと個人的には思っています
*2:それどころかうっかりすると現在でも
*3:つまりエンジニア職やビジネス職、さらには役員などのエグゼクティブ職など
*4:高給取り故のやっかみや妬みも相まって
*5:さらにテクニカルな話をすると、課題解決したらその成功事例をアピールすることも必要になってくる
*7:ヒトは三次元空間で生きているので明示的に理解できるのは三次元まで、と個人的には考えています
*8:USでも実は同様ながら、日本の場合はさらに整理解雇の四要件があるのでそうそう簡単にはクビを切れない
*9:勿論具体的な社名など出せるはずもありません