渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

何故データサイエンスは魅力を失いつつあるのか

f:id:TJO:20200609152833p:plain
(Image by Pixabay)

こんな記事が、しばらく前に我らが盟主タカヤナギ=サンによって言及されていました。


Why Is Data Science Losing Its Charm?

データ分析業界の中の人という立場から見れば、ここで言われている主張については分からないこともありません。ただ、同意できる部分もあれば同意できない部分もあり、また「見かけ上はこうだが内情としては別にこうなっている」という部分もあるので、改めて個人的にこの記事を取り上げて論評し、その上で感想などをつらつら書いてみようと思います。ということで、僕個人が及ぶ範囲の見聞と経験に基づいて書く与太記事である旨予めご了承ください。

記事の概要


全文をまるまる翻訳するのは控えることとして、個々のセクションの内容の概要だけ以下に簡潔に記しておきます。

1. People are not able to start their careers in this field(新規参入しづらい)


これは以前このブログでも書いた話題で、要は「経験者優遇」がキツいので(例えば)大学を出たての若い人が参入しにくい、ということです。

日本でも同様の事態は起きていて、洋の東西を問わず問題視されているのだなということが分かりますね。

2. People aren’t aware of the difference between Data Analyst, Business Analyst and Data Scientist(各種アナリストとの違いが分からない)


個人的な印象では、これはUS以下諸外国では顕著な話のように思われます。「データサイエンティスト」が欲しいといって雇ってみたら、実は本当に必要だったのはビジネスアナリスト*1だったので、スキルのミスマッチが発生して困ってしまった。。。みたいな話です。

3. People find Data Science too easy(DSなんて簡単だと思われている)


「ちょっとPythonとそのパッケージの使い方さえ覚えればDSで仕事するなんて簡単」という安直な認識の人が増えている、という嘆き節です。これは日本でも最近見かけるようになった風潮だと個人的には思います。基礎となる数学のある程度の知識や前処理のスキルなどが必要だ、ということが無視される傾向にあるというのは海の向こうでも同じ状況のようです。

4. AutoML is making the road to landing a job even tougher(AutoMLが職を脅かしつつある)


これは僕自身も散々書いていることですが、AutoML技術の進歩で「モデリング『だけ』が取り柄のデータサイエンティストor機械学習エンジニア」の居場所が減りつつあるという指摘です。この状況下では、モデリングがやりたいのであって前処理なんかやりたくない!という人たちは離れていくのでは?という懸念が語られています。


個人的な観測を踏まえた読後感


先に全体の結論だけ書いておきます。冒頭の記事で語られている問題のほぼ全ては「データサイエンス*2が単なるバズワードとして消費されるだけの空虚なブームに未だに晒され続けている」ことに起因すると言って良いでしょう。以下にその理由を僕自身の見聞や体験を踏まえて述べます。

DSが「高給を稼ぐ手段」とみなされている


僕の記憶が間違っていなければ、2013年頃に日本でも始まった第一次データサイエンティストブームでは、「21世紀で最もセクシーな仕事」というあまりにも有名な台詞が象徴するようにどちらかというと「新しい時代の新しい仕事」として持て囃されていたように思います*3。ところが、2016年以降の人工知能ブームに煽られて始まった直近の第二次ブームでは、どういうわけか「高給*4を稼げる仕事」としての人気が出てしまっているように見えます。これは極めていびつな状況です。



察するに、こんな感じの各種ビジネス系メディアによって「DS人材高給取り」だと煽るような報道が多くなされるのも一因なのではないでしょうか。僕の観測範囲では「高給取りになれるからデータサイエンティストor機械学習エンジニアを目指す」という、一見安直な動機で参入してくる若い人々が年々増えているように見受けられます。


しかしながら、現実はそんなに単純ではありません。とあるメディアの調査によれば、日本国内のデータサイエンティストの年収の最頻値は500-600万円だったという話もあるくらいで、言うほど高給取りになれるわけでもないようです。しかも、別のサブセクションでも羅列するように決して華麗な仕事というわけでもありません。結果として、一度はデータ分析職に就いたものの幻滅して別の職掌に移っていく人が、最近では少なくないように見聞します。


一方で、データ分析業務の上っ面だけをなぞって例えば「Pythonでsklearnさえ使いこなせれば誰でも簡単に高給取りのデータサイエンティストになれる!」というような安直なキャリア開発を喧伝する、浅薄な自称インフルエンサーが急増しているという側面もあります*5。それらの甘言につられて、本当にちょろっとPythonでsklearnを触った程度というスキルレベルで、いきなりフリーランスのデータ分析業務請負を始めてしまうような人たちも巷には出てきているように漏れ聞こえます。


ただ、これもこのブログで散々書いてきた通りで、Pythonとsklearnで出来る範囲のことなどというのは広汎なデータ分析業務のごく一部に過ぎません。故に、それらの狭い範囲のスキルを身につけたというだけでDS人材としてデータ分析業界に参入してみたものの、手に余るような大変な仕事が多かったり、あるいはスキル不足で手に負えない仕事が出てきてしまったり*6、ということで高給にありつく前に疲弊してしまい撤退を余儀なくされる人もいるようです。

DSを「格好良い仕事」だと思いたい人が多い


次に、良くも悪くもデータサイエンティストや機械学習エンジニアは統計学機械学習はたまた最適化計画や計量経済学など、学術的にも技術的にも「高尚なこと」を手掛ける仕事だと世間からは思われているフシがあります。またこれらの職種が得てしてtech / IT業界のベンチャーやスタートアップなど先進的なイメージを持たれている企業で募集されることが多いことも相まってか、「高給で華麗でワークライフバランスに優れた環境で高尚な仕事ができる」というのが勧誘する側の触れ込みであると同時に求職者にとっての仕事のイメージになっているケースも少なくないようです。


しかしながら過去に様々なブログ記事で散々書き倒してきたように、データ分析の仕事は泥臭い部分の方が高尚で華麗な部分よりも圧倒的に多いというのが現実です。

f:id:TJO:20200625225911p:plain

例えばかの有名な「機械学習の技術的負債」論文の図にも見られるように、多くの人が憧れ生業にしたいと願う、格好良い "ML code" (機械学習モデルの実装コード)が占める割合は、巨大な機械学習エコシステムの中ではほんのちっぽけなごく一部です。どちらかというと、その外側にある巨大なインフラやデータ前処理に関わる部分の方がよっぽど大事であり、実際に機械学習システムの仕事を手掛けるとそれらが占める割合の方が異様に高くなるものです。そういう「理想と現実」のギャップに耐えかねて、DS系の職から離れていくという人も少なくないようだ、ということは僕も把握しています。


言うまでもないことですが、大規模な機械学習システムの類は「全体として完成されて期待した通りに動いて初めて価値が出る」もので、そのためには "ML code" のみならず多くの要素を適切に組み上げる必要があります。にもかかわらず、"ML code" というごく一部の要素の面白み「だけ」を追求して他の要素には目もくれない、というDS人材が仮にいたとしたら、そんな人材の居場所が段々なくなっていくのは無理からぬことでしょう。

DSが「手段」ではなく「目的」にされている


これは残念ながら、DSを駆使する華麗な職業に就きたいと願う求職者にも、DSを駆使する夢のようなスター人材が欲しいと願う雇用者(事業主)にも、どちらにも問題があるというお話です。


DSはあくまでも個々の現場における課題を解決するための「手段」です。故に課題を「解決」できる人材がまず求められるというのが自然な流れで、なればこそ洋の東西を問わず多くのデータサイエンティスト求人では課題を解決してきた実績すなわち「実務経験〇年以上」というbarを設けるわけです。必然的に未経験者にとってはそのbarが高くなってしまう、という話題は上の方でリンクしたようにこのブログでも以前論じました。


一方、大学や大学院でDS諸分野について学んできて、いざ人生最初の就職先としてDS関連職を模索する若い人たちにとっては、これが途方もなく高いbarに見えると同時に、もしかしたら理不尽なものだと映るのかもしれません。「何で大学・大学院できちんと専門の技術・学術を学んできた自分たちよりも、ろくろく専門教育も受けてこなくてただ経験年数が高いだけのベテランたちの方が優遇されるんだ!」と。もちろん、技術・学術的な専門知識に乏しく業界経験だけでブイブイ言わせる怪しげなベテランは淘汰されるべきだと思いますが、現場で叩き上げて技術・学術的なスキルも身につけてきたようなベテランであれば重用されるのはむしろ当然の話でしょう。


「手段」としてのDSである以上は、それを使って何かを達成できる人材が重用されるという普通の話をしているだけのはずなのですが、DSで仕事をするのが「目的」になってしまうとそうは見えなくなってしまうわけです。これもまた、DSを「華麗で高尚な仕事」と勘違いする人たちが増えてしまったが故の歪みであるように僕には感じられます。


ところで、DS人材を欲しがる雇用者(事業主)の方も、DSが何であるかをよく理解していないという側面があります。「DSに強い人材さえ雇えば、DSを駆使して自社の『何か』を変えてくれるに違いない」と過信して異様な高スペック要件を設定して異様な高給でDS人材を雇ったものの、旧態依然とした自社の社内政治や組織・体制に振り回されて疲弊してしまったり、あるいは単純なダッシュボード作りや最悪ただのExcelでクロス集計するぐらいしか仕事がないところに高度なDSの技術学術を備えた人材を配置したら「こんなつまらない仕事をやらされるはずじゃなかった」と反発されたりして、DS人材全員が逃げ散ってしまったという話を聞いたことは2例や3例どころではありません。挙げ句の果てに、そうやって一度DS人材が逃げ散り取り仕切る幹部もいなくなって雲散霧消したDS部門を看板を掛け替え、新たにまた凝りもせず高スペック要件のDS人材を高給で雇おうとヘッドハンター各社に案件を投げつけている大企業すらあります。


上に書いたように、DSは「手段」です。にもかかわらず、そういうダメな雇用者(事業主)もまたDSを「これさえ導入すれば自社も変わるはず」という「目的」に据えてしまっているというわけです。これではうまくいかないのは当たり前でしょう。


「手段と目的の取り違え」については、今回紹介した記事の4番目に出てくるAutoML脅威論についても言えることだと思います。以前からこのブログでも現職のイベントなどでも語っているように、AutoMLのような取り組みはどちらかというと上記の機械学習の技術的負債論文で言うところの「格好良い」部分とその周辺の煩雑な部分を自動化し、もっとずっと本質的な「解決すべき課題」へのアプローチに人間が集中できるようにサポートするものだと見るべきだと思うのですが、これを「自分たちの仕事が奪われる」と脅威に感じる向きが多いようで、それがそのまま今回紹介した記事にも反映されているようです。


個人的には、これはあからさまに「手段」たる「格好良い」部分を、DSの専門家たちが手掛けるということ自体を「目的」にしてしまっているが故の問題だなと思う次第です。それは、「格好良い」部分を仕事にできないならDSなんてやらない、ということなので。。。


結論:バブルが弾ければマシになるし、弾けなければ地獄が広がるだけ


ということで、「DSが単なるバズワードとして消費されるだけの空虚なブームに未だに晒され続けている」ことで諸問題が起きているというのであれば、そのブームというかバブルが弾けさえすればもうちょっと状況はマシになるのではないかと思われます。しかしながら、バブルが弾けず今後も過熱したブームが先鋭化し続けるようなら、これからもますます地獄のような光景が広がり増え続けるのかなという気がしないでもないです。


ただ、新型コロナウイルスによる経済への影響が深刻化する昨今では、これまで隆盛を誇ってきた空前の人工知能ブームも失速するのではないかという観測が出ている、という話は少し前にもこのブログで論じたばかりです。そうなれば、つられて過熱してきていた第二次データサイエンティストブームもバブルが弾けて下火になり、もう少し穏当な状況になるのかなと思っています。

*1:ここでは業界動向を探るとかもっとシンプルなダッシュボードを作るのがメインの仕事という人たちを指すと思われる

*2:そして人材としてのデータサイエンティストや機械学習エンジニアを含む

*3:なので当時は「こんな得体の知れない怪しげな仕事なんてすぐに消えて無くなる」とあちこちで揶揄されていた

*4:日本だと多分年収1000万円以上

*5:薄っぺらい内容の有料noteとかを各種SNSで喧伝して売っている人たちを想起してください

*6:化けの皮が剥がれるともいう