近年のデータサイエンティスト界隈では、僕が以前スキル要件記事でも提唱した通りの「ソフトウェアエンジニアの延長としての機械学習エンジニア」(機械学習メイン)と「アナリストの延長としてのデータサイエンティスト」(統計学メイン)とにキャリアもポジションもカルチャーも分化するようになって久しい印象があるのですが、世の中に溢れる求人情報や各種SNSで流れてくる巷の声を見聞きする限りでは、どう見ても前者の方が数が多い上に需要も旺盛なんですよね。
発展というよりMLを使ったプロダクトでお金稼いでいる会社があって、統計学やエコノメベースでプロダクトを作る事業会社がないだけだと思います。統計学とか示唆出しの手段なので、ブラスでお金稼ぐ感覚がないと居場所がないだけかなと。 https://t.co/PCDQHiIvlJ
— be (@behemuhemulove) 2024年6月11日
で、畏友*1beさんがこんなことを指摘されていたのでした。流石は統計学PhD→統計学大学教員→統計学系実務家としてご活躍されているだけあって素晴らしく含蓄のあるコメントだと思ったのですが、周囲の反応を見る限りではあまりピンと来ない方も多いように見受けられました。
ということで、タイトル通りですが「機械学習を使うデータサイエンスの仕事に比して統計学を使うデータサイエンスの仕事が産業界に少ない理由」を、10年以上に渡る僕の個人的な経験と業界見聞に基づいてつらつらと書き綴ってみようと思います。なおいつもながらですが、記事中に事実誤認や理解不足の点などあれば何なりとご指摘くだされば幸いです。
本質的には、プロダクトの「コア」であるか否かが全て
これはもうbeさんのコメントをただ追認しているだけに近い話ですが、要は「機械学習は様々なプロダクト(アプリ・webサービスなど)の開発において『コア』たり得る」という実情があるんですね。それは昨今大ブームのテキスト・画像・コードなどの生成AIや翻訳や文字起こしなどのNLP系サービスは言うに及ばず、eコマース・マッチングといった推薦機能が求められるサービスでは長年に渡って機械学習が使われ続けていますし、勿論画像処理・操作系のアプリなどでも機械学習は使われています。
そして最も大事なこととして、そういった最近のアプリやサービスの重要な機能をダイレクトにサポート(そして形成)しているのがまさに機械学習そのものであるケースが多い、という点があると思います。つまり、機械学習こそがプロダクトの「コア」としてバリューを与える存在になっている現場が近年増えてきており、それ故に機械学習に関わるデータサイエンス系の仕事もまた増えてきている、というのが現状でしょう。
これを反映してか、例えば求人情報検索サービスのIndeedで「機械学習」というキーワードで検索すると25000件以上(本記事執筆時点)、「人工知能」でも14000件以上がヒットします。言うまでもなくこれら全ての求人が埋まるわけではないので、あくまでも大雑把な推論でしかありませんが、それでも機械学習が関わる仕事の求人は万単位の規模に上ることが窺えます。
一方で、統計学を使うデータサイエンス系の仕事はどちらかというと「プロダクトの機能の良し悪しを評価する」「プロダクトのある機能にビジネス上の効果があったかどうかを調べる」ということが多いという印象があります。もう少し露骨な言い方をすると、「統計学とはあくまでもプロダクト開発の『外側』のあれこれを扱うものに過ぎない」ということなんですね。即ち、統計学はプロダクトそのものの構成要素たり得ないことが多く、どこまでいってもプロダクト開発プロセスにおいては副次的な立場に置かれがちだということです。もっとあけすけに言えば「統計学はプロダクトに直接バリューを与えられる存在ではない」ということかと。
勿論、統計学ならではの手法がプロダクトのある機能のコアに据えられるケースが全くないわけではなくて、例えば僕が知っている例だと混合効果線形モデルが使われているのを見かけたことがあったりします*2。ただ、それはやはり特殊事例であり、全体として見れば統計学に固有のアプローチががっつりプロダクトのコアを占めるケースは少ないものと思われます。大抵の現場では、統計学を使った仕事というのはプロダクト開発に対してあれこれダメ出ししたり方針にケチをつけることがメインだ、と思われている可能性すらあるのではないでしょうか。
そういう実態を反映してか、Indeedで「統計学」というキーワードで検索すると5000件未満しかヒットしません。「統計分析」でも12000件ほどに留まります。なお余談ですが、「因果推論」だと500件未満という有様だったりします。機械学習を使う仕事に対して統計学を使う仕事は、文字通り「桁ひとつ以上少ない」というのが実情だと見て差し支えなさそうです。
統計学でバリューを出すには、意思決定の「コア」に関われるか否かが重要
何故統計学を使うデータサイエンス系の仕事が少ないか、という理由はこれまでに述べてきた通りです。とはいえ、「統計学をメインに扱うアナリストの延長としてのデータサイエンティスト」たる我が身としては、それはそれで寂しい限りです。では、どうしたら良いのでしょうか?
やる前にCTRがx%上昇すると売上がy%あがることをきちんと調べたり、なんでそもそもメルマガおくってるんだっけ?等をきちんと事業部門と話してお互い同じ認識合わせる作業が出来るコミュ力がないと、俺達は正しい分析したのにあいつらが理解できない!みたいなオタク発病して嫌われるってだけです。 https://t.co/SHqbtJxO7K
— be (@behemuhemulove) 2024年6月11日
端的に言えば「統計学でもバリューを出す」ということに尽きるのですが、beさんの別のコメントが示唆的だと個人的には思います。つまり、プロダクト開発側(事業部門)ときちんと認識を合わせて「その統計分析結果に従ってアクションする必要性」を受け入れてもらう努力が求められる、ということですね。そのためには、統計分析結果に従うことでプロダクトや事業のKPIが何%改善され、経営上のKPIやKGIが何%向上し得るか、といった意思決定の判断材料を提示し、その重要性を理解してもらうためのコミュニケーションを展開する必要があるわけです。これであれば、プロダクト機能の「コア」ではなくとも、バリューを出していくことは可能でしょう。
もう少し一般化して書くと、プロダクト開発や事業推進における意思決定の「コア」に関わることが統計学でバリューを出す上で重要だということなのでしょう。即ち、何かしらの統計学による分析結果に沿った意思決定をすることで、具体的にプロダクトや事業のKPIがこれこれだけ向上する……という図式をステークホルダーたちに受け入れてもらい、実際にアクションしてもらえるような体制を作るところまでが求められるということです。
ちなみに、僕が実際に仕事で手掛ける範囲でいうとMMM (Media/Marketing Mix Modeling)やマーケティング実験などは好例でしょう。これらはズバリ広告マーケティング予算のチャネルごとの効率性さらにはROIまでをも推定し、その上でほぼダイレクトに予算配分の最適化という重要度の高い意思決定へとつなげていくものであり、平たく言って「統計学でバリューを出しやすい」領域の筆頭に挙げられる領域です。ただ、それは事前に意思決定に至るまでのプロセスを各ステークホルダーの利害を調整しながら綿密に作り上げておく必要があり、そこには高いコミュニケーション能力*3が求められるのも事実です。
恐らくですが、産業界においてはそういうハイレベルな意思決定が求められる場面は限られますし、例えば単一の企業にあってはよほどのことがない限り年に数回あるかないかかもしれません。よって、そのような「統計学を使って意思決定を助ける」仕事をインハウスで抱えるところは稀少であり、それらの仕事を外注で請けることの多いコンサルやプラットフォーマーなど一部の企業にそのような仕事の担い手が集中しやすいということもあるのでしょう。
そういうことを考えると、「純粋に統計学に関わることだけを仕事にしていたい」という人にとってはハードルが高い世界であるのもまた確かで、それこそが統計学を使う仕事が産業界に少ない理由なのかもしれません……お粗末さまでした。
追記
機械学習を使う仕事に比して、統計学を使う仕事が産業界に少ない理由 - 渋谷駅前で働くデータサイエンティストのブログ「統計学を使う仕事が産業界に少ない」? 統計的品質管理をちゃんとやってる工場は日本中にたくさんあるのに、ホワイトカラーじゃないから眼中に入ってないだけでしょ。
2024/06/17 21:20
こちらのブコメの指摘はご尤もで、実際11年前にこのブログを始めた時も「データサイエンスなんて言わずともずっと以前から品質管理工学があるじゃないか」というツッコミを貰うことが幾度かあったものでした。ただ、それにもかかわらずこれだけデータ分析・データサイエンスが台頭し続ける中にあって、何故品質管理工学であったり統計的品質管理といった分野が檜舞台に立ってデータ分析業界を席捲してこなかったのか?という点に個人的な関心があります。
とは言え、この視点を見落としていたのは事実なので、記事タイトルは「機械学習を使うデータサイエンスの仕事に比して、統計学を使うデータサイエンスの仕事が産業界に少ない理由」と改め、あくまでも近年のデータサイエンス業界の話題に絞った方が良いのかなと思いました。