(Image by Pixabay)
某所でバズっていたこの記事ですが。
もう読んだ瞬間に「うわー、これ完全に洋の東西を問わずデータ分析業界だとどこでも見られる、業界つらみあるあるだなー」という感が湧いてきて、こみ上げてくる涙が押さえきれませんでした(嘘)。という軽口はさておき、実際にほぼ同じ内容の愚痴をUSでデータサイエンティストとして働いていた知人からも直に聞いたことがあるので、個人的にもかなり説得力のある話だなと思いました。
この記事の若干嫌なところは「データサイエンティストたちはいつでも転職活動をしている、何故ならどこの職場に行っても以下のつらみがあるからだ」という書き方をしている点。いや、データサイエンティスト含むデータ分析職が全員常に転職活動しているかというとさすがに違うだろうと思いますが、「それくらいつらいんですマジ勘弁して下さい」と言われたら頷かざるを得ないのもまた事実かなと。
データ分析導入の理想像
ちょっと前にこんな記事を書きました(ただし元になった記事はさらに2年ぐらい遡った昔のものですが)。その中でも紹介しましたが、個人的にはデータ分析導入には7つのステップがあると考えています。
こんな感じで進化していけば、最終的には非常に良い感じでデータ活用ができるようになるのではないかと思います。
洋の東西を問わない、4つのつらみ
しかしながら、そんな理想通りにはいかないのがこの世の中。冒頭に掲げた「データサイエンティストはつらいよ」記事で、見出しとして挙げられている4つのポイントを以下に引用しておきます。
- Expectation does not match reality(同僚・上司からの期待感が現実とマッチしない)
- Politics reigns supreme(社内政治が最優先される)
- You’re the go to person about anything data(データに関わるもの全てを扱う何でも屋扱いされる)
- Working in an isolated team(他の事業から孤立したチームで働かされる)
完全に見たまんまですが、元記事にそれぞれの理由と事情が書かれているので、かいつまんで紹介を。
まず、1つ目の「期待値コントロール」について。これは結構言い古されてきた問題だと思うんですが、USでも全然変わらないという事情が語られています。華麗に機械学習や"AI"を駆使して問題を解決していくイメージで現場に入っていくと、そこに待ち受けているのはデータ基盤の整備とダッシュボード作りに追われる日々。一方でお偉いさんたちはダッシュボードには満足するものの「その程度のことしかやらないデータサイエンティストを雇ったつもりではなかった」みたいなことを言い出すわけです。ダッシュボード作るだけでもひーひー言ってるところに「うちの会社としてはAIを駆使して夢のようなシステムを沢山作り出してくれるような優秀な人材として君を雇ったはずなんだが、成果が出てこないのう」とかお偉いさんから言われたら、まぁ普通はつらいですね。
2つ目の「社内政治」もこれまた非常に多くの現場から漏れ聞こえるあるあるネタで、極端な言い方をすれば「お偉いさんから気に入られることも仕事のうち」。自分たちのデータ分析を活かしてもらえるようなpipelineを作ることが出来なければ、データ分析の仕事をしても達成感は得られないし、お偉いさんからも「あいつら役に立たないことばかりやってる」と言われる羽目にもなりかねません。また「データを取ってくるのにも社内政治が必要」というケースもあります。例えば必要なデータの格納先が自分たちのA本部とは別のB本部のDWHだった場合、B本部長を説得しないとデータが貰えないわけですが、このB本部長が実はA本部長と犬猿の仲でどうにもならないがために社長を通さないと何もできない、みたいな話は聞いたような聞かなかったような。。。
そして3つ目の「データ何でも屋さん」問題。「お前データサイエンティストだよな?ならSparkもTensorFlowも自然言語処理も分かるよな?」みたいなことを言われて、およそデータと名のつくあらゆる業務が降りかかることに。。。という話はありふれ過ぎていて枚挙に遑がないです。左のモニタでStan回して統計モデリングしている一方で、右のモニタではKerasで推薦システム書かなきゃいけなくて、両方の仕事が一段落したら今度はDWHへのデータ読み込みがコケているのを直さなければいけない挙句、別の事業部から頼まれているダッシュボードを整備しなければいけないとか。。。役割分担ができてないとこの辺は単なる地獄になりかねません。僕の持論である「データ基盤整備を専門に担当するデータアーキテクト職を置け」というのも、この辺の業界事情を踏まえています。
最後に4つ目の「孤立したチームで働かされる」問題は2つ目の社内政治と関連しています。要はデータ分析で得られた成果をきちんとプロダクトなり本番システムなりに反映させられなければ意味がないのに、現実にはデータ分析専門のチームが個別に組織されていて分析仕事はそこだけで行われるのに対して、いざその成果を反映させようとすると実際のプロダクトや本番システムに関する知識やスキルが必要でそこまで到達できない(もしくはそれらがないばかりにプロダクトや本番システムのチームに相手にされない、さもなくば「そんなご立派なアルゴリズムを組み込みたいなら自分でコード書いてコードレビュー通してコミットしろ」とか要求される)という話で、これもまぁ良く聞く話です。実際の事業部門との連携が弱いと、どうしてもデータ分析の真価を反映させられないというのはままあります。
もちろん、世の中にはこれらのつらみを全てクリアした夢のような現場もないわけではありませんが*1、比較の問題で言えばやはりそういうところは稀少で、多くの現場はこれらのつらみのどれか1つ以上(うっかりすると4つ全て)を抱えていると言って良いかと思います。そうなると、少しでもつらみの少ない現場を求めてデータサイエンティストたちは流浪の民になりがちだ、というのがこの記事の言いたかったことのようです。
データサイエンスの不都合な真実
以上で紹介したのはどちらかというと「仕事としての」データ分析職のつらみというお話でした。ちなみにスキル面でのつらみについては"The Inconvenient Truth About Data Science"という小ネタが既にありまして、
- Data is never clean.(データはどれも綺麗ではない)
- You will spend most of your time cleaning and preparing data.(大半の時間は前処理に費やされる)
- 95% of tasks do not require deep learning.(95%の仕事はDeep Learningを必要としない)
- In 90% of cases generalized linear regression will do the trick.
(GLMの90%は単なるトリック)(90%のケースでGLMはうまくいく)*2- Big Data is just a tool.(ビッグデータはただの道具)
- You should embrace the Bayesian approach.(ベイジアンに帰依せよ)
- No one cares how you did it.(どういうやり方をしようが誰も気にかけない)*3
- Academia and business are two different worlds.(学術界と産業界とは2つの異なる世界だ)
- Presentation is key - be a master of Power Point.(プレゼンは重要だ:PowerPointマスターになろう)
- All models are false, but some are useful.(全てのモデルは嘘だ、だが中には役立つものもある)*4
- There is no fully automated Data Science. You need to get your hands dirty.(全自動化されたデータサイエンスなんてものはない、自ら手を汚して働け)
ココロとしては大体同じだなと個人的には感じました。こういう洋の東西を問わない様々な種類のつらみを抱えながら、データ分析職の人々は日々の業務と格闘しなければいけないわけです。そんなつらみだらけだからこそ流浪の民になるというのもまた道理かなと。
というようなしんどい実態を理解した上で、最近各種メディア記事で喧伝されているデータサイエンティスト育成コンソーシアム?のようなものが構想されているのであれば喜ばしいことだと思うのですが、実際のところはどうなのかなぁという危惧を覚えます。。。現場からは以上です。