ちょっとした話題になってたこの記事、実は結構前の公開だったと気付いて焦ってます(汗)。
密かに愛読しているid:dscaさんのブログの最新記事が、ものすごーーーーーく示唆に富んでいて非常に面白かったので、釣られるついでに僕個人が考えていることをざっくりと書いてみようかなと思ったのでした。
id:dscaさんのご指摘を大ざっぱにまとめると、こんな感じでしょうか。
最低限の情報共有、啓蒙は必要、だが。。。
- データサイエンティストのスキルを定義することはできない
- スキルを定義できるならサイエンティストではない
- したがって資格になっても価値がない
- そして目的のない手段だけの資格は成立しない
- 分析手法やツールへの傾注が起きるだけで人材の創出には繋がらない
どれも非常に重要なツッコミばかりで、いやいやこれほど分かりやすく書かれたものってなかったよなぁとウンウン頷いてばかりでございました。ということで、まずは是非上記リンクから記事本文をお読みください。その上で論じてみようと思います。
そうそう、今回の記事で論じているのはおそらくid:dscaさんも想定されているであろう「アドホック分析系」データサイエンティストについてであり、「アルゴリズム実装系」データサイエンティストの話とは限らないことを予めお断りしておきます*1。
データサイエンティストが「サイエンティスト」であるならばスキル要件で縛ることはできない
まず最初にこのポイントについて論じてみようと思います。僕自身、ここが一番面白い論旨だと思ったところでもありますので。
サイエンティストはそもそもスキル要件では評価されない
僕は幸か不幸か、若い頃にバイオ系の自然科学の研究者を志して博士号を取得し、どちらかと言うとガチガチの科学的発見を探し求める系*2の研究を長年やってきました。今はご覧の通り産業界でデータ分析の仕事をしていますが。。。
ともあれそういう経歴の持ち主なので、「サイエンティスト」がどのような仕事のやり方をしていて、どのようにアウトプットを出し、どのように評価されるかはそれなりに知っているつもりです。
多くの「サイエンティスト」が就くアカデミックな研究ポジションの多くは博士号(Ph.D.)を要求しますが、それは単なる「資格」ではありません。少なくとも「スキル要件」を満たしたからといって与えられるものではありません。スキルだけ見れば、博士号取得前の大学院生や博士号を持たないテクの人々の方が遥かに上なんてことはザラにあります*3。
このアナロジーからも見える通り、サイエンティストをスキル要件で評価するというのはそもそも根本となる理念にそぐわない、というわけです。
そして、それらのポジション審査に当たっては単に博士号を持っていることを要求するのみならず、さらに別の指標を評価基準として要求してきます。それは「アウトプット」です。
サイエンティストはそのアウトプットで評価される
一般に、「サイエンティスト」が行う仕事というのは「新規性」「普遍性」を科学的方法によって追究するということであり、その「知見」をアウトプットとして示し、それが「受け手にとって価値があるかどうか」*4で評価されるわけです。
特にサイエンティストの資格たる博士号の審査においては、まさに「その知見が受け手にとって価値があるかどうか」で評価され、その上で学位授与の可否が問われることになっています。そして、博士号を得た後もサイエンティストの業績や実力もまた「その知見が受け手にとって価値があるかどうか」で量られ続けるわけです。
僕個人としては、データサイエンティストも「サイエンティスト」である以上は、同じ枠組みで評価されるべきではないかと思ってます。即ち、大事なことはスキル要件の何を満たしているとか何ができるとかではなく、基本的には「そのアウトプットが受け手にとって価値があるかどうか」で評価されるべきだし、その評価を得られるようになった人材こそがデータサイエンティストと呼ばれるべきではないのか?ということです。
なお、アカデミアの場合は「受け手」と言ったら業界内の研究者ということになるのだと思いますが、産業界でのデータ分析においてはもちろん個々の企業なり業界・分野なりということになるのではないかと。
これは柔軟な「データサイエンティスト」像にもつながる一方で「自称データサイエンティスト」の乱立にもつながる話ですが、それについてはこの後の節で延べます。
データサイエンティストが活躍している「事例」を集積し「人材像」を示し、その「多様性」を確保すべき
ここからは僕個人の主張です。もちろん、これが絶対に正しいなんてことはあり得ませんし、むしろ叩き台として議論にでも使ってもらえれば有難いです。
データ分析で扱うデータは業界・分野ごとにてんでバラバラ過ぎて統一基準なんて決めようがない
元のid:dscaさんの記事の中で、こんな極めて示唆的なことが書かれています。実は、僕自身全くもって同じことを考えていたので、これを読んだ瞬間まさに我が意を得たり!という感じでした。
例えばWebアクセスログと臨床実験のデータなんてもう真逆です。前者は無意を含んでひたすら膨大であり、後者は少なすぎるので有意にしたい。データが多すぎるからいかに捨てる集計するかの世界と、データが少なすぎるけど何かを言いたい世界。POSデータは実際に買った後のデータ。広告は買ってくれるかもしれない買う前のデータ。これもまるで違う。財務なら会社の業績をしっかりと、株式なら会社の業績より外の相場を意識しなければ話にならない。これもまた違うわけです。なのに能力も時間もリソースも有限という、とてもとてもセクシーなんて言えない小さく可哀想な職業。
で、これら適用領域のことを無視してスキル要件を統合して資格にするなんて無理ゲーなんですよ。そういうことするから手段と道具の話しかできなくなる。手段が目的化して、本当の目的が消える。
最初の例が秀逸この上ないですね~。もうまさにこの通りなんです。データ分析と一口に言っても、例えばSNS、ソシャゲ、広告(オンラインorオフライン)、金融、小売、インフラ、Eコマース、物流、製造業、運輸交通とで、扱うデータは千差万別。というか、似ても似つかないデータだらけです。けれども、現実にはその似ても似つかないデータを扱う似ても似つかない業界のそれぞれが、自分たちの持つデータを元にビジネスの効率化・最適化・高速化を要求しているというわけです。これをカオスと言わずして何と言おうかという有様です。
むしろ地道に「事例集」を編んでケーススタディを積み重ねることこそが重要
引用文の中で喝破されていますが、要はそんなカオスに無理やり統一基準を導入しようとしてもどうにもならない、ということだと僕は思っています。むしろ、そのカオスのような現実に即するような事例を少しでもたくさん集めて「データサイエンティスト事例集」を作り、各々の業界・分野ごとに参考になり得るようなケーススタディを個別に蓄積していく、ということの方が大事なのではないかと。
そうすることで、まどろっこしいかもしれませんが各々の業界・分野ごとにデータサイエンティストの「人材像」がそれとなく出来上がり、事例が集まるにつれてどこかしらの平均像に収斂していくはずです。その「人材像」の平均像であれば、確かにデータサイエンティストの要件とは何ぞや?を考えた時に参考になるのだろうとは思います。何ならその事例集データ自体をデータマイニングでもして、定量的に要件を明示しても良いわけで(笑)。
「事例集」はデータサイエンティストの採用や評価、そして育成にも役立つ
ひとつ前の章で述べた、「データサイエンティストは『そのアウトプットが受け手にとって価値があるかどうか』で評価されるべき」という話とはここでつながります。要は、個々のデータサイエンティスト(もしくはその候補)を評価する際には、その人のアウトプットと人材像が上記の「『人材像』の平均像」に照らし合わせてどれくらいマッチしているか?で量れば良いのではないかと考える次第です。
もちろん、これは例えば既に他の現場でデータサイエンティストとして働いている人が自社の人材募集に応募してきた時に、これをどう評価したら良いか?という場合にも使えます。自社に類似した現場でどのようなデータサイエンティストの事例があったかを調べ、それと応募してきた候補者の人材像がどれくらい合致するかで評価できる、というわけです。これはそのまま「自称データサイエンティスト」を淘汰するのにもそれなりに使えると思います*5。
一方で、そのようなケーススタディの蓄積はゼロから新米データサイエンティストを育成する際にも使えることでしょう。
往々にして、どこの現場でも「データサイエンティストの育成」にはものすごーく苦労しています*6。それは、言うまでもなく「何を身に付けたら(付けさせたら)良いかが分からない」からです。
こういう時も、自社の状況に類似したケーススタディを紐解くことで、データサイエンティスト候補となる人々にどのようなスキルを身に付けさせ、どのような経験を積ませれば良いか、のガイドラインが得られるわけで、非常に効率が良いのではないでしょうか。
なお、個人的なアイデアですが「事例」の集積として「業務的アウトプット」にこだわる必要はないと思っています。「勉強会・カンファレンスでの発表内容」なども含めても良いかもしれないですね。
この「事例収集&集積」「ケーススタディ蓄積」を、データサイエンティスト協会が担うというのは、悪くない案ではないかと思ってます。
「多様性」の大切さ
今まで述べてきたやり方は資格試験をやるのに比べるとどうしてもまだるっこしくなりますが、一つ大きな利点があります。それは人材の「多様性」を確保できる、という点です。
既に触れた通り、データ分析と一口に言ってもその対象となるデータの種類は業界・分野ごとに千差万別、完全にバラバラと言っても過言ではありません。そこに、何か一対の決まったレールの上だけをなぞってきた人材たちを漫然と突っ込んでも、ミスマッチだらけになりかねないでしょう。
まさに上の例にも出てますが、例えば資格試験に必要な知識としてHadoopエコシステムの構築・運用・ログ集計+全数データに対する機械学習を用いた推定・予測手法「だけ」を学んできた人が、いざweb系企業ではなく製薬企業の新薬の臨床試験を手掛ける現場に「データサイエンティスト」として配属されてしまったら、いくら何でも実力の全てをすんなり発揮できるとは思えません。そしてその業務に慣れるまでにもかなりの時間がかかってしまうことでしょう。
そういう時に、例えばそもそも疫学調査手法に通じている人材が「データサイエンティスト」として人材プールの中に控えていれば、その人を配属すれば良いだけの話のはず。データ分析の現場が多種多様で多彩である以上、データサイエンティストという人材とその候補もまた多種多様で多彩であるべきだと思うのです。
これを、もし一人の人材に資格認定の観点からあれもこれもとスキルを突っ込むことで達成しようとすれば、まさにデータサイエンティストのスキル版「次元の呪い」にハマるだけだと思います。正反対のスキルセットが要求される相異なる2つの分野に対応するために、両方のスキルセットを同時に一人の人材に無理やり教え込もうとするのはあまりにも非現実的で、おまけにかなりのコストがかかってしまいます*7。それは非効率の極みです。
その観点から言っても、やはりデータサイエンティストの要件を語る際にはスキル要件を定めた「資格」であるよりは個々の現場にマッチした「人材(像)」本位であるべきだと考えています。なお、id:dscaさんもボソッと触れておられますが余計な資格認定などの縛りを加えないことで、規制の少ない自由な市場を作りやすいというメリットもあります。
最後に
ちなみにそもそも論として、定義が曖昧で「何となく凄そうなプロフェッショナルだから」ということになればこそ、存在自体がバズって人気が沸騰するわけで*8、無理に定義なんて決めたりするとむしろブームが冷え込んで逆効果なんじゃないか、というのはあると思ってますw
それから、冒頭でも断りを入れましたが、今回id:dscaさんが提起された問題はどちらかというと「アドホック分析系」データサイエンティストについて言われていることだと、僕は理解しています。ケースバイケースなのでしょうが、「アルゴリズム実装系」の話にはぴったりとは当てはまらない感がありますね。この話はまた改めて、ということで。
ところで僕は「データサイエンティスト」と呼ばれても特に気にしない(むしろ呼ばれた方が差別化されて良いと思ってる)一方で、id:dscaさんは「データサイエンティスト」と呼ばれるのはお好みではないようですが、何だかお互い考えていることに結構な共通点があるみたいですねw 面白いなーと思った次第です。なんて、適当なこと書いてしまってご迷惑だったら本当にごめんなさい。。。
*1:この両者の区別についてはまた改めて論じます
*2:ただしその過程で色々データ分析手法に手を出したせいで、それが今も生きています
*3:なので米国などに行けば「高級テク」というポジションがあって、雇用が安定していておまけに高給取りだったりする
*4:アカデミズムにおいては研究者同士による論文査読で直接的に評価され、引用で間接的かつ長期的に評価されるわけですが
*5:実績を詐称してくる輩はどうにもなりませんが。。。
*6:ぶっちゃけ講演会とかで講師をやった時に僕が聴衆の方々から頂く相談の8割ぐらいがそれです(笑)
*7:実際問題として、データサイエンティスト協会の準備会でスキル要件を挙げていったら物凄く膨大な量になったのを覚えてます