渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

まがい物のデータサイエンティストは滅びゆく:USのトップ5データサイエンティストたちが語る2016年の展望

f:id:TJO:20151221172926j:plain

(Photo via VisualHunt.com)


僕も会員になってるData Science Central*1に、こんな面白い論説が載っているのを見つけました。


  1. Data science and statistical modeling will be further automated, with better black-box products
  2. Frontiers between data science, operations research, machine learning, artificial intelligence and statistics, will disappear
  3. AI will become more prominent, and referred to as deep learning in our community
  4. We will see more open data and open projects
  5. The death of the fake data scientist: if you only know basic R or SQL, earned your title spending a few hours in a data science boot camp not working on any real big data project, and if your knowledge comes from free books read by millions of people, you won't easily find a job.
  6. The birth of the data scientist convert: conversely and ironically (with respect to my previous point), if you are not a data scientist, maybe a biologist or physicist, but have worked on real data, are able to code, and produced value out of data, you might get a data science job easier than ever. Read learning data science on the job for details.
  7. More telecommuting for data scientists and related jobs, as it is difficult to attract great candidates to fill job vacancies for this type of skill set. Unless if driverless cars become the norm: then employees will be able to work when commuting.
  8. More self-funded data science entrepreneurs and consultants, fewer VC-funded data science entrepreneurs as consolidation takes place, and unprofitable / unsustainable data science businesses vanish.
  9. More women and minorities.
  10. Automated digital publishing backed by data science algorithms, putting more pressure on traditional publishing business models, and replacing Editors by software.
  11. Better use of data and data science by the government to further track people and detect fraud and terrorists.
  12. Explosion of sensor data (IoT).
  13. More API's and Apps sharing data between devices and systems. Monetization of data arising from these systems.
  14. More data science applied to environmental issues. Both on Earth and beyond (predicting solar flares, discovering new asteroids and so on.)


なかなかズバズバと書いてますね(笑)。これらを日本のデータ分析業界の実情と照らし合わせながら論じてみるのはなかなか良い与太話になるんじゃないかと思うので、年末休み気分にかこつけてちょっと書いてみようと思います。


個々のポイントを挙げてみる


原文を読めば十分だという気もするんですが、一応ひとつひとつ挙げていこうと思います。


1. データサイエンスや統計学によるモデリングはもっとブラックボックス化して自動化される


ちょっと前の記事で間接的に言及したDataRobotなんかはまさに好例だと思うんですが、いわゆる「データ分析ツール*2とは異なり、より高度なモデリングの自動化が進むというお話ですね。この辺は実際進行しつつある流れだと僕も認識しています。


ただし、上のリンク先の記事にも書いたように「作業」的な部分は自動化が進んでも、「アーキテクト」的な部分の自動化は無理なままなんじゃないかとは思っています。もちろんそこがデータサイエンティストと称する人間の付加価値として残るのでしょう。


2. これまでデータサイエンス諸分野の境界領域にあったフロンティアはもはやフロンティアではなくなる


実際に列挙されているのは「データサイエンス、オペレーションズリサーチ、機械学習人工知能および統計学」で、今まではこれらが重なり合うところがフロンティアだったが今後はそうではなくなるということを言っているようです。ちょっとこれは僕には意味するところがよく分からないです。それともUSではそういうムーブメントが実はデータサイエンスの浸透には重要だったんでしょうか?


3. 人工知能はより突出した存在となり、データ分析コミュニティの中ではDeep Learningにそれが帰せられるようになる


これは既にそうなってる気がしますね。むしろ日本の方がその風潮はUSに先行してより顕著なんじゃないでしょうか。「ディープラーニング」(カナ)は実際に巷の経済ニュースを頻繁に賑わせています。そしてそれ以上に実際の(特に機械学習業界の)ビジネス現場においては、例えばChainerやTensorFlowのような非常に扱いやすいDeep Learningのフレームワークが浸透し、特にセンサデータなどDeep Learningがその強さを発揮できる領域ではもはやDeep Learningの導入は当たり前の光景と化しています。


ここまで言えば皆さんすぐ想像がつくかと思いますが、恐らくこの下りで最も意識されているのは自動運転車でしょう。Google Carは言うまでもなく、日本国内でもDeep Learningの投入を念頭に自動運転車の開発が各所で進められています。センサデータとの相性が良いDeep Learningの実戦投入は来年以降(成否は別として)さらに進むことでしょう。


4. オープンデータ化やオープン分析プロジェクト化がさらに進む


ある意味Kaggle的取り組みの拡大と言うことかなと思います。これに関しては本家Kaggleではかなり進んでいるような印象もありますが、一方でそういうコンペの中にはデータ分析手法(主に機械学習)の改良と言うよりただの特徴量エンジニアリングをコンペ参加者に代わりにやらせる(≒アウトソーシング)という意味合いが強く、コンペ常連から嫌われることもあるようなので何とも。。。


5. まがい物のデータサイエンティストは滅びゆく


この見出しの後には具体的に「RとSQLの基本操作しか知らず、そのスキルもデータサイエンス講習でほんの数時間かじった程度で、実際にビッグデータプロジェクトを手がけたこともなく、おまけに万人に向けて公開されているようなフリーの資料でしか勉強していないような、まがい物のデータサイエンティストは今後は職を得るのは難しくなるだろう」と書かれています。これを「まがい物」(fake)と表現するのが穏当かどうかは正直何とも言えないんですが、例えば「にわか仕立てのデータサイエンティストでは職を得られなくなる」と言い換えるのはアリかなとは思います。


現実に実務の現場で降ってくる(湧いてくる)データ分析課題というと大抵の場合は「過去のどの資料・書籍・サイトを見ても解決事例がどこにも載ってない」ような代物であることが多いので、それらを解決するためには盤石のスキル面での基礎を持っていることが大前提で、その上でクリエイティビティを発揮できることが大事なんですよね。なので付け焼刃でデータ分析スキルを身に付けるだけでヒーヒー言って精一杯というレベルだと今後はかなりつらいんじゃないかという気はしています。


とは言え、一方でCourseraとかMOOCでデータサイエンティストをもっと育成すべきだという意見がずっと叫ばれてきたことを考えると、この構図は不幸な上にそもそもそういう流れを称揚してきたあんたらがそんな酷いことを言うのかよ的なツッコミは避けられないですね(笑)。ま、僕も他人様のことを言えるかどうか怪しいので何とも言えませんが。。。自戒しますです、はい。


6. 他分野から移ってくるデータサイエンティストが増える


見出しの後に「例えば生物学者や物理学者で、実データを相手にデータ分析に取り組んでいて、そしてコーディングができて、尚且つデータから価値を創り出すことができれば、以前よりもずっと簡単にデータサイエンティストの職にありつける」と書いてあります。そんな虫のいい人材どこにいるんだよという気しかしてきませんが(笑)、かつての「ロケットサイエンスからウォール街へ」の流れのデータサイエンティスト版が加速するという見立てはあながち間違ってないかなとも思います。


実際、僕がかつて勤めていた理研BSIからデータサイエンティストないしデータ分析の職に転じた人は知る範囲だけでも6名に上ります。実データに慣れ親しんできた他領域のエキスパートたちがデータ分析業界に転じる流れは今後も続くだろうと見ています。


ところで2014年4月の数字ですが、USのデータサイエンティストの46%の最終学歴がPhDという調査結果もあるようです。以前このブログでも取り上げた"Insight"データサイエンスインターンシップのように他分野のPhDをデータサイエンティストに生まれ変わらせるような取り組みが多いこともあってか、USではデータサイエンティスト=PhDという傾向が強いようです。おそらくその辺の事情も相まってのこの予想なのかなと見ています。


7. 在宅勤務するデータサイエンティストが増える


これは技術的な話などを一切抜きにして、単に「これだけのレア人材を獲得するにはオフィスの所在地や環境に制約があっては難しいので、それらを度外視できる在宅勤務が今後主流になるのでは」的な、妙な業界予想のようです(笑)。しかもその後には「自動運転車が実用化すれば通勤の車内で分析の仕事ができるようになるだろう」みたいなこと書いてるし。。。


ただ、他のITエンジニア領域の仕事と恐らくこれは同じ話で、適切なクラウド化が進めばデータ分析の仕事もどんどんリモートでの職務遂行が広まるだろうという話でもあると思います。今でもAWSなどのクラウド上に分析環境を置いているところで在宅勤務を認めているところはあると聞きますので。


8. 自主財源(フリーランス?)で活躍するデータサイエンス起業家やコンサルタントが増える


これはシリコンバレー固有の話題なんでしょうか?ちょっと文意を読み取りかねました。ちなみにその後に続いているのが「ベンチャーキャピタルから資金を得るデータサイエンティスト起業家は減り、非営利だったり持続可能性の低いデータ分析ビジネスは消え去りゆく」と書いてあります。もしかしたら、何かしらのPR・アピール目的のためだけのデータ分析を揶揄しているのかもしれませんね。


9. 女性やその他マイノリティのデータサイエンティストが増える


これはどちらかというと願望なのかなとも思いますが、個人的にはデータ分析業界そのものの多様性を広げるためにもそうあって欲しいと思います。ちなみに僕の知る限り、日本でデータサイエンティスト(特にこのブログで定義しているような)と呼ばれるに足る女性は恐らく20名いるかいないかだと思われます。


10. データサイエンスのアルゴリズムに拠るデジタル出版技術が席捲する


恐らくですが、ちょっと前に話題になった「機械学習で全自動で紙面を作るweb新聞」みたいな話なのかなと。これはチラホラ聞いている範囲ではかなりのところが取り組んでいるようで、トピックモデルなどNLP絡みでその辺をやっている企業はキュレーションメディア系を筆頭に珍しくないようです。ただ出版業まで飲み込むにはちょっと時期尚早かなぁと。


11. 政府によるデータとデータサイエンスの利活用が進み、不正やテロの抑制に用いられる


これはもしかしたら既に現在進行形なんじゃないでしょうか。先般のパリ同時多発テロとその後続いた摘発作戦など、テロ行為そのものや準備行為をできるだけ先行して検出し、阻止・摘発すると言った司法当局の業務のためにデータ分析が用いられることは確実だと思われます。ただ、この手の話で問題になるのはfalse alarmの扱い方かなぁと。無実の市民を冤罪で摘発しまくるような流れが、実は機械学習モデルの精度が低いためだった。。。みたいなことになると笑えないので。


12. センサデータの爆発が起きる(つまりIoTの伸長)


言うまでもなくIoTの話題です。これも願望にしてかつ現在進行形の話だと見て良いでしょう。最近だと航空機メーカー(如実なところだとエアバス)が近年納入した全機体にセンサを張り巡らし、飛行中にそれらからのデータを自動送信させるシステムを稼働させているなんて話も聞きますので、似たような使われ方は今後もどんどん進むと思われます。


13. デバイス・システム間でデータを共有するためのAPIやアプリが増える


多分IoTに絡めた話題だと思いますが、ちょっとこれは僕にとっては専門外なのでコメントしにくいです。


14. 環境問題にもっとデータサイエンスが適用されるようになる


後に続けて「太陽フレア爆発の予測や新たな小惑星の発見など」という例が挙がっています。これのどこが環境問題なんだか全然分からないんですが(笑)、これまであまりデータ分析というか機械学習がゴリゴリ使われてこなかった&社会的要請の強い分野にもデータ分析が進出するようになる、という予測には僕も同意です。


では、日本の事情はどうなのか


個人的な読みですが、1, 5, 7, 11は日本でも来年以降進むだろうなと思っています。既にDataRobotの進出が日本でも喧伝されていますし、まがい物のデータサイエンティストが軽んじられる流れは日本でも見えてきていますし、AWSやAzureやGoogle Cloud Platformを利用するデータ分析部門は増えていますし、そして日本でもテロ対策に限らず一般犯罪対策としての監視カメラデータの活用は(陰に陽に)増え続けています。少なくとも直近ではこの4点が顕著になっていくのかなぁと。


ということで、このブログも今年はこの記事でお開きです。来年の初記事は少々遅れるかもしれませんが、ブログ自体は続けるつもりなので気長にご期待下されば幸いです。ではでは、皆さん良いお年を!

*1:以前僕もこんな記事に取り上げてもらったことがあります

*2:S何とかSやらS何とかSSやらその他雨後の筍の如く現れたデータ○○と名の付くもろもろ