渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

Facebookが考えるデータサイエンティストの要件


そもそも、データサイエンティストという職種を提唱し始めたのはFacebookだとも言われています。おそらく同様の人材は例えばGoogleやMicrosoft、Yahoo!あたりでも求めていたのだろうと思うのですが、今言われているようなデータサイエンティストを職種として定義し、実際に採用するようになったのはFacebookが最初だったんじゃないでしょうか。



では、Facebookは実際にどういう人材をデータサイエンティストとして定義し、何をその要件としているんでしょうか?


データサイエンティストの採用ページ(こちら)を見ると、こんなことが書いてあります。

Responsibilities

  • Work closely with a product engineering team to identify and answer important product questions
  • Answer product questions by using appropriate statistical techniques on available data
  • Communicate findings to product managers and engineers
  • Drive the collection of new data and the refinement of existing data sources
  • Analyze and interpret the results of product experiments
  • Develop best practices for instrumentation and experimentation and communicate those to product engineering teams


職務について

  • 製品が抱える重要な課題を突き止め、それを解決するために、エンジニアサイドの製品開発チームと密接に関わりながら働く
  • 利用可能なデータセットに対して適切な統計学的手法を用いて、製品が抱える課題を解決する
  • 得られた知見をマネージャーやエンジニアに共有させる
  • 新たなデータの収集と、既存のデータソースの改良(品質向上など)
  • 製品に関する実験(おそらくA/Bテストなど)結果の分析と解釈
  • データ測定&実験手法のベストプラクティスを開発し、これをエンジニアサイドの製品開発チームに共有させる

Requirements

  • M.S. or Ph.D. in a relevant technical field, or 4+ years experience in a relevant role
  • Extensive experience solving analytical problems using quantitative approaches
  • Comfort manipulating and analyzing complex, high-volume, high-dimensionality data from varying sources
  • A strong passion for empirical research and for answering hard questions with data
  • A flexible analytic approach that allows for results at varying levels of precision
  • Ability to communicate complex quantitative analysis in a clear, precise, and actionable manner
  • Fluency with at least one scripting language such as Python or PHP
  • Familiarity with relational databases and SQL
  • Expert knowledge of an analysis tool such as R, Matlab, or SAS
  • Experience working with large data sets, experience working with distributed computing tools a plus (Map/Reduce, Hadoop, Hive, etc.)


要件

  • 関連する分野での理系修士号もしくは博士号、ないし関連分野での4年以上の実務経験
  • 定量的アプローチに基づく分析的問題の解決に取り組んだ経験が豊富であること
  • 多様なデータソースから複雑・大容量かつ高次元なデータを、難なく操作し分析できること
  • 経験的調査研究および困難な課題をデータに基づいて解決しようという強い熱意
  • 様々なレベルの精度に対応して分析する能力
  • 複雑で定量的な分析結果を、明解・正確かつ実際の行動(経営改善)に落し込める形で伝えられる能力
  • PythonもしくはPHPなどスクリプト言語を最低でも一つは難なく使えること
  • RDBSおよびSQLのスキルがあること
  • R, Matlab, SASなどの分析ツールのエキスパートであること
  • 大規模データセットや分散処理システムを用いた就業経験があること(MapReduce, Hadoop, Hive, etc.)


大筋で、僕が考えるデータサイエンティストの要件にかなり近いイメージです(上から目線ですみません)。というか、確かにこれくらいできればデータサイエンティストと名乗って、一企業の意思決定そのものを支援できるだろうなぁという印象です。


さすがはFacebookで、最後にHadoop, Hiveを要件に付け加えてますね。Hiveは皆さんご存知の通り、FacebookからApacheに寄贈されたプロジェクトです。


日本のデータサイエンティスト系求人の中には、時々「これこれの分析が出来ること」みたいな要件が書いてあることもありますが、Facebookはそういった特定のスキルを要求していません。


むしろ、下半分・・・即ちITプログラミング&データベーススキルの方がFacebookの求人要件では具体的に書かれています。あえて言えば、Facebookが期待するデータサイエンティストというのは「ITプログラミング&データベーススキルを有するデータサイエンスのエキスパート」ということなのかな?とも。


今後、データサイエンティストに必要なスキルセットを考えて行く上で参考になりそうだなぁ、と思って取り上げてみました。