読者です 読者をやめる 読者になる 読者になる

六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

「アカデミアの博士がデータサイエンティストに生まれ変わって企業に転身するための5つの秘訣」(海外記事紹介)

データサイエンティスト

こんな大変面白い記事が紹介されているのを見かけました。


そもそもこのサイト自体が「6週間でポスドクをデータサイエンティストに生まれ変わらせる」*1プログラムの公式サイトのようです。日本でも統数研がそのような試みを始めようとしていますが、さすがは本場アメリカ。もう既にやってるところがあるんですねー。


トップページを見るとこのプログラムの卒業生が一部紹介されていますが、その(元の)専門分野は物理学・数学・応用数理学・オペレーションズリサーチ・天体物理学・生態学*2と、もうまちまちです。こんな「素人目にはとてもデータサイエンスと関係するとは思えない」*3人たちをデータサイエンティストになるべく鍛え上げ、Facebook, YouTube, LinkedInといったシリコンバレーを代表する超有名企業に送り込んでいるわけで*4、実際問題として非常に優れたプログラムなんじゃないかと僕には思われます。


ということで、この記事を寄稿したのもこのプログラムのOBで、計算機科学や情報学とは無縁のハーバードの物理学のPh.D. courseを修了したのち、現在Twitterでデータサイエンティストの職に就いているという人物みたいです。その内容が重ね重ねになりますが大変面白いので、全文を訳して*5紹介しておきます。

ハーバードで物理学のPh.D.を取得し、現在はTwitterでデータサイエンティストおよびインサイト・フェローとして働くダグラス・メイソン氏が、いかにしてアカデミアから産業界のデータサイエンスの世界にキャリアチェンジするか、についてのアドバイスを以下のようにまとめてくれた。


1年ほど前、物理学のPh.D.を取得した後で僕は、自分では予想もしていなかった一方で結果的に実りある結果となったキャリアチェンジの準備を始めた。長年にわたる僕の夢は、国立研究機関で物理学者として働くことだった。だが、いざその時が来て悟ったんだ・・・自分はそういう運命ではなかったのだと。


この"Insight"プログラムに参加する前は、TwitterFacebook、はたまたGoogleといった企業からオファーを勝ち取るための知識なんて事実上ゼロだった。その代わり、僕はこのプログラムに参加する前も、参加している最中も、そして卒業した後も、絶え間なく(データサイエンティストに生まれ変わるんだという情熱で)熱狂し続けた。それが今の成功、つまりTwitterでデータサイエンティストとして働くという今の自分の立場につながっているのだと信じている。

ここに、アカデミアからITデータサイエンスの世界に転身するための一番の秘訣を書いておこう。

ここで働きたいんだ!という情熱を示せ。

実は今現在、僕はTwitterで採用応募者の面接プロセスにかかわっている。多分だけど、これを読んでいる人たちはその席でどれくらいたくさんの応募者たちがこんなことを言っているか信じないんだろうな・・・「ええと、アカデミアでやっていることは自分には合わないみたいなんです。今こそ転職すべき時だと思ってはいるんです」。残念ながら、レジュメを見ていても、採用面接でも、彼らが自分たちを好印象に見せる努力を全くしていないということが、僕らには分かってしまうんだ。


そういう場合に、僕らがそいつを雇うと思うかい? 僕らは積極的に「ここ」で働きたい!という人たちを雇いたいんだよ。

博論でやったことと、データサイエンスの世界でやることになるであろう仕事との間に、どれくらい関連があるかを強調しよう。

僕のデータサイエンスのキャリアは、学位論文を書き上げ切ったという経験に裏付けられていると信じている。君もPh.D.として、自分の全責任のもと5年間のプロジェクトをやり切ったんだということをぜひ忘れないでほしい。君はまた、日常的にトークをしたり、プレゼンをやったり、自分の研究をまとめて公表するということもしてきたはずだ。それは、まさに僕のデータサイエンティストとしての職務の中に含まれていることでもある。データサイエンティストの仕事は、本質的には学位論文のプロジェクト全体を(例えば)1つか2つのクォーターに詰め込んだようなものなんだ。


今なら、問題が何かを理解するのを助けてくれる仲間がいるはずだ。彼らに相談しながらで良いから、レジュメにせよ面接の場にせよ、君が博論を通じて学んだことと求人情報に載っている職務内容とにどれくらい関連があるかを、是非見つけ出してほしい。

必須スキルを身に付けるための時間を確保せよ。どれも簡単じゃないぞ。
  • 君が博論で用いたアルゴリズムとデータ構造を、相異なる多くのソースから学ぼう。
  • 再帰的プログラミングの学習のための時間を取ろう。たぶん、これまでの君の考え方とはかなり違う。なので夜やるとまずい。
  • 君が使っている統計学的手法について復習しよう。色々なタイプの回帰分析について知る必要がある。もちろんp値や仮説検定についても。
  • 順列組み合わせ問題からどうやって期待値を求めるかを学ぼう。
  • SQLについて勉強し、実践してみよう。
  • もし君がMatlabFortranを使っているのなら、今こそPythonかRに変えるべき時だ。スキルを磨くために、面白いサイドプロジェクトを走らせよう。
出来る限りITエンジニアコミュニティに参加しよう。

プログラミング言語を学び、専門用語を学び、そして彼らが何を話し、何を考えているかを学ぼう。何に彼らが価値を置いているかを学ぼう。そういうことを何もせずに採用面接になんか行ったら、残念ながらエイリアン扱いされるだけだ。面接の席では、そういう専門用語を口にしてみせたりして、それらを学ぶつもりがあるんだという姿勢を見せなければいけない。

自分の希望に合った従業員数の会社を選ぼう。

僕自身は、Twitterが中くらいの規模の会社であることが気に入ってるんだ。何故なら、これくらい規模が大きければ僕が周りのエキスパートたちから色々なことを根掘り葉掘り習うには好都合だし、一方で会社全体に行き渡るような何かでかいインパクトを自分の力で叩き出そうと思ったら今の規模ぐらい小さい方が良い。僕にとっては、これが理想のバランスなんだ。


だから、君も自分自身がどんな規模の企業に行きたいのかをよく考えよう。そしてこの業界のベテランたちからたくさんアドバイスをもらおう。


・・・このプロセスをたどっていく中で、たぶん君にとっては分からないことだらけという状況になるだろうということをよくよく覚えていて欲しい。実際、「分からないこと」があるというのはこのキャリアパスにとっては当たり前のことだ。


そのことに慣れ、集中し、ポジティブな気持ちを忘れず、一生懸命勉強するんだ。冒険するということは、大抵の場合それだけの価値があることなのだから。


僕自身、データサイエンスとは直接関係ない分野の博士からデータサイエンティストへと転じたので、この人の言いたいことはよく分かるつもりです。さすがに全く同じことをしたわけではありませんが、少なくともかなり似たような取り組みは僕もちょっとだけながらやってきたなぁ*6、と思ってます。


最近になって、博士課程在籍中の学生さんでデータサイエンティストというキャリアパスに興味を持っている人たちから、「どうやったらデータサイエンティストになれるのか?」という質問を受ける機会がちょこちょこ相次いでいるので*7、この記事を紹介してみました。参考になれば嬉しいです。

*1:6週間じゃ無理だろとか突っ込むのは無粋ってことで

*2:つまり計算機科学とか情報学とかデータサイエンスに直結する分野ではない

*3:僕自身は彼らにデータサイエンティストになれる素養がある(あった)ことを理解してます、念のため

*4:トップページの下の方にある協賛企業リスト(メンターも派遣してもらってるらしい)は確かに凄い

*5:ある程度意訳してます

*6:ただしCAに入る前にやっていたというわけではない。。。むしろCAに入った後にやってたと言うべきか

*7:ポスドクや任期付き研究者から質問を受けたことはないですな、そう言えば。。。