六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

データサイエンティストもしくは機械学習エンジニアになるためのスキル要件とは(2017年夏版)

f:id:TJO:20170625152346p:plain

この記事は2年前の以下の記事のアップデートです。

前回はとりあえずデータサイエンティストというかデータ分析職一般としてのスキル要件として、「みどりぼん程度の統計学の知識」「はじパタ程度の機械学習の知識」「RかPythonでコードが組める」「SQLが書ける」という4点を挙げたのでした。


で、2年経ったらいよいよ統計分析メインのデータサイエンティスト(本物:及びその他の統計分析職)vs. 機械学習システム実装メインの機械学習エンジニアというキャリアの分岐が如実になってきた上に、各方面で技術革新・普及が進んで来たので、上記の過去記事のスキル要件のままでは対応できない状況になってきたように見受けられます。


そこで、今回の記事では「データサイエンティスト」*1機械学習エンジニア」のそれぞれについて、現段階で僕が個人的に考える「最低限のスキル要件」をさっくり書いてみようかと思います。最初にそれらを書き出しておくと、以下のような感じです。ただし僕は機械学習エンジニアには該当しないので、あくまでもかつて前職や前々職で機械学習エンジニア採用担当だった時に想定していた要件や、同僚友人知人で機械学習エンジニアの業務を担当している人のスキルセットを見た範囲での要件を書いてあります。

データサイエンティスト


機械学習エンジニア

  • 講談社MLPシリーズの中で業務に関連する主要な巻がカバーする機械学習の手法と実装
  • 黄色い本(PRML)及びカステラ本(ESL)に該当する一般的な機械学習の知識
  • Deep Learningの実装経験及びその知識、そして代表的なフレームワークの知識(TensorFlow, Keras, MXnet, PyTorch, Chainer, Theano...)
  • Pythonに加えて実行速度の速い言語(C++, Javaなど)でコードが書ける
  • SQL文法を含むデータベース操作の技術
  • クラウドの知識

なお、ここで挙げた個々のテキストについては基本的には今年のオススメ書籍リストの中級者向け15冊の中に含まれているので、そちらをご参照ください。

ということで、それぞれの要件を何故選んだのか?という理由について以下うだうだと書いていこうかと思います。なお、しつこいようですがここで挙げている要件は僕の個人的な意見であり、いかなる企業・組織・団体などの意見も一切代表していませんので悪しからず。

*1:以下(本物)表記は割愛します、(カナ)のスキル要件はその辺の薄い本にお任せするということで

続きを読む

RにTensorFlow + Kerasを実装した{keras}パッケージがやって来たので試してみた(追記2件あり)

Python側でのTensorFlowの隆盛を他所に、R側では{tensorflow}も使いにくいし*1これはPythonistaに転生しなければならんのかなぁ。。。ということを思っていたら、出ました。あのKerasのRパッケージです。

インストール手順は普通にR Interface to Keras • kerasに書いてある通り、以下の通りRコンソールから打てばおしまいです。

devtools::install_github("rstudio/keras")
library(keras)
install_tensorflow()

ということで、早速色々試してみようと思います。

*1:自社のフレームワークに対してあるまじき発言ですが笑

続きを読む

企業に移って5年が経ちました

月日が経つのは早いもので、かつてボンクラ研究者だった僕が企業(そしてインダストリー*1)に移ってからちょうど今日で5年が経ちました。インダストリーに移ってからのこの5年間で様々なことを体験し、あるいは見聞し、あるいは決断したりしてきたわけですが、良い区切りなので自分にとってのマイルストーンとするためにも、ここでこれまでの5年間を振り返ってみようと思います。

*1:ここでは「企業社会」「産業界」ぐらいの意味です

続きを読む