渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

2021年版:データサイエンティストを初めとするデータ分析職向け推薦書籍リスト(初級5冊+中級8冊+テーマ別14冊)

(Image by Pexels from Pixabay)

今年も恒例の推薦書籍リストの季節がやって参りました。……なのですが、昨年はCOVID-19の影響で*1データ分析業界及び隣接分野の新刊書を読む機会が減ってしまいましたので、例年に比べてラインナップの変更をほとんど検討しないままでリストアップしている点、予めご容赦いただければと思います。


そして今回の記事では、これまで以上に「実務家向け」「実践的」であることを重視しています。そのため昨年までのリストに比べて大幅に刷新されているカテゴリもあったりします。また、末尾に僕なんぞが選ぶよりもずっと優れた推薦書籍リストへのリンクも付しておきました。併せて参考にしていただけると幸いです。

*1:特に献本の形でご恵贈いただいた各種書籍が閉鎖されたオフィス内のメールボックスに放置されたままで、読めていないものが最低でも5冊あります

続きを読む

データサイエンティストにとっては「技術」も「課題解決」も等しく重要

旧知のシバタアキラさん*1が、こんなインタビュー記事に登場されていて話題を呼んでいるのを拝見しました。日本の第一次データサイエンティスト(DS)ブームの最初期から一貫してDSとして活動し、それ以前はポスドク研究者だったという、僕個人にとってはあまりにも共通点の多い「同世代DS」のシバタさんのメッセージだけに、僕にとっては大いに首肯できるものがあります。


ただ、無駄を削いでエッセンスだけに絞られたメッセージになっているせいか、各所で付いている反応の数々を見ると「もしかしたら誤解されているのでは?」という印象を受けるものもチラホラ目についたのが気になりました。そこで、勝手ながらシバタさんのメッセージに合わせて、同世代DSとして僕も長年感じてきた課題意識を盛り込んだ注釈もしくは解説のようなものを書いてみようと思います。要はポエムですので、R/Pythonコードも数式も出てきませんよということで、予めご了承ください。


それからもう一点。ここでは「データサイエンティスト」「機械学習エンジニア」を、それぞれ「アナリストの延長」「エンジニアの延長」と分けた上での、データサイエンティスト単体の話題に絞っています。機械学習エンジニアの場合は以下の議論に当てはまらない点が多い旨最初に指摘しておきます。そして、以下データサイエンティストは文脈上差し支えない場面では適宜「DS」と略すこととします。

*1:DataRobot Japanの代表にもなられて、おそらく同世代DSの中では一番の出世頭でいらっしゃるのではと個人的には思っています

続きを読む

データ分析をする前に、まず生データを見てみよう

f:id:TJO:20210114133111p:plain

先日ですが、旧知の*1Grahamianさんのこんなツイートが話題になっていました。

何を当たり前のことを言っているんだと眉を顰める向きもあるかもしれませんが、これだけデータサイエンスやら機械学習人工知能)やらが喧伝されている昨今においては、少なからぬ現場で「データはどこかのAPIからバルクでダウンロードしてくるor本番DBから転送してくるだけ」「やってきたデータは中身を見もせずにそのまま統計分析や機械学習などを駆使したデータ分析環境に丸投げ」みたいなことが良く起きているようです。


そこで「まず最初に生データを自分の目で見てみよう」という話が毎回出てくるんですが、何故そんなことをしなければならないのか?というのは実際に生データを見ないで後で大変なことになったという経験のある人でもない限りは、意外と納得してもらえないことが多い印象があります。


ということで、今回の記事では僕がこの5年間手弁当で続けている初級者向けデータサイエンス講座の初回に、「データの性質を知るというのはこういうことなんですよ」という例として取り組んでもらっている例題を再録し、「何故データ分析をする前に生データを見るべきなのか」という疑問への答えとしてみようと思います。なお、この例題は分かりやすさとシンプルさを最優先にしているがためにかなりの部分で厳密さを欠いているので、それらの点については予めご容赦下されば幸いです。

*1:Twitterでは、の意

続きを読む