渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

初めてこのブログに来た方へ

f:id:TJO:20200106165910p:plain
これは初めてこのブログに来た方々向けのトップ固定記事です。最新記事の更新状況に応じて随時更新されます。

はじめに


公式のプロフィールはLinkedInに掲載しております。


このブログの内容は個人の意見・見解の表明であり、所属組織の意見・見解を代表しません。またブログ記事の内容の正確性については一切保証いたしません。学術的・技術的コンテンツを求めて来訪された方は、必ず学術書や論文などのオーソライズされた資料を併せてご参照ください。むしろ僕自身の学習のプロセスを記録しているだけの備忘録的記事が多いため、誤りもまた多いはずです。後学のため、誤りを見つけた場合はコメント欄などでお知らせいただけると有難いです。


また、ブログの中で取り上げられているデータ分析事例・データセット・分析上の知見など全ての記述は、いずれも特別に明記されていない限りはいかなる実在する企業・組織・機関の、いかなる個別の事例とも無関係です。ブログ記事内容は予告なく公開後に改変されることがあります。改変した事実は明示されることもあれば明示されないこともあります。


このブログはあくまでも僕自身にとっての備忘録であり、利便を考えてweb上に公開しているだけという位置付けのものです。中にはその見かけとは全く別の真の目的をもって書かれた記事もあります。以上の点をご理解の上、お読み下さると有難いです。

id:TJOとは何者なのか

データサイエンティスト・機械学習人工知能)エンジニアとは何か

データ分析を仕事にしたければ読むべき本は何か

続きを読む

統計学とはそもそも「無作為抽出された少量のデータ」を分析するためのものであった

しばらく前にQuoraにこんなアンサーを書いたことを思い出したので、ついでにリブログ記事として転載の上加筆修正したものを用意してみました。僕にしては珍しくコッテコテの頻度主義的な話題である上に、「p値なんか使うのはやめてしまえ」という記事を以前に書いておきながらこんな議論をするのは自己矛盾かもしれませんが(笑)、これまでの統計学の歴史を紐解くことで、温故知新ということで新たに理解されることもあるのかなと思っています。

続きを読む

2021年版:データサイエンティストを初めとするデータ分析職向け推薦書籍リスト(初級5冊+中級8冊+テーマ別14冊)

f:id:TJO:20210112142645p:plain

(Image by Pexels from Pixabay)

今年も恒例の推薦書籍リストの季節がやって参りました。……なのですが、昨年はCOVID-19の影響で*1データ分析業界及び隣接分野の新刊書を読む機会が減ってしまいましたので、例年に比べてラインナップの変更をほとんど検討しないままでリストアップしている点、予めご容赦いただければと思います。


そして今回の記事では、これまで以上に「実務家向け」「実践的」であることを重視しています。そのため昨年までのリストに比べて大幅に刷新されているカテゴリもあったりします。また、末尾に僕なんぞが選ぶよりもずっと優れた推薦書籍リストへのリンクも付しておきました。併せて参考にしていただけると幸いです。

*1:特に献本の形でご恵贈いただいた各種書籍が閉鎖されたオフィス内のメールボックスに放置されたままで、読めていないものが最低でも5冊あります

続きを読む

データサイエンティストにとっては「技術」も「課題解決」も等しく重要

旧知のシバタアキラさん*1が、こんなインタビュー記事に登場されていて話題を呼んでいるのを拝見しました。日本の第一次データサイエンティスト(DS)ブームの最初期から一貫してDSとして活動し、それ以前はポスドク研究者だったという、僕個人にとってはあまりにも共通点の多い「同世代DS」のシバタさんのメッセージだけに、僕にとっては大いに首肯できるものがあります。


ただ、無駄を削いでエッセンスだけに絞られたメッセージになっているせいか、各所で付いている反応の数々を見ると「もしかしたら誤解されているのでは?」という印象を受けるものもチラホラ目についたのが気になりました。そこで、勝手ながらシバタさんのメッセージに合わせて、同世代DSとして僕も長年感じてきた課題意識を盛り込んだ注釈もしくは解説のようなものを書いてみようと思います。要はポエムですので、R/Pythonコードも数式も出てきませんよということで、予めご了承ください。


それからもう一点。ここでは「データサイエンティスト」「機械学習エンジニア」を、それぞれ「アナリストの延長」「エンジニアの延長」と分けた上での、データサイエンティスト単体の話題に絞っています。機械学習エンジニアの場合は以下の議論に当てはまらない点が多い旨最初に指摘しておきます。そして、以下データサイエンティストは文脈上差し支えない場面では適宜「DS」と略すこととします。

*1:DataRobot Japanの代表にもなられて、おそらく同世代DSの中では一番の出世頭でいらっしゃるのではと個人的には思っています

続きを読む