渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

データ分析をする前に、まず生データを見てみよう

f:id:TJO:20210114133111p:plain

先日ですが、旧知の*1Grahamianさんのこんなツイートが話題になっていました。

何を当たり前のことを言っているんだと眉を顰める向きもあるかもしれませんが、これだけデータサイエンスやら機械学習人工知能)やらが喧伝されている昨今においては、少なからぬ現場で「データはどこかのAPIからバルクでダウンロードしてくるor本番DBから転送してくるだけ」「やってきたデータは中身を見もせずにそのまま統計分析や機械学習などを駆使したデータ分析環境に丸投げ」みたいなことが良く起きているようです。


そこで「まず最初に生データを自分の目で見てみよう」という話が毎回出てくるんですが、何故そんなことをしなければならないのか?というのは実際に生データを見ないで後で大変なことになったという経験のある人でもない限りは、意外と納得してもらえないことが多い印象があります。


ということで、今回の記事では僕がこの5年間手弁当で続けている初級者向けデータサイエンス講座の初回に、「データの性質を知るというのはこういうことなんですよ」という例として取り組んでもらっている例題を再録し、「何故データ分析をする前に生データを見るべきなのか」という疑問への答えとしてみようと思います。なお、この例題は分かりやすさとシンプルさを最優先にしているがためにかなりの部分で厳密さを欠いているので、それらの点については予めご容赦下されば幸いです。

*1:Twitterでは、の意

続きを読む

人類未曾有の危機に抗いながら、前を向く

f:id:TJO:20201219174315p:plain
(Image by cromaconceptovisual from Pixabay)

これは年末恒例のポエムです。故に皆様にとって役に立ったりあまつさえ学術・技術的に価値ある内容などは何ひとつございませんので、予めご了承ください。


今年は何と言っても、COVID-19パンデミック新型コロナウイルス及びその感染症とさらには派生した「コロナ禍」と呼ばれる社会的影響)という人類未曾有の危機が世界中のほぼ全ての話題をさらった1年でした。僕自身にとっても、本業の仕事でも趣味のデータ分析でもコロナと向かい合うことを迫られ続けた1年であったという印象があります。


今回の記事ではそんな今年1年間を振り返りつつ、来年以降 (with / after COVID-19) の展望を徒然なるままに書き散らしてみようかと思います。

続きを読む

『AI・データ分析プロジェクトのすべて』は駆け出しからベテランまで全てのデータ分析者が読むべき仕事術大全

旧知どころか僕が7年前にこのブログを始めた頃からの友人でもある、てつろーさんこと伊藤徹郎さんからご恵贈いただいたのがこちらの一冊です。執筆陣にはてつろーさんのみならずデータ分析業界の著名人がズラリと並んでおり、これぞ豪華版といったところでしょうか。


執筆陣が豪華なだけあって、内容もまた素晴らしい充実ぶり。今年読んだデータ分析業界の新刊書の中でもトップクラスと言っても過言ではないと思います*1。記事タイトルにも大書しましたが、まさにこれこそが「全てのデータ分析者が読むべき仕事術大全」だと唸らされた次第です。


ということで、早速本書をレビューしてみようと思います。なおコードや数式の殆ど出てこない本なので誤読や誤解釈のようなことはないだろうと思われますが、何かおかしな点があればコメント欄などでご指摘くだされば幸いです。

*1:ちなみに今年3月下旬から勤務先オフィスが閉鎖されているため、オフィスにお送りいただいた献本はいずれも目を通すことすらできていません。恐らく最低でも5冊はあるはずなのですが。。。

続きを読む