先日ですが、旧知の*1Grahamianさんのこんなツイートが話題になっていました。
データ分析をするときシンプルに重要なことは「生のデータを眺める」と「データの分布をグラフにする」ことなんじゃないかと思うんですよね。すぐにクロスとかファネルとかコホートとかやりたくなるんですけど、まずは目の前のデータがどんなものか頭にマッピングさせることが長期的に効いてくる感じ。
— Grahamian📊データ分析と機械学習 (@grahamian2317) 2021年1月12日
何を当たり前のことを言っているんだと眉を顰める向きもあるかもしれませんが、これだけデータサイエンスやら機械学習(人工知能)やらが喧伝されている昨今においては、少なからぬ現場で「データはどこかのAPIからバルクでダウンロードしてくるor本番DBから転送してくるだけ」「やってきたデータは中身を見もせずにそのまま統計分析や機械学習などを駆使したデータ分析環境に丸投げ」みたいなことが良く起きているようです。
そこで「まず最初に生データを自分の目で見てみよう」という話が毎回出てくるんですが、何故そんなことをしなければならないのか?というのは実際に生データを見ないで後で大変なことになったという経験のある人でもない限りは、意外と納得してもらえないことが多い印象があります。
ということで、今回の記事では僕がこの5年間手弁当で続けている初級者向けデータサイエンス講座の初回に、「データの性質を知るというのはこういうことなんですよ」という例として取り組んでもらっている例題を再録し、「何故データ分析をする前に生データを見るべきなのか」という疑問への答えとしてみようと思います。なお、この例題は分かりやすさとシンプルさを最優先にしているがためにかなりの部分で厳密さを欠いているので、それらの点については予めご容赦下されば幸いです。
続きを読む