渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

欠損値処理に関する備忘録

最近某所で話題になっていたのが「欠損値処理はどうやるべきか」というテーマ。これは太古の昔から「荒れるテーマ」として有名で、今回も大いに荒れていて傍観している側としては面白かったんですが(笑)、古老ともあろう身がただ面白がっているだけでは自分を含めて誰の学びにもならないので、良い機会ということでちょっと欠損値処理に関する備忘録をまとめておこうと思います。いつもながらですが、誤解や理解不足の点などあればどしどしご指摘ください。

続きを読む

AIや機械学習が持て囃されて、統計分析やデータ可視化がいまいち主流になれない理由

先日のことですが、こんなことを放言したら思いの外伸びてしまいました。

これはデータサイエンス実務に長年関わる身としてはごくごく当たり前の事情を述べたに過ぎなかったつもりだったのですが、意外性をもって受け止めた人も多ければ、一方で「あるある」として受け止めた人も多かったようです。


基本的に、社会においてある技術が流行って定着するかどうかは「ユーザーから見て好ましいかどうか・便利であるかどうか」に依存すると思われます。その意味でいうと、データ分析技術にとっての「ユーザー」とは大抵の場合は非専門家かつそれぞれのビジネスにおける意思決定者もしくはステークホルダーのことを指しており*1、その文脈に沿えば「ビジネスにおける意思決定者にとってはAIや機械学習の方が好ましく見えている一方で、統計分析やデータ可視化は必ずしもそうでもない」ということになるのでしょう。これは割と残酷な現実である一方で、昨今のデータサイエンスブームの中では見過ごされている観点でもあるように見受けられます。


そんなわけで、このブログもめっきり与太話記事ばかり増えてきている中で恐縮ではありますが、この記事ではその辺の事情をもう少し掘り下げて考察してみようと思います。なお、ここで「統計分析」といった場合は以前の記事に対して指摘があったような統計的品質管理業界のそれではなく、どちらかというと経営管理マーケティングといった業界における意思決定などに使われるものを指す点ご了承ください。

*1:生活者のような末端の「ユーザー」の話題ではない点に注意

続きを読む

ヒトだからこそ価値を出せる余地は、AIやデータサイエンスの「外側」の本質への関わり方にある

恒例の年末振り返り記事ですが、もうタイトルが示す通りです。例年通りであれば淡々と1年間の業界動向や個人的な学び、はたまたちょっとした私事などを綴るのですが、今年はたまたま良いお題がやってきたのでまず最初にその話を書こうと思います。

続きを読む