渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

AIや機械学習が持て囃されて、統計分析やデータ可視化がいまいち主流になれない理由

先日のことですが、こんなことを放言したら思いの外伸びてしまいました。

これはデータサイエンス実務に長年関わる身としてはごくごく当たり前の事情を述べたに過ぎなかったつもりだったのですが、意外性をもって受け止めた人も多ければ、一方で「あるある」として受け止めた人も多かったようです。


基本的に、社会においてある技術が流行って定着するかどうかは「ユーザーから見て好ましいかどうか・便利であるかどうか」に依存すると思われます。その意味でいうと、データ分析技術にとっての「ユーザー」とは大抵の場合は非専門家かつそれぞれのビジネスにおける意思決定者もしくはステークホルダーのことを指しており*1、その文脈に沿えば「ビジネスにおける意思決定者にとってはAIや機械学習の方が好ましく見えている一方で、統計分析やデータ可視化は必ずしもそうでもない」ということになるのでしょう。これは割と残酷な現実である一方で、昨今のデータサイエンスブームの中では見過ごされている観点でもあるように見受けられます。


そんなわけで、このブログもめっきり与太話記事ばかり増えてきている中で恐縮ではありますが、この記事ではその辺の事情をもう少し掘り下げて考察してみようと思います。なお、ここで「統計分析」といった場合は以前の記事に対して指摘があったような統計的品質管理業界のそれではなく、どちらかというと経営管理マーケティングといった業界における意思決定などに使われるものを指す点ご了承ください。

*1:生活者のような末端の「ユーザー」の話題ではない点に注意

続きを読む

過学習(過剰適合)のはなし

すっかりおじさんになってしまった身としては近年の日本のミュージックシーンに極めて疎くなって久しいのですが、最近になってAdoさん*1の楽曲に『過学習』というタイトルのものがあるということを知ったのでした。

一体どこで「過学習」なんてマニアックなテクニカルタームが存在することを知って、あまつさえ楽曲のタイトルにしようと考えたのか、というのが不思議で仕方ないのですが、機械学習統計学を初めとするデータサイエンス領域の人々ぐらいにしか馴染みのなかった語がこうして人口に膾炙しているのかと思うとなかなかに感慨深いものがあります。


ということで、「過学習」とはどういうものであり、どのような場面で生じ、それをどうすれば避けられるか、という点について簡単にまとめてみることにしました。このテーマでは過去に何度もブログ記事を書いており、もはや何周目の話題なんだという感もありますが、温故知新ということでご容赦いただければと思います。また、記事中に理解不足やご認識の点などあれば何なりとご指摘くだされば幸いです。

*1:『うっせぇわ』の人&檻の中で歌う人という認識しかないですごめんなさい

続きを読む

『因果推論』(金本拓:オーム社)は因果推論に留まらず現代的なマーケティング分析手法まで網羅したバイブル

著者の金本さんからご指名でご恵贈いただいたのが、こちらの『因果推論 ―基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ―』です。正直に白状しますと、因果推論とタイトルにつく技術書はここ数年でゴマンと出版されており、本書も紙冊子で頂戴したものの僕はあまり期待せずにページをめくり始めたのでした(ごめんなさい)。


ところが、ほんの数ページめくっただけでその内容に僕は仰天しました。グラフィカルで実務家にとっての分かりやすさを重視した因果推論の解説と実践にとどまらず、現代的なマーケティング分析では必須の種々の手法についてまで懇切丁寧に解説とPythonによる実践例が付された本書は、文字通りマーケティング分析実務家にとってのバイブル」になり得る素晴らしい一冊だと直感したのです。


こんな素晴らしい本が世間に広まらないのはあまりにも勿体無いということで、早速レビューしてみようと思います*1。なお、いつもながらですが記述内容に理解不足や誤解などに基づく不備な点がありましたら、何なりとご指摘下されば幸いです。

*1:実は以下に揚げる図表をコピペしたいというだけのためにKindle版を別に私費で購入しています

続きを読む