渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

データサイエンスは扱い方次第でscienceにもpoliticsにもなり得る

これまでの10年以上に渡って、僕個人としては「データサイエンスはscienceである」という信念を持って、このブログなり各種SNSなり様々なカンファレンス・セミナー・イベントなりで活動してきたつもりです。が、近年になって「どう見てもそれはデータサイエンスと言ってもscienceではなくpoliticsでは」という案件が日に日に増えてきている印象があり、顰蹙し過ぎて眉が筋肉痛になりそうな感があります。


ということで、ネタ切れで与太話ぐらいしか書くことがないというのもありますが「データサイエンスは扱い方次第でscienceにもpoliticsにもなり得る」事例を幾つか振り返りながら、データサイエンス実務に関わる分析専門職はどうするべきかという話を書いてみようかと思います。

続きを読む

深刻な不具合のあるデータ分析は、大抵の場合データも実装コードも見るまでもなくそれと分かってしまう

しばらく前に、こんなことを嘯いたら思いの外反応が伸びたのでした。

日本社会にデータサイエンスが本格的に普及するようになって10年強が経ち、空前のDXブームで猫も杓子もデータ活用を喧伝するようになって5年ほどが経ちますが、それでもなお「専門家から見れば中身を調べるまでもなく深刻な不具合のあるデータ分析」が行われていて、挙げ句の果てにその結果や成果物が大手を振って歩いているというケースはチラホラ散見されます。


そこで今回の記事では、ケーススタディ的にそういった「データも実装コードも見るまでもなく深刻な不具合のあるデータ分析だと分かってしまった」事例を幾つか取り上げてみようと思います。その上で、それらの根底に共通する課題を探ってみることとします。

続きを読む

多重共線性のはなし

どうも昨年末にあちこちで多重共線性についての議論がなされていたようなんですが、些事にかまけていた僕はすっかりそのウェーブに乗り損ねてしまっていたのでした。そこで、今年最初の記事では遅ればせながらそのウェーブに乗る形で、また今までに学んだり調べてきたりしてきたことの備忘録も兼ねて、多重共線性についてまとめてみようと思います。

続きを読む