渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

移り変わる「データサイエンティストの『常識』」について考える

f:id:TJO:20190816143411p:plain
(Image by Pixabay)

先日、こんな話題を見かけました。

で、悪ノリした僕はこんなアンケートをやってみたのでした。

このアンケート結果こそが、今回の記事を書こうと思ったきっかけです。ある程度知識のある方ならお分かりかと思いますが、ここで挙げた「AIC」「正則化」「EMアルゴリズム」「カーネル法」のいずれも、基本的にはデータサイエンティストであれば「常識」の範疇に属する事項でしょう。特にAICは故・赤池弘次先生が発明した世界的にあまりにも有名な情報量規準であり、少なくとも僕がデータサイエンティストに転じた2012年頃だとステップワイズ法と併せてモデル選択で用いるべき「常識的な」指標だったと記憶しています。それが意外にも28%の人たちから「知らなかったとしても許される」扱いされたということで、個人的には大いに驚いたのでした*1


勿論言うまでもなく、世間一般では時代が移り変われば「常識」は移り変わっていくものとされます。同じように、データサイエンティスト(そして機械学習エンジニア)にとってもまた「常識」というのは時代とともに移り変わりゆくものなのだな、というのが上記の結果を見た時の僕の感想でした。その意味で言うと、このアンケートの結果は色々な説明や解釈が可能なように見えますし、その裏側には少なくとも僕が見てきた日本のデータサイエンティストブーム・人工知能ブームの7年間の歩みが確かに横たわっているようにも感じられます。今回は、そんな「常識」の変遷について僕個人の見聞と体験の範囲で簡単に論じてみようと思います。狭い範囲の見聞談&体験談なので、抜け漏れや誤認識があればどしどしご指摘くださいm(_ _)m

*1:いやEMアルゴリズムが一番になったのも十分に驚きでしたが

続きを読む

『RとStanではじめるベイズ統計モデリングによるデータ分析入門』は「みどりぼん」に取って替わる次世代の統計モデリング+ベイジアン入門書

f:id:TJO:20190725154058p:plain

ここ2ヶ月ぐらいに渡って多くの方々からご著書をご恵贈たまわっているのですが、そのうちの一冊がこちら。かつて計量時系列分析を学んでいた頃に僕も大変お世話になった、Logics of Blueブログの馬場さんの手による『RとStanではじめるベイズ統計モデリングによるデータ分析入門』です。

以前はベイズ統計モデリングの入門書というと「みどりぼん」こと『データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)』一択でしたが、皆さんもご存知のように既にメンテされていないWinBUGSを使っているなどout-of-dateな要素が多く、近年はこれに替わる良書はないものかといつも頭を悩ませていました。今回の馬場さんのご著書は、まさにこれに取って替わる現時点でベストの一冊ではないかと個人的には考えています。


ということで、いつも通り本書全体の構成を一通り紹介した上で注目ポイントを挙げていこうと思います。そしてこれまたいつもながらの話ですが、僕自身の知識不足などにより誤読している部分があるかもしれませんので、お気付きの方はどしどしご指摘くださいm(_ _)m

続きを読む

Undersampling + baggingで不均衡データに対処した際の予測確率のバイアスを補正して、その結果を可視化してみる

この記事は以下の検証記事の続きです。


先日、Twitterでこんなお話を見かけました。


その記事がこちらです。


そう言えば、上記の検証記事の中でもコメントしたのですが「undersampling + baggingで不均衡データを補正するとfalse positiveは物凄く多くなる」んですよね。これは僕も結構気になっていて、もう少し巧みに正例の領域にだけ限局して決定境界を引けないものか?と思っていました。この方法を使えばそれが実現できるのかどうか、実際に試してみようと思います。


なお、前回の記事同様面倒なのでRでランダムフォレストのみ、baggingも100に固定します。またRスクリプト自体も対して汎用性高く書いていませんので、お手元でより汎用的に書きたいという方は適宜ご自身でパラメータのところは調整してください。

続きを読む