2021-09-28

何故「データ『サイエンティスト』」と呼ばれるのか？という問いへの端的な答え

f:id:TJO:20210927143344p:plain

第一次データサイエンティスト・ブームから8年以上が経つわけですが、結構不思議なのが今でも「何故データ『サイエンティスト』という名前なのか？彼らは研究者ではないのだからおかしい」という議論が定期的に沸き起こる点です。

f:id:TJO:20210927143214p:plain

その理由は色々ありそうですが、つい最近ではこちらのNHKの報道特集でフィーチャーされたのが大きかったのかもしれません。つまり、それまで「データサイエンティスト」という語を知らなかった人たちがこのようなメディア報道に触れて初めて知るたびに、上記のような疑問を持つ人たちが現れては各所で議論になるという流れが繰り返されているということなのでしょう。

ということで、~~いつも通りネタ切れで書くことがないので~~今更ながらですが「何故データ『サイエンティスト』と呼ばれるのか？」という疑問に対する、僕なりの回答をざっくり書いてみようと思います。なお、恒例ながら事実誤認や理解不足の点など記事中にありましたらご指摘下さると幸いです。

2021-09-11

「あえて精度勝負をしない機械学習」という選択肢

機械学習データ分析ビジネス

少し前のことですが、こんな話題がありました。

自分がこれまで現職で手がけた機械学習ソリューションでは
1. そもそも「予測」ではなく「説明（解釈）」をアウトプットにする
2. クラス分類確率の高いものだけアウトプットし、低いものは「未定」扱いにして捨てる
などという形で実務の現場で使ってもらってます。精度勝負をしないのも一つの解かと https://t.co/NmZJCPnue2
— TJO (@TJO_datasci) 2021年8月29日

実際問題として「ある目的のために機械学習システムを開発し、非常に高精度のものが出来上がったが、結局色々あって実戦投入されなかった」という話は、自分の身の回りでも業界内の伝聞でも事欠きません。

しかし、機械学習と言えばどちらかというと「より精度の高いモデルを追い求める」試み、もう少し下世話に言うと「精度勝負」によって、連綿と発展してきたという歴史があります。それは古くはMNISTに対する精度追求*1、Deep Learning隆盛以降はImageNetに対する高精度モデルの追求*2であったりその他のドメインにおける有名ベンチマークデータに対する精度追求などに代表されてきたように見受けられます。

にもかかわらず、ビジネスを含む実務の場面においては「より高精度で優秀な機械学習モデル」が様々な実務上の制約によって使われず、そうでない何かが代わりに用いられるというケースが多いということは、言い換えると「実務上のニーズと機械学習の精度とは必ずしもマッチしない」という難しい現実を意味しているように思われます。そこで、今回の記事では「あえて精度勝負をしない機械学習」というテーマのもと、機械学習システムをいかにして現実のニーズに合わせて導入していくかについて論じてみます。

なおいつもながらですが、引用している資料や今回のテーマとしている実務ニーズへの機械学習導入について、事実誤認や認識違いなどがある可能性がありますので、お気付きの方は是非ご指摘くださると幸いです。

*1:LeCunのMNISTサイトを参照のこと

*2:つまりILSVRCのこと

2021-08-23

シンプソンのパラドックスのはなし

R 統計学統計的因果推論データ分析データサイエンス

今月はモデルナワクチンの2回目接種*1やら仕事でも負荷の高い分析業務やら、はたまた執筆*2やらで~~ネタ切れなのもあって~~あまりブログ記事を書けていなかったので、最近話題になった件について簡単に論じてみようかと思います。元ネタはこちらです。

これはイスラエルで公表されたCOVID-19ワクチンの重症化防止効果に関する統計について、いわゆる「シンプソンのパラドックス」が見られるのでそれを補正する必要があると指摘するブログ記事です。この件について僕が引用しながらボソッと放言したところ、思いの外大きな反響があったのでした。

イスラエルで起きている、「ワクチンが効いていないように見える」シンプソンのパラドックス。年齢で調整するとこうなるという分かりやすい解説https://t.co/gQrATCNzS7 pic.twitter.com/JI8Gq8h0Lk
— TJO (@TJO_datasci) 2021年8月19日

シンプソンのパラドックスというと数ある統計学のパラドックスの中でもかなりメジャーな部類に入ると思うのですが、意外にもこれがズバリ適用されるべきデータってなかなか実務では出くわさないんですよね*3。上で引用したブログ記事的には良き敵にこそござんなれという按配だったのでしょうが、反響を見ている限りでは思った以上に複雑な概念だと一般には感じられているらしいという印象がありました。

ということで、僕個人にとってもちょうど良い機会なのでシンプソンのパラドックスについて調べてみた結果を、記事としてまとめてみようと思います。なおいつもながらですが、記事内容に誤りや理解不足などあればご指摘くださると有難いです。

*1:コロナワクチンの副反応、ありましたか？に対するTakashi J. Ozakiさんの回答 - Quora

*2:何を書いているかはまだ秘密です

*3:後述するように特定の状況下では頻出するようですが

渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

何故「データ『サイエンティスト』」と呼ばれるのか？という問いへの端的な答え

「あえて精度勝負をしない機械学習」という選択肢

シンプソンのパラドックスのはなし