レバテックタイムの12/24付対談記事で話し切れなかったこと - 渋谷駅前で働くデータサイエンティストのブログ

<a href="http://time.levtech.jp/article/a-datascientist/">データサイエンティストが生き残るために必要なのは「本質を見抜く力」｜小川卓氏ｘ尾崎隆氏対談</a>

レバテックタイムさんのお招きで、そして正確にはこちらの記事で田宮直人さん(id:naototamiya)から誘われまして（笑）、こんな対談を先日小川卓さん(id:ryuka01)とやってきたのでした。ぶっちゃけこの対談記事で収録されているのは当日2人で喋ったことのほんの3割程度*1なんですが（笑）、ある程度この時点で言いたかったことは言えたんじゃないかなぁと思ってます。

とは言え、そもそも僕の説明が舌足らずだった部分もあるなーと記事を読んでいて色々思ったので、対談で話し切れなかったかなと個人的に感じた部分についてちょっとだけ追記しておこうかなと思います。

そうそう、この対談では混乱を避けるために「データサイエンティスト（カナ）はオワコン」とか言わずに素直にデータサイエンティスト（カナ）の話題ということでデータ分析者について話してきましたので念のため。。。

「ただのファクトにはノイズが乗っている」の意味

端的に言えばこれです。

<a href="http://tjo.hatenablog.com/entry/2013/04/16/190654">「毎日の数字を追いかけ、毎日改善する」ことの意外な落とし穴 - 銀座で働くData Scientistのブログ</a>

<a href="http://tjo-en.hatenablog.com/entry/2014/01/22/183243">Pitfall of "regression to the mean" in growth hacking - Data Scientist in Ginza, Tokyo</a>

要は、何かしらのナマの値には必ず「ばらつき」があるという話です。でも、本当にビジネスにおける*2意思決定のために必要なのは「真の値」の振る舞いであり、それを知ることの方がナマの値の皮相的な動き方よりも重要だ、ということを言いたかったのでした。

でも、どちらかというとビジネスの現場では、特に事業サイドとしてはナマの値のサマリーを重視することが多く、それが結果的に例えば「平均への回帰」に振り回されることにつながっていることが多いという印象を持っています。その点についてもっと「推定量」の重要性が知られても良いかな、と思って話題にしてみた次第です。

ファクトに伴うノイズは削ぎ落とすのではなくモデリングで吸収する、ファクトとして参照すべき値になるまでデータを成形するのが前処理

ここも「データサイエンティストはマエショリスト」発言の陰に隠れてしまってますが、本来言いたかったのは上記の通り「ファクトに伴うノイズ（ばらつき*3）はモデリングに練り込み誤差項で吸収し、真の値だけを推定する」ということだったのでした。

ちなみにファクトとして参照すべき値になるまでデータを成形するのが前処理です。つまりフォーマットがバラバラのCSVファイルをDBに入れて、そこから延々とSQL書いて欲しい形のテーブルになるまでひたすら中間テーブル作ってJOINして（以下略）というわけで、この辺は煩雑な割に「実際の分析としてのアウトプットに直接関係しない」がために評価されないという辛いプロセスなのが難題ですね。

前処理が辛いのはどこの組織でも同じらしいので、何とかして統一的なソリューションを打ち出せないものかなぁと思っているところです。。。

「価値」は直接売上・利益につながるというだけでなく、包括的な「プラスになること」

データ分析者としては『やっぱりビジネスなんで「価値出してナンボ」』という発言をしましたが、ビジネスにコミットするというよりは「価値を出すことにコミット」するということと受け取ってもらえれば良いかな、と。

ここで僕が言及した「価値」とは、直接売上や利益につながることだけではなく、例えばイノベーティブな取り組みとして業界内外から注目を集めるとか、その結果として投資を呼び込んだり、さらには優秀な人材を業界外から呼びこむ結果につながる、というような包括的な「プラスになること」を意味したつもりです。

最近だとIBMのWatson Analyticsのように、実際に製品として売れまくるかどうかは別として、業界全体に大きなインパクトを与えるようなプロダクトand/orソリューションを打ち出すケースが増えてきています。Deep Learningの始祖たるHinton先生のGoogleでの取り組みもやはり同じコンテクストの中にあると僕は理解しています。最近だとドワンゴ人工知能研究所という面白い事例もありますね。大きな物議を醸しましたが、倫理的問題に目をつぶればFacebookによる巨大な感情コントロール心理実験も同様に捉えることができると思います。もちろん、研究開発によるブレイクスルーで直接製品として生み出されたJubatusのような例もありますね。

要は、単なる自己目的化した研究開発ではなく、あくまでも何がしかの「プラスになること」を目指してやるということが重要で、そこに貪欲にコミットすることが不可欠ですよねー、ということが言いたかったのでした。

博士人材など統計学・機械学習のスペシャリストたちはどうビジネスにコミットすべきか

今回の対談ではメインのテーマではなかったのであまり触れませんでしたが、個人的な実感として博士などアカデミックな領域で統計学・機械学習・その他情報系の学術スキルを蓄えた人材が企業に入ってくるケースが徐々に増えてきていると思ってます。でも、一方でそういう人材ほど企業の泥臭い世界に戸惑い、時として居場所を見つけることにすら困ってしまうというケースがあるともちらほら聞きます。

概してそういう博士など高スキル人材が企業の現場にやってきて戸惑う理由の多くは、「自分は究極的には何をすれば良いのか？」という疑問に答えを見出せないことかなと睨んでます。特にacademic achievementに拘ってきた人だと、企業に来れば論文は書かなくて良い（場合によっては書いてはいけないという状況になることも）し、新規手法の提案や開発は必須ではないし、時として事業サイドからの要請で「厳密性は度外視せよ」なんて言われることもあるし、挙句の果てには「業務知識から来るナレッジの方を優先しろ」とか言われたりし、そうなると「それまで守ってきたもの」との乖離が大き過ぎて何をしたら分からなくなってしまう人もいるようです。

そこで、対談の中で僕が提案したのが「本質にコミットする」というマインドセットの方向性だったのでした。

例えば動的サイト導線最適化のシステム実装なんかで言えば「とにかくコンバージョンを増やす」、アドホック分析で次の施策の取捨選択を求める時には「とにかく現時点よりもKGIが増加する施策の組合せを選ぶ」、というようにどのようなミッションであれ本質的かつ究極的なターゲットは決まっているわけです。その本質的なターゲットの達成のみに集中し、その他の部分は度外視する、みたいなことですね。

そういう本質的なターゲットに自分のコミット範囲をフォーカスしてしまえば、自分の全スキルをそこだけに集中し、（例えばですが）残りの部分は他の人たちに任せるなり、はたまた本質ではないとして切り捨てるように働きかける、というような「動き方」が自然と身に付いてくると思うのです。

その向こう側に、実は改めてアカデミックなソリューションを要求されるような高い壁が立ちはだかっていたりして、そこに統計学・機械学習の最先端の学識を投入してでも解決しようというだけの遣り甲斐があったりするわけです。例えばこの例では、実際に僕の同僚がそのようにコミット範囲をフォーカスしていった結果として、高度なDeep Learning (ConvNet)の自主開発実装が必要になり、最終的に完成形にたどりついたものです。

一見研究開発とは何の縁もゆかりもなさそうなビジネス領域でも、その「本質」に目を凝らせば実は高度な研究開発なくしてブレイクスルーは不可能というボトルネックみたいなポイントがあるわけで、そういうところにこそ博士人材を含む統計学・機械学習などなどのスペシャリストたちが参入してくれたら良いなぁと願う次第です。