渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

データ分析の現場で頻出のセリフあるある10選

何だかふと思い付いたので、つらつら書いてみました。10個全てを口走ってしまったことのある人は要注意ということで(笑)。

「データサイエンティストなんてただのバズワード

誰でも言って構わないセリフとして広く認められています。ただし、これを言っている本人の名刺にご丁寧に「データサイエンティスト」と刷られていることが多いので要注意*1

PRML読んだことありますよ」

これは誰もが言ってしまうセリフとして広く認められています。ちなみにこれを呟いた人がNIPSやICMLはたまたKDDに論文を通していると、非常に尊敬されます*2。その逆はあまりにもサンプルが多過ぎて、統一的な説明はまだなされていません。

「パッケージやライブラリに頼るなんて素人だよね」

言っている本人がRやPythonのscikit-learnなどを使っている場合、炎上する恐れがあります。ちなみに、うちの「教授」氏はこれを実際に呟きなおかつ本当に自作ライブラリしか使っていないという超人です*3

Hadoop使えるのは常識」

MapperとReducerをJavaだけでゼロから書ける人だけに許される呟き。PythonRubyで書ける人にももしかしたら許されるかもしれません。Hiveクエリしか書けない人間には一般に許されていない模様*4

「トップ会議に論文載せる研究者だけがデータサイエンティストを名乗るべきだよね」

言ってる本人がトップ会議に論文載せていないケースも散見されるので*5、色々アレな感のあるセリフ。一方で、トップ会議に論文載せるような人に限ってデータサイエンティストという肩書きがつくのを嫌がる傾向が強く*6、このミスマッチは永遠に解消されない模様です。

統計学的には何とも言えないんですが」

p値の概念を知らない人に有意性の話をしようとすると、こういう曖昧な物言いになること多々。「95%大丈夫」なんて言おうものなら「でも例外は5%あるんだよね?」と言われて立ち往生する人多数*7。ちなみに現職場ではこれは言うケースがほとんどなくて助かってます。

「俺ベイジアン苦手だから」

この逆の「俺頻度主義苦手だから」というセリフは多分この地上には存在しません*8。とは言え、これを言った人が例えば最小二乗法まわりや、はたまた識別関数・識別モデルのエキスパートであるかというとケースバイケースです。

「このアルゴリズムどうやって事業部門に説明しよう」

ただの正規線形回帰モデルでもかなり苦労します*9。GLMにでもなれば苦戦は必至*10。MCMCなんて持ち出した日には地獄が待ってます*11非線形カーネルSVMとかだと壮絶に難儀しそうと言うか不可能っぽいですが*12

「データ分析の9割以上が前処理だよね」

どんな現場でも聞こえてくるセリフである上に、マエショリストと名乗る人まで現れるほどの大人気のテーマですが*13、多くのデータ分析者が「これはデータ分析の本丸ではない」と考えているせいで決して表舞台には上がってこない面倒な問題。

「大事なのはビジネス理解なんだ」

id:shakezoさんの名エントリに敬意を表して。


これを言い出すようになったら現場のデータ分析者はめでたく卒業(引退)です。名マネージャー、名ディレクター、そして名ボード(もしくはCDO)として存分に腕を振るってくれることでしょう*14

※最後に

もしこれをお読みのあなたがデータ分析者ではなく、その周りで働くプランナー・マーケッター・マネージャー・ディレクターでいらっしゃるのであれば、彼らが上記のセリフをこぼしたらこの記事を思い出してクスっと笑ってあげてください(笑)。

*1:僕は実際にそうなっているのでこのセリフは口にしません

*2:思い付く範囲で2人ぐらいかな。。。うちの教授は「読んだことないよ」と言ってのけるガチさ加減ですが(笑)

*3:全部自作できるので逆に言語依存性ゼロ(PythonでもJavaでもCでも大体同じように書けるらしい)という強みもある。なおNumPy使ってる模様。。。あれ?(笑)

*4:これは僕のことですごめんなさい。。。ちなみにうちの教授含むエンジニア部隊は皆さんJavaPythonでMapper / Reducer書けるという頼もしさ

*5:アカデミックの研究者以外だとそっちのが普通な気も

*6:例えばGoogleFacebookでもトップ会議に論文載せてるような人についている肩書きはResearcherだったりする

*7:他所の現場でそういう事例があったと聞いた記憶が。。。

*8:ってかそんな奴いるのか?

*9:最小二乗法だし

*10:最尤法だし

*11:ギブス・サンプラーなんてどうやって説明するのかと

*12:僕も今のところ説明できた試しがないです。。。

*13:まさに「データ分析あるある」たる所以

*14:そんな日が本当に来るのかなぁ。。。