渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

「数式が苦手でも統計やりたいのでRで試す」は現実問題としてはアリだと思う


ものすごくブコメを集めてるので、読んでみました。で、結論から言うと「四の五の言う人はいるかもしれないけどデータ分析の世界への入り口としてはアリ」だと思った次第です。


ということを書くと、どこからともなく「ハァ?ちゃんとした原理も何も知らずにツールだけ使って分かった気になっても意味ないよ?」みたいなツッコミが飛んできそうな気がしますが。。。有体に書くと、確かにアカデミックの世界ではそうだと思います*1。けれども、ビジネスの現場ではこれも一つのチョイスだと言ってよいと思うのです。以下にその理由を挙げていきます。


「目の前の問題に統計学がどんな結果を返して見せてくれるのか」が分かることは、理解する上で最も手っ取り早い


世の中の人の多くが、統計学はとっつきにくいと思っている大きな理由として「そもそも何の役に立つのか知らない・分からない」「統計学は何をするものなのかというイメージがない」というのがある、僕は見ています。


なので、フリーソフトウェアであるRで、しかも市販のちょっとした解説書を見ながら、簡単な例題を解くだけで統計学はどんなことができるツールなのか」を知る、というのはその問題を手っ取り早く解決する方法論だと思うのです。


ところで、こう書くと「そんなに世の中の人は統計学のことを知らないのか?」と言われそうですが。僕は、間違いなくそうだろうと思ってます。と言うか、そうでなければ以下のような本がベストセラー*2になるわけがない、と考えられるからです。


統計学が最強の学問である

統計学が最強の学問である


寡聞にして、僕はこの本以外に日本語で「統計学がいかに世の中の役に立ち得るものか」を事例つきで紹介した一般書籍を知りません。試しにAmazonで「統計学」と入れて検索すれば分かりますが、この本以外は基本的には教科書か学術書しか出てきません*3


ここ最近「ビッグデータ」などのバズワードが跋扈するようになって、統計学の重要性が叫ばれるようになってきた。でも、肝心の統計学ってどんなもんだっけ?となった時に、大抵の人は知らないわけです。上記の本が売れる所以でしょう。


裏を返すと、今までの日本の統計学は専門家以外の世の中の人々にほとんどリーチ出来ていなかったということなのだと思うのです。Rとその解説書というコンビネーションは、それを容易にする一つの良い方法論なのではないでしょうか。


文字や数式が並んでいるよりは、プロットやグラフィックな表示の方が直感的で理解しやすい


よく言われる話ですが、「全く同じテーマを扱った本でも数式が並んでいる本とグラフ・挿絵・図が並んでいる本では後者の方が売れる」「数式が並んでいるブログ記事とグラフやポンチ絵が並んでいるブログ記事とでは後者の方がブクマがつく」もの。


その意味では、同じように統計学を勉強するなら、文字や数式がズラリと並んだ教科書をうんざりしながら読むよりは、解説書と逐一読み比べながらRでどんどん演算結果をプロットしたりグラフィック表示して、何が起きているかを見る方が分かりやすいのだと思います。百歩譲って「分かったつもり」になりやすいということかと。


例えば、同じように決定木の話をするにしても、


I_{\tiny Gini} = 1 - {\displaystyle\sum_{k}^{}} p_{ik}^2
I_{\tiny Entropy} = {\displaystyle\sum_{k}^{}} p_{ik} \log{p_{ik}}


ジニ係数エントロピーの定義をいきなり書かれてうだうだ説明されるよりも*4、とりあえずスパっと


f:id:TJO:20130610131216p:plain


というように決定木で分岐した後のツリー図を見せてもらった方が、ひとまず「どんなことができるか?」というイメージは身につきやすいのではないでしょうか。


統計学が必要なのは何もデータサイエンティストが踊る現場だけとは限らない:例えばエンジニアの手元でも時として必要になることがある


これは以前見聞した例ですが。。。あるDB基盤技術をいくつか並べてベンチマークテストをして、その性能(例えば1万レコード当たりの処理時間)をグラフにして並べた上で「どれを導入しよう?」となったんですが、困ったのが「どれもデータがばらけててぶっちゃけどの順番に性能が良いのか分からない」となってしまった、というお話。


これは、100点計測した結果をただ時系列で並べると

f:id:TJO:20130708234752p:plain

という感じになって、何だかイマイチ分かりにくいんですが、これをシンプルに平均±標準偏差の棒グラフにまとめると

f:id:TJO:20130708234850p:plain

こうなります。これだけでもDが一番性能が悪くてA, B, Cは実は傾向があるものの性能差がない可能性があるということが分かりますし、さらに例えばt検定や分散分析にかけることでもっと厳密に性能差を検証することができます。


マーケとかコンサルとか、いかにもデータサイエンティストとかそういう分析系のプロが跋扈するような領域以外にも、統計学の出番はあるというわけです。


余談ですが、僕の知人のフランス人のフルスタックエンジニアはこの「平均±標準偏差のプロットを作る」というやり方を知ってました。彼らは実際に必要があって、そういう統計学の知識を持っているのかもですね。


現実問題として、原理的な側面まで含めて理解しているべき人材はそれほど多く求められていない


実のところ、本当にポイントになるのは多分ここです。ぶっちゃけ、原理的な側面まで含めて統計学なりデータサイエンス諸分野の厳密な知識を持っている人間は各企業に1桁ずつ(というか1~2人)いればOKで、それ以上いても多分出番はないと思います*5


何故なら、厳密性を要求されるような場面は1つの企業だと多分年に数回あるかどうか、と想定されるからです*6。そのために、社員全員に厳密な知識を身につけさせるのはコストがかかり過ぎますね。。。


むしろ、厳密性を要求されないようなところで、個々のエンジニアなりスタッフなりがある程度気軽にRのようなツールを駆使して統計学による計算結果を出すことができれば、それなりにメリットがあるのではないか?と僕なんかは思うのです。本当に厳密な解釈が必要な時だけ、社内に数人いるエキスパートに尋ねれば十分かと。


結論


・・・まぁ、実際には元記事の中でなぜか回帰分析がされていて「?」と思ったりしましたけど*7、入口という意味ではそれでも良いのではないでしょうか。


個人的には、現時点ではまだまだ統計学なりデータ分析なりに至る間口は狭いままだと思っているので、その狭い間口を広げる試みは当面の間はもっともっと歓迎されてもいいんじゃないかなー、と思ってます。


ただし、やはり実験科学系研究者だった頃から真剣に専門家として取り組んできた身としては、「Rで統計学の取っ掛かりをつかんだら、その後はぜひちゃんとしたテキストを脇に置いて数式であらわされる原理についても勉強してください」とお願いしたいところです。いや、むしろRを入口としてもっと専門家が増えてくれたらいいなー、というのは結構真剣な本音ですので。

*1:ってか原理から含めて意義を説明できないプロの研究者なんてどこにもいませんがな

*2:どれくらい売れたか実は寡聞にして知らないのですが、人口に膾炙するほど売れてるのは間違いないかと

*3:ちなみに2番目に来るのが『マンガでわかる統計学』です笑

*4:実際の説明はさらにもっと長くなる

*5:あくまでも僕が見聞した範囲で見積もった大雑把な試算ですが

*6:ただしデータ分析コンサルのような専門的なところでは別ですが

*7:これは最小二乗近似で直線を引くべきなんじゃないのかとか