六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

2014年春版:初心者にお薦めする「本当にゼロから統計学と機械学習の基礎を学ぶ」ための6冊

前回リストの記事から半年ぐらい経ちましたよー、ということで初心者向けに関しても書籍リストをアップデートした最新版のリストをお送りします。あまり中身が変わってないかもしれませんが、かぶっている本は良い本だということで(笑)。


ところで、昨年秋に比べると「これから統計学機械学習について学びたい!」という人たちの動機が変わってきているような気がしなくもないんですね。以前は主に「エンジニアでこれからデータ分析について学びたい」という層が多かったんですが、最近になって「営業や企画をやっているんだけど数字を見る際にデータ分析とか知っていると良いことがありそう」という層が増えてきているように見聞します*1


そういう意味で言うと「エンジニア向けの本を推薦するのが必ずしもベストとは限らない」という側面もありそうなんですが、それは次回までの宿題ということで、今回も基本的にはエンジニア向けの本を一旦揃えてみました。


ちなみに、ここでは「集計」や「アナリティクス」に関して学ぶための本は一切取り上げてませんので悪しからず。それは同じ「データ分析」であってもまた別のスキルであり、むしろコンサルティングなどの一環として学ぶべきことなのかなぁと考えてます。どちらかというと、営業や企画の人はそちらの方がずっと重要かなとも思いますが。。。


統計学


統計学がわかる (ファーストブック)

統計学がわかる (ファーストブック)

とにかく「統計学の考え方」を身に付ける上でためになる本を2冊。前者の方がより本質的なところをやさしく説明してくれていて、後者のシリーズの方がもう少し実践的なところをExcelを用いて演習形式で手ほどきしてくれる感じです。


この2冊で学ぶべきポイントは、データの読み取り方や着目点のような初歩的な基礎知識、そして「なぜ同じデータから反対の結論が出るのか」「手持ちのデータでは足りない場合どうすれば良いか」といった統計学そのものよりもさらに上位のメタなレイヤーで大事なところでしょう。


これらが身に付いていなければ、この先RやらPythonやらでパッケージを用いてデータ分析しようが、それこそPythonやらJavaやらC++やらでフルスクラッチアルゴリズムを組むようになろうが、ずっとデータ分析への取り組み方を間違い続ける危険性すらあります。それだけになおさら統計学に臨む姿勢」を最初に身に付ける上でも、この2冊は大いに役立つと思います。


Rによるやさしい統計学

Rによるやさしい統計学

これはRが使えるようになった人限定の入門書。2月のTokyoRで初心者向け講演やった時に使ってたテキストなんですが、天下りにRコードを写経していくだけでも統計学って裏でこんなことやってるんだー」感があって良いと思います。意外と言っては失礼ながらかなり高度な内容も多く、最後の方のサンプルサイズ決定のところは実は東大出版会の赤本・青本緑本シリーズでも検出力分析に絡めてサラリと書いてあるだけできちんと書いてる本はなかなかないので、結構重宝すると思います。


前回以降、本当に雨後の筍のように山ほど統計学絡みの本って出てるんですが、「本当にゼロから学びたい」人向けの本ってほとんどないなぁと思ったのと、そもそも全部カバーしきれてないので基本的にはその辺の本は全然入れてません。また半年後?に見直す時までに立ち読みでも良いので調べてみます。。。


機械学習


入門 機械学習

入門 機械学習

集合知プログラミング

集合知プログラミング

前回に引き続きリストに入れてあるものをご紹介。何だかんだで、難しい理論の話を抜きにしてサクサク機械学習アルゴリズムの挙動を見ていきましょー、というテンポの良さって重要だと思うんですよね。それはこのブログの「パッケージユーザーのための機械学習」シリーズでも散々強調していることなんですが、とにかく「やってみる気になれる」本であることを重視してます。


その点で前者はRで、後者はPythonで、それぞれ動かしたり実装したりすることを最優先に書かれているので、紹介されているAPIが死んでるとかそういう問題点に目をつぶってでも紹介する価値はあるかなぁと思ってます。


これも最近になって色々な書籍が発売されたのを知った上で、変えてません。何故かというと、昨年秋以降に発売された書籍のいずれもが「本当にゼロからの初心者」に対して全く優しくないためです。。。基本的に数式アレルギーの人でも取っ付きやすいことが大事だと思うので、せめてコードだらけであっても数式がほとんど出てこない本の方が機械学習の初心者にとってはまだ役に立つはずというのが僕の考えです。


エンジニアの基礎が身に付いている人向け


データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)

データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)

もう完全に鉄板ですが、いつものように養成読本。これはエンジニアの基礎が身に付いてない人には辛い本だと思うんですが、逆に言うとエンジニアであれば結構サクサクいける本だと思います。以前の書評エントリも参考にしてみてください。


とにかく「どんな現場でどんなデータがあった時にどんな分析をどんなフレームワークでやるか」が一通り載っているので、これを見ながら皆さん自身の現場にあるデータをお遊びで分析するだけでも色々なことが学べると思います。どんどん手を動かして、写経しながら、覚えていくと良いでしょう。


最後に


機械学習のもっともっとやさしい本大募集中なんですが、どう見てもそんな本ないんですよねぇ。。。誰か書いてくれないものでしょうか。え?お前が書けって?僕は機械学習が今でも苦手なので勘弁してくださいorz


あと、この本が評判いいみたいなんですが実はまだ未見につき、今回のリストには入れてません。

統計学 (サイエンス・パレット)

統計学 (サイエンス・パレット)

先日今の現場で大量に書籍購入した時についでに頼めば良かったなーと思いつつ、ひとまず今回は検討中リストに入れるにとどめておきますということで。次回リストには入るかも?

*1:洩れ聞くところでは最近流行りなのがカイ二乗検定らしいです笑