前回リストの記事から半年ぐらい経ちましたよー、ということで初心者向けに関しても書籍リストをアップデートした最新版のリストをお送りします。あまり中身が変わってないかもしれませんが、かぶっている本は良い本だということで(笑)。
ところで、昨年秋に比べると「これから統計学・機械学習について学びたい!」という人たちの動機が変わってきているような気がしなくもないんですね。以前は主に「エンジニアでこれからデータ分析について学びたい」という層が多かったんですが、最近になって「営業や企画をやっているんだけど数字を見る際にデータ分析とか知っていると良いことがありそう」という層が増えてきているように見聞します*1。
そういう意味で言うと「エンジニア向けの本を推薦するのが必ずしもベストとは限らない」という側面もありそうなんですが、それは次回までの宿題ということで、今回も基本的にはエンジニア向けの本を一旦揃えてみました。
ちなみに、ここでは「集計」や「アナリティクス」に関して学ぶための本は一切取り上げてませんので悪しからず。それは同じ「データ分析」であってもまた別のスキルであり、むしろコンサルティングなどの一環として学ぶべきことなのかなぁと考えてます。どちらかというと、営業や企画の人はそちらの方がずっと重要かなとも思いますが。。。
統計学
明日からつかえるシンプル統計学 ?身近な事例でするする身につく最低限の知識とコツ (現場の統計学)
- 作者: 柏木吉基
- 出版社/メーカー: 技術評論社
- 発売日: 2012/04/11
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (3件) を見る
- 作者: 向後千春,冨永敦子
- 出版社/メーカー: 技術評論社
- 発売日: 2007/09/07
- メディア: 単行本(ソフトカバー)
- 購入: 17人 クリック: 153回
- この商品を含むブログ (42件) を見る
とにかく「統計学の考え方」を身に付ける上でためになる本を2冊。前者の方がより本質的なところをやさしく説明してくれていて、後者のシリーズの方がもう少し実践的なところをExcelを用いて演習形式で手ほどきしてくれる感じです。
この2冊で学ぶべきポイントは、データの読み取り方や着目点のような初歩的な基礎知識、そして「なぜ同じデータから反対の結論が出るのか」「手持ちのデータでは足りない場合どうすれば良いか」といった統計学そのものよりもさらに上位のメタなレイヤーで大事なところでしょう。
これらが身に付いていなければ、この先RやらPythonやらでパッケージを用いてデータ分析しようが、それこそPythonやらJavaやらC++やらでフルスクラッチでアルゴリズムを組むようになろうが、ずっとデータ分析への取り組み方を間違い続ける危険性すらあります。それだけになおさら「統計学に臨む姿勢」を最初に身に付ける上でも、この2冊は大いに役立つと思います。
- 作者: 山田剛史,杉澤武俊,村井潤一郎
- 出版社/メーカー: オーム社
- 発売日: 2008/01/25
- メディア: 単行本
- 購入: 64人 クリック: 782回
- この商品を含むブログ (69件) を見る
これはRが使えるようになった人限定の入門書。2月のTokyoRで初心者向け講演やった時に使ってたテキストなんですが、天下りにRコードを写経していくだけでも「統計学って裏でこんなことやってるんだー」感があって良いと思います。意外と言っては失礼ながらかなり高度な内容も多く、最後の方のサンプルサイズ決定のところは実は東大出版会の赤本・青本・緑本シリーズでも検出力分析に絡めてサラリと書いてあるだけできちんと書いてる本はなかなかないので、結構重宝すると思います。
前回以降、本当に雨後の筍のように山ほど統計学絡みの本って出てるんですが、「本当にゼロから学びたい」人向けの本ってほとんどないなぁと思ったのと、そもそも全部カバーしきれてないので基本的にはその辺の本は全然入れてません。また半年後?に見直す時までに立ち読みでも良いので調べてみます。。。
機械学習
- 作者: Drew Conway,John Myles White,萩原正人,奥野陽,水野貴明,木下哲也
- 出版社/メーカー: オライリージャパン
- 発売日: 2012/12/22
- メディア: 大型本
- 購入: 2人 クリック: 41回
- この商品を含むブログ (12件) を見る
- 作者: Toby Segaran,當山仁健,鴨澤眞夫
- 出版社/メーカー: オライリージャパン
- 発売日: 2008/07/25
- メディア: 大型本
- 購入: 91人 クリック: 2,220回
- この商品を含むブログ (277件) を見る
前回に引き続きリストに入れてあるものをご紹介。何だかんだで、難しい理論の話を抜きにしてサクサク機械学習アルゴリズムの挙動を見ていきましょー、というテンポの良さって重要だと思うんですよね。それはこのブログの「パッケージユーザーのための機械学習」シリーズでも散々強調していることなんですが、とにかく「やってみる気になれる」本であることを重視してます。
その点で前者はRで、後者はPythonで、それぞれ動かしたり実装したりすることを最優先に書かれているので、紹介されているAPIが死んでるとかそういう問題点に目をつぶってでも紹介する価値はあるかなぁと思ってます。
これも最近になって色々な書籍が発売されたのを知った上で、変えてません。何故かというと、昨年秋以降に発売された書籍のいずれもが「本当にゼロからの初心者」に対して全く優しくないためです。。。基本的に数式アレルギーの人でも取っ付きやすいことが大事だと思うので、せめてコードだらけであっても数式がほとんど出てこない本の方が機械学習の初心者にとってはまだ役に立つはずというのが僕の考えです。
エンジニアの基礎が身に付いている人向け
データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)
- 作者: 佐藤洋行,原田博植,下田倫大,大成弘子,奥野晃裕,中川帝人,橋本武彦,里洋平,和田計也,早川敦士,倉橋一成
- 出版社/メーカー: 技術評論社
- 発売日: 2013/08/08
- メディア: 大型本
- この商品を含むブログ (12件) を見る
もう完全に鉄板ですが、いつものように養成読本。これはエンジニアの基礎が身に付いてない人には辛い本だと思うんですが、逆に言うとエンジニアであれば結構サクサクいける本だと思います。以前の書評エントリも参考にしてみてください。
とにかく「どんな現場でどんなデータがあった時にどんな分析をどんなフレームワークでやるか」が一通り載っているので、これを見ながら皆さん自身の現場にあるデータをお遊びで分析するだけでも色々なことが学べると思います。どんどん手を動かして、写経しながら、覚えていくと良いでしょう。
最後に
機械学習のもっともっとやさしい本大募集中なんですが、どう見てもそんな本ないんですよねぇ。。。誰か書いてくれないものでしょうか。え?お前が書けって?僕は機械学習が今でも苦手なので勘弁してくださいorz
あと、この本が評判いいみたいなんですが実はまだ未見につき、今回のリストには入れてません。
- 作者: 上田修功
- 出版社/メーカー: 丸善出版
- 発売日: 2014/01/25
- メディア: 新書
- この商品を含むブログを見る
先日今の現場で大量に書籍購入した時についでに頼めば良かったなーと思いつつ、ひとまず今回は検討中リストに入れるにとどめておきますということで。次回リストには入るかも?