今週はまともなデータ分析やら統計学やら機械学習やらの記事を書くのが面倒になったので*1、しばらくやってなかったお薦め書籍リストでも書こうかと思います。
今回まとめるリストは、ズバリ「Rでデータサイエンス・統計学・機械学習を学ぶための10冊」。Rと言えばこのブログのメイン言語なので特に説明は要さないでしょう。去年1年間は拙著も含めてR絡みの本が大豊作で、以前のお薦め書籍リストに比べるとRの良書が増えたという部分もあり、そう言えばR本だけでリスト作れるなぁと思ったのでした。
というわけで、主に僕が持っているor読んだことがある本を中心にお薦めリストをまとめてみました。いつも通り独断と偏見まみれなので、他にも良いR本は沢山ありますよーという旨予めお断りしておきます。
そうそう、先に書いておきますがこのリストは中級者向けです。でも初学者向けに良いRの本ってあるのかなぁ。。。初学者はまずはExcelで頑張って下さいっていう方が正しい気も。
Rの基礎
- 作者: Paul Teetor,大橋真也,木下哲也
- 出版社/メーカー: オライリージャパン
- 発売日: 2011/12/22
- メディア: 大型本
- 購入: 9人 クリック: 61回
- この商品を含むブログ (13件) を見る
- 作者: Norman Matloff,大橋真也,木下哲也
- 出版社/メーカー: オライリージャパン
- 発売日: 2012/09/26
- メディア: 大型本
- 購入: 4人 クリック: 72回
- この商品を含むブログ (10件) を見る
実は2冊とも僕は自腹で買って持ってます。さすがはオライリー、下手なR初心者向け邦書を買うよりもRプログラミングの初歩から応用まで広く学ぶことができます。特にベクトル演算*2などR特有のコーディングについての説明はこの2冊のものが個人的には分かりやすいと思ってます。
なお『Rクックブック』の方は簡単ながら線形モデルやANOVAはたまた時系列分析の初歩にも触れているので、Rプログラミングの教材という以上に有用です。
Rでデータ分析全般
データサイエンティスト養成読本 R活用編 【ビジネスデータ分析の現場で役立つ知識が満載! 】 (Software Design plus)
- 作者: 酒巻隆治,里洋平,市川太祐,福島真太朗,安部晃生,和田計也,久本空海,西薗良太
- 出版社/メーカー: 技術評論社
- 発売日: 2014/12/12
- メディア: 大型本
- この商品を含むブログ (2件) を見る
「Rで」データ分析全般について概観した本という意味ではこれが何だかんだでベストかなと。「R活用編」とうたっているだけあって{dplyr}などのパッケージを用いた複雑なデータ操作&集計についても触れられており、一通りの分析プロセスを学ぶことができます。また、この本のお薦めポイントの一つが時系列データの扱いについても触れているところ。Rの時系列データハンドリングは結構独特なので*3、解説がある本は貴重です。ついでにJuliaも学べるという一石二鳥*4ぶり(笑)。
以下その他のポイントについても広く押さえた書籍という意味で挙げていくと、
データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)
- 作者: 佐藤洋行,原田博植,下田倫大,大成弘子,奥野晃裕,中川帝人,橋本武彦,里洋平,和田計也,早川敦士,倉橋一成
- 出版社/メーカー: 技術評論社
- 発売日: 2013/08/08
- メディア: 大型本
- この商品を含むブログ (12件) を見る
- 作者: 酒巻隆治,里洋平
- 出版社/メーカー: SBクリエイティブ
- 発売日: 2014/06/25
- メディア: 単行本
- この商品を含むブログ (1件) を見る
データサイエンティスト養成読本(オリジナル)はやはり外せませんね。SQLやFluentdといったRにデータを持ってくる以前の話題も網羅しているという点では今もなお極めて有用な本だと思います。
後は我らがTokyoR代表、@yokkunsが手掛けた一冊ですね。個々のトピックスにあまり深く踏み込み過ぎることなく、広く話題をカバーした本で「Rでデータ分析」の全容をつかむためには好適かなと。ありがちなビジネスデータ分析のシチュエーションを想定した上で、検定・回帰・分類といった一通りのデータ分析手法を扱っています。
Rで並列計算
- 作者: 福島真太朗
- 出版社/メーカー: ソシム
- 発売日: 2014/09/24
- メディア: 単行本
- この商品を含むブログ (2件) を見る
大規模データばかり扱うせいでRがすぐメモリ不足で動かなくなるとお悩みの諸氏は必携の一冊。これはもう1ページ読み進むごとに「ウヒョー」とか変な声が出てしまうほど*5、これでもかというくらいRで並列計算などハイパフォーマンスコンピューティングを行うためのtipsが詰まっていてお薦め。{foreach}{parallel}パッケージの使い方や、面白いところでは{RHadoop}パッケージの使い方、そして2013年以降提供されている最新のR並列計算パッケージの紹介もされており*6、一読の価値があります。
Rで統計学
- 作者: 山田剛史,杉澤武俊,村井潤一郎
- 出版社/メーカー: オーム社
- 発売日: 2008/01/25
- メディア: 単行本
- 購入: 64人 クリック: 782回
- この商品を含むブログ (69件) を見る
TokyoRの初心者セッションでも好評だったのがこの本。実際問題、この本一冊あればRで統計学的検定までの範囲の統計学についてはほぼ完全に網羅できると思います。検定まわりは分散分析やサンプルサイズ設計まで含めてR本としてはベストかなと。
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- 作者: 久保拓弥
- 出版社/メーカー: 岩波書店
- 発売日: 2012/05/19
- メディア: 単行本
- 購入: 16人 クリック: 163回
- この商品を含むブログ (21件) を見る
言わずと知れた通称「緑本」。線形モデル~一般化線形モデル~変量・混合効果モデル~階層ベイズといった統計モデリングの要諦を分かりやすく解説してくれ、Rコードまで例示してくれているバイブルです。現在流通している版ではWinBUGSベースの内容になっていますが、いずれStanベースの内容に移行するんでしょうか? そこは@Kubobook先生次第ということで。。。
Rで機械学習&データマイニング
実は機械学習に関しては良いR本がなく。。。というか「Rで機械学習」とうたっている本に限って全然NNもランダムフォレストも出てこなかったりするので、以下のように「データマイニング」とひとまとめにして紹介しておきます。
- 作者: 金明哲
- 出版社/メーカー: 森北出版
- 発売日: 2007/10/01
- メディア: 単行本(ソフトカバー)
- 購入: 36人 クリック: 694回
- この商品を含むブログ (60件) を見る
金明哲先生の名著。これはもう説明を要さないでしょう。初歩的なRプログラミングから、線形モデルを初めとした統計分析、教師なし学習・教師あり学習、果てはアンサンブル学習やアソシエーション分析まで網羅した百科事典的立ち位置の名著です。惜しむらくはそろそろ内容がout-of-dateになってきたところ。
- 作者: 尾崎隆
- 出版社/メーカー: 技術評論社
- 発売日: 2014/08/22
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (6件) を見る
そして手前味噌で恐縮ながら拙著を。過去のブログ記事などでも何度かコメントしていますが、基本的に「ガチな統計学や機械学習の専門書ほどいかめしくなく一方で初歩から抜け出して一つレベルが上のデータマイニングを実践してみたい人向け」というコンセプトで書いてみました。出来る限り機械学習についてもその原理的な側面をかみくだいて解説しつつ、Rで手軽に実践する方法を紹介してみたつもりです。hoxo_mさんの書評通り初学者には辛い本みたいですが(汗)、中級者以上には色々楽しみながら読んで実践していただける本ではないかと勝手に自負しております。
最後に
今年もR本の出版ラッシュは続くようなので、ラインナップが出揃ったらまた改めて更新する。。。かも?