六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

Rでデータ分析・統計学・機械学習・データマイニングを学ぶならこの10冊で(2015年2月版)

今週はまともなデータ分析やら統計学やら機械学習やらの記事を書くのが面倒になったので*1、しばらくやってなかったお薦め書籍リストでも書こうかと思います。


f:id:TJO:20150213174028p:plain


今回まとめるリストは、ズバリ「Rでデータサイエンス・統計学機械学習を学ぶための10冊」。Rと言えばこのブログのメイン言語なので特に説明は要さないでしょう。去年1年間は拙著も含めてR絡みの本が大豊作で、以前のお薦め書籍リストに比べるとRの良書が増えたという部分もあり、そう言えばR本だけでリスト作れるなぁと思ったのでした。


というわけで、主に僕が持っているor読んだことがある本を中心にお薦めリストをまとめてみました。いつも通り独断と偏見まみれなので、他にも良いR本は沢山ありますよーという旨予めお断りしておきます。


そうそう、先に書いておきますがこのリストは中級者向けです。でも初学者向けに良いRの本ってあるのかなぁ。。。初学者はまずはExcelで頑張って下さいっていう方が正しい気も。


Rの基礎


Rクックブック

Rクックブック

アート・オブ・Rプログラミング

アート・オブ・Rプログラミング


実は2冊とも僕は自腹で買って持ってます。さすがはオライリー、下手なR初心者向け邦書を買うよりもRプログラミングの初歩から応用まで広く学ぶことができます。特にベクトル演算*2などR特有のコーディングについての説明はこの2冊のものが個人的には分かりやすいと思ってます。


なお『Rクックブック』の方は簡単ながら線形モデルやANOVAはたまた時系列分析の初歩にも触れているので、Rプログラミングの教材という以上に有用です。


Rでデータ分析全般


データサイエンティスト養成読本 R活用編 【ビジネスデータ分析の現場で役立つ知識が満載! 】 (Software Design plus)

データサイエンティスト養成読本 R活用編 【ビジネスデータ分析の現場で役立つ知識が満載! 】 (Software Design plus)

「Rで」データ分析全般について概観した本という意味ではこれが何だかんだでベストかなと。「R活用編」とうたっているだけあって{dplyr}などのパッケージを用いた複雑なデータ操作&集計についても触れられており、一通りの分析プロセスを学ぶことができます。また、この本のお薦めポイントの一つが時系列データの扱いについても触れているところ。Rの時系列データハンドリングは結構独特なので*3、解説がある本は貴重です。ついでにJuliaも学べるという一石二鳥*4ぶり(笑)。


以下その他のポイントについても広く押さえた書籍という意味で挙げていくと、


データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)

データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)

ビジネス活用事例で学ぶ データサイエンス入門

ビジネス活用事例で学ぶ データサイエンス入門


データサイエンティスト養成読本(オリジナル)はやはり外せませんね。SQLやFluentdといったRにデータを持ってくる以前の話題も網羅しているという点では今もなお極めて有用な本だと思います。


後は我らがTokyoR代表、@が手掛けた一冊ですね。個々のトピックスにあまり深く踏み込み過ぎることなく、広く話題をカバーした本で「Rでデータ分析」の全容をつかむためには好適かなと。ありがちなビジネスデータ分析のシチュエーションを想定した上で、検定・回帰・分類といった一通りのデータ分析手法を扱っています。


Rで並列計算


Rによるハイパフォーマンスコンピューティング

Rによるハイパフォーマンスコンピューティング

大規模データばかり扱うせいでRがすぐメモリ不足で動かなくなるとお悩みの諸氏は必携の一冊。これはもう1ページ読み進むごとに「ウヒョー」とか変な声が出てしまうほど*5、これでもかというくらいRで並列計算などハイパフォーマンスコンピューティングを行うためのtipsが詰まっていてお薦め。{foreach}{parallel}パッケージの使い方や、面白いところでは{RHadoop}パッケージの使い方、そして2013年以降提供されている最新のR並列計算パッケージの紹介もされており*6、一読の価値があります。


Rで統計学


Rによるやさしい統計学

Rによるやさしい統計学

TokyoRの初心者セッションでも好評だったのがこの本。実際問題、この本一冊あればRで統計学的検定までの範囲の統計学についてはほぼ完全に網羅できると思います。検定まわりは分散分析やサンプルサイズ設計まで含めてR本としてはベストかなと。


言わずと知れた通称「緑本」。線形モデル~一般化線形モデル~変量・混合効果モデル~階層ベイズといった統計モデリングの要諦を分かりやすく解説してくれ、Rコードまで例示してくれているバイブルです。現在流通している版ではWinBUGSベースの内容になっていますが、いずれStanベースの内容に移行するんでしょうか? そこは@先生次第ということで。。。


Rで機械学習データマイニング


実は機械学習に関しては良いR本がなく。。。というか「Rで機械学習」とうたっている本に限って全然NNもランダムフォレストも出てこなかったりするので、以下のように「データマイニング」とひとまとめにして紹介しておきます。


Rによるデータサイエンス-データ解析の基礎から最新手法まで

Rによるデータサイエンス-データ解析の基礎から最新手法まで

金明哲先生の名著。これはもう説明を要さないでしょう。初歩的なRプログラミングから、線形モデルを初めとした統計分析、教師なし学習・教師あり学習、果てはアンサンブル学習やアソシエーション分析まで網羅した百科事典的立ち位置の名著です。惜しむらくはそろそろ内容がout-of-dateになってきたところ。


手を動かしながら学ぶ ビジネスに活かすデータマイニング

手を動かしながら学ぶ ビジネスに活かすデータマイニング

そして手前味噌で恐縮ながら拙著を。過去のブログ記事などでも何度かコメントしていますが、基本的に「ガチな統計学機械学習の専門書ほどいかめしくなく一方で初歩から抜け出して一つレベルが上のデータマイニングを実践してみたい人向け」というコンセプトで書いてみました。出来る限り機械学習についてもその原理的な側面をかみくだいて解説しつつ、Rで手軽に実践する方法を紹介してみたつもりです。hoxo_mさんの書評通り初学者には辛い本みたいですが(汗)、中級者以上には色々楽しみながら読んで実践していただける本ではないかと勝手に自負しております。


最後に


今年もR本の出版ラッシュは続くようなので、ラインナップが出揃ったらまた改めて更新する。。。かも?

*1:飲み会入り過ぎ&水曜日が休日だったので怠けていた

*2:Rを語る上では欠かせない特徴ですね

*3:tsオブジェクトの扱い方を知らないと結構苦労する

*4:カオスともいう

*5:実際に我が家でウヒョーと言いながら読んでました(笑)

*6:基礎研究レベルのものまで含まれている