六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊

5ヶ月前に書いた記事がだいぶ陳腐化してきた*1気がするので、それ以降出版された書籍や、他にも学術的知識を得るだけでなく「データサイエンティストとして働く上で必要なスキル」について書かれた書籍などを加えて、「2013年秋版」の10冊をチョイスしてみました。


これはあくまでも「データサイエンティストを目指す上で必要な素地が既にある程度備わっている人」向けのスタートアップとしての10冊です。実際にはこの10冊では知識が足りなくなる場面の方が多いので、その場合は適宜発展的な書籍に当たってどんどん独習していくことをお薦めします。逆に、本当にゼロからスタートする初学者の人にはこれでもかなり辛いかもなので、今回は見なかったことにしてください、ということで。。。


そうそう、相変わらずですが僕個人はアフィリエイトやってないので、こちらのリンクから書籍を購入されても儲かるのは僕ではなくはてなです(笑)。


(※初心者向けリストも書きました→2013年秋版:データ分析初心者にお薦めする「基礎を本当にゼロから学ぶ」ためのテキスト5冊


統計学


統計学入門 (基礎統計学)

統計学入門 (基礎統計学)


言わずと知れた東大出版会の赤本。これを外すことはできません。確率などの基礎から線形モデルまでを扱っています。大学の教養課程などで統計学を習ったきり、それ以来基礎のことは忘れてしまったという人は絶対に脇に置いておくべき一冊です。


自然科学の統計学 (基礎統計学)

自然科学の統計学 (基礎統計学)


これまたド定番の東大出版会の青本。もちろんこれも外すわけにはいきません。最小二乗法・最尤法と始まって一般化線形モデル・確率過程・乱数と統計学の基礎教養ほぼ全体をカバーしています。僕にとっては、何かにつまずいて読み返すたびに新たな気付きをもたらしてくれる名著の中の名著です。



久保先生の緑本。一般化線形モデル・混合効果モデル・MCMC・階層ベイズという現代の多変量解析でキーとなるポイントをRによる実践例を交えて極めてコンパクトかつ分かりやすく、親しみやすい文体とデータ事例とでまとめてあります。買って絶対に損のない一冊だと思います。


経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)

経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)


「Rで計量時系列分析」シリーズ記事で大変お世話になった沖本本です。Hamiltonの大著"Time Series Analysis"のエッセンスが、その4分の1ぐらいの薄さにコンパクトにまとめてあり、非常に分かりやすいです。本格的な時系列モデリングの入門書として最適。


東大出版会シリーズは赤本と青本のみ残しました*2。新たに入ったのが久保先生の緑本です。また、計量時系列分析&状態空間モデルは現在それほど広く普及しているとは言い難いので入れるかどうか迷ったんですが、個人的に散々フィーチャーしているということもあり沖本本のみ入れました。サンプルサイズの本はRなら{pwr}さえ使えれば問題ないので今回から除外しています。


機械学習


はじめてのパターン認識

はじめてのパターン認識


「はじパタ勉強会」なるものが各地で開催されるほど人気の一冊。実際、機械学習に関する広汎なテーマを扱っている*3にもかかわらず、コンパクトにまとまっていて非常に読みやすく、教科書としては最適だと思います。Rによる実践例が紹介されているのも魅力的。


イラストで学ぶ 機械学習 最小二乗法による識別モデル学習を中心に (KS情報科学専門書)

イラストで学ぶ 機械学習 最小二乗法による識別モデル学習を中心に (KS情報科学専門書)


9月に出版されたばかりの新刊書。はじパタよりさらに数式の量を抑え、イメージのしやすさとMatlabコードの例示で理解しやすくなるような工夫がなされています。個人的には、内容を絞っていることもあってはじパタよりも理解しやすいと感じました。


イラストで分かりやすく!というのもあるんですが、この本の一番凄いところは「発展的話題」のところ。半教師つき学習や転移学習と言った、今後ビジネスの世界でも必要性が高まりそうなテーマが含まれており、貴重な一冊と言って良いでしょう。


名著『わかりやすいパターン認識』は内容の陳腐化が著しいので、取り下げました。赤本こと『サポートベクターマシン入門』も、同じ内容が上の2冊でカバーできる&SVMしか取り扱っておらず汎用性に乏しいので、これまた取り下げました。また「黄色い本」PRMLは言わずと知れた代表的テキストですが、これも取っ掛かりとしては辛い部類に入る*4ので除外しました。代わりに勉強会が各地で開催されていて評判の、薄いピンクの本(笑)を入れました。群青の本は、僕の場合は自前のMatlabライセンスがあるので良いのですが、社会人には辛いかも*5。。。せめてPython + NumPyとかで書いてくれてたら良かったような。


その他データマイニング


ネットワーク分析 (Rで学ぶデータサイエンス 8)

ネットワーク分析 (Rで学ぶデータサイエンス 8)


Rの{igraph}{sna}パッケージによる実践例を挙げながら、グラフ理論&ネットワーク分析のエッセンスを分かりやすくまとめた素晴らしい本です。


Rによるデータサイエンス - データ解析の基礎から最新手法まで

Rによるデータサイエンス - データ解析の基礎から最新手法まで


僕がバイブルとしていつも脇に置いている金明哲先生のRデータサイエンス本。数理的基礎・原理の説明は最小限に抑え、実際のRコードによる実践例の紹介がメインなのでビジネスの現場では大変重宝すると思います。


IT基盤スキル関連


集合知プログラミング

集合知プログラミング


僕にしては珍しくO'Reillyからピックアップ。内容的には各種データマイニングのアルゴリズムを(SVM以外は)一からPythonで組んでいくというものなので冗長な感もありますが、その分個々のアルゴリズムの理解が進みやすい上に可視化やAPI*6の叩き方などについても触れることが出来て、良い本だと思います。写経するだけでも結構実力がつくことでしょう。


非エンジニアの僕が知ったかぶりをして色々挙げていくと怒られそうなので、コーディングまわりやインフラ・システムまわりは全て一般のエンジニア向け書籍を参考にしていただくとして*7、あくまでもデータサイエンティストの立場から見た場合に限定して役に立ちそうな書籍として挙げておきました。


データサイエンティストに関連する分析手法&基盤全般


データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)

データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)


もう養成読本一択です。以前の記事でも絶賛した通り、これしか選びようがないでしょう。著名なデータサイエンティスト多数の執筆陣の手により、データサイエンティストという職種の位置付け、R / Python / SQLによるデータ分析の実際が実ビジネスでのケーススタディ+豊富なコード例とともに紹介されています。


最後に


偉そうに推薦とかしてますが、他でもない僕がこれらの本を読んで勉強中の身でございまして。。。これは僕自身にとっても重要なリストなのです。


ただ、これでも初学者の人には辛い可能性がある*8ので、いずれ初学者向けの10冊みたいなのも選んでみようかと思ってます。


そうそう、機械学習のお薦め2冊なんですがどちらもSVMをサポート「ベクトル」マシンって呼んでるんですよね。何故「ベクター」にしなかったんだろう。。。呼び方にも流派があるのは知ってますが。。。


追記


計量経済学的な要素が多いはずという指摘をいくつかいただいてますので、+αとしてこちらを復活。


人文・社会科学の統計学 (基礎統計学)

人文・社会科学の統計学 (基礎統計学)


上の方で一旦割愛した東大出版会の「緑本」です。社会科学的なデータが持つ固有の性質や、それに対応するための方法論が簡潔に概説されているので、そういったデータに相対することの多いデータサイエンティスト向けの書籍ということで復活させておきました。

*1:たった5ヶ月で陳腐化するとか訳分からん

*2:東大出版会の緑本は、そもそも僕が持ってないという理由で外しましたごめんなさい

*3:意外と有名書籍だと扱いの少ないアンサンブル学習の詳細についても解説がある

*4:全てベイズ観点からのみ説明が入るので慣れてない人にはかなりキツいかも。ただしこれはオンライン学習という意味では完璧な説明なのですが。。。

*5:学生さんならアカデミックライセンスを買うとか、大学のライセンスでやってみるとか

*6:2013年秋現在死んでるAPIが多いので要注意とのこと

*7:少なくともPythonについては何かちゃんとした書籍などで身に付けておいた方が良いかと思われ

*8:養成読本に「難しすぎる」という評をつけている人が少なくなかったのを見ておりまして。。。