追記2
2015年末の時点での最新リストはこちらです。
追記
この記事の5カ月後にもう少し更新した内容の「お薦め本リスト」記事を2つupしてますのでそちらもお読みください。
今回は、僕が実際に自然科学の研究者からデータサイエンティストへと転身するに当たって、いつも脇に置いていたテキストや同僚が参考にしていたテキストをまとめて紹介します。
※以下僕も持っているものには「*」を打ってあります*1*2*3
統計学
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1991/07/09
- メディア: 単行本
- 購入: 158人 クリック: 3,604回
- この商品を含むブログ (82件) を見る
*古典的名著。これぞ本当の「統計学の教科書」。統計学の基礎の基礎のほぼ全てを網羅しています。2変量までの検定・推定ならこれ一冊で十分。
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1992/08
- メディア: 単行本
- 購入: 26人 クリック: 308回
- この商品を含むブログ (21件) を見る
*これまた古典的名著。僕は自然科学の研究者だったのでこちらを持っていました。分散分析・最尤法やカテゴリカルデータの検定・推定、はたまた確率過程・乱数理論についても触れていて重宝します。ベイズ理論も少しだけ触れてます。
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1994/07
- メディア: 単行本
- 購入: 4人 クリック: 32回
- この商品を含むブログ (14件) を見る
人文・社会学系の人はこちらの方がとっつきやすいかも。
- 作者: 石村貞夫
- 出版社/メーカー: 東京図書
- 発売日: 1992/02
- メディア: 単行本
- クリック: 5回
- この商品を含むブログ (5件) を見る
*またまた古典ですみません。分散分析はともかく、共分散分析をきちんと解説しているテキストは実はあまり多くないので、こういう分かりやすいテキストは重宝します。
- 作者: 永田靖
- 出版社/メーカー: 朝倉書店
- 発売日: 2003/09/28
- メディア: 単行本(ソフトカバー)
- 購入: 20人 クリック: 277回
- この商品を含むブログ (14件) を見る
*サンプル抽出によるデータ分析業務を行っている人は必携。恐らく、日本で唯一のサンプルサイズ決定法に関するテキスト。特に非心t分布を用いたサンプルサイズ推定はどの本にもちゃんと載っていないので、大変貴重な本。
- 作者: 高橋信,トレンドプロ
- 出版社/メーカー: オーム社
- 発売日: 2004/07
- メディア: 単行本
- 購入: 156人 クリック: 1,757回
- この商品を含むブログ (200件) を見る
アナリティクス系の仕事をしている同僚が持ってます。基礎的な内容を分かりやすくイラスト(萌え系マンガ笑)で解説してくれています。
マンガでわかるナースの統計学 -データの見方から説得力ある発表資料の作成まで-
- 作者: 田久浩志,小島隆矢,こやまけいこ,ビーコム
- 出版社/メーカー: オーム社
- 発売日: 2006/05/26
- メディア: 単行本
- 購入: 8人 クリック: 21回
- この商品を含むブログ (13件) を見る
これもアナリティクス系の仕事をしている別の同僚が持ってます。これまた基礎的な内容を平易にイラスト(非萌え系マンガ笑)で解説してくれています。
機械学習・データマイニング
- 作者: 石井健一郎,前田英作,上田修功,村瀬洋
- 出版社/メーカー: オーム社
- 発売日: 1998/08
- メディア: 単行本
- 購入: 19人 クリック: 110回
- この商品を含むブログ (42件) を見る
*古典。サポートベクターマシン(SVM)がまだ載ってなかったり内容は古いんですが、この本には機械学習(パターン認識)の最低限のエッセンスと教養が詰まっているので初学者にお薦め。特に、機械学習で有名な「次元の呪い」などの概念を非常に平易に解説してくれていて、読みやすいです。
- 作者: ネロクリスティアニーニ,ジョンショー‐テイラー,Nello Cristianini,John Shawe‐Taylor,大北剛
- 出版社/メーカー: 共立出版
- 発売日: 2005/03
- メディア: 単行本
- 購入: 8人 クリック: 135回
- この商品を含むブログ (42件) を見る
*和書では恐らくこれが唯一かも?と思われるSVMの解説書。はっきり言ってどの書評もボロカスで気の毒な限りなんですが*4、この本ほどアルゴリズム実装を念頭に置いてきちんと書かれた本はない上に、SVMの高速化に貢献した凸二次最適化計画アルゴリズムであるSMO (Sequential Maximal Optimization)のアルゴリズムを解説している資料は和書ではこれ以外どこにも見当たらない*5ので、どうしてもSVMをきちんと理解したい人は必読。
- 作者: C.M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇
- 出版社/メーカー: 丸善出版
- 発売日: 2012/04/05
- メディア: 単行本(ソフトカバー)
- 購入: 6人 クリック: 33回
- この商品を含むブログ (18件) を見る
- 作者: C.M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇
- 出版社/メーカー: 丸善出版
- 発売日: 2012/02/29
- メディア: 単行本
- 購入: 6人 クリック: 14回
- この商品を含むブログを見る
*言わずと知れた、機械学習の最高峰テキスト。はっきり言って、読んでるだけで死ねます。でも読みながらPythonやMatlabなどでコードを書いてだましだまし実装することで、実力が身に付く凄い本です。たぶん上級者向け。
- 作者: Drew Conway,John Myles White,萩原正人,奥野陽,水野貴明,木下哲也
- 出版社/メーカー: オライリージャパン
- 発売日: 2012/12/22
- メディア: 大型本
- 購入: 2人 クリック: 41回
- この商品を含むブログ (11件) を見る
Rを用いて機械学習を学ぼうというテキスト。評判は良いようです。
入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック
- 作者: Matthew A. Russell,奥野陽(監訳),佐藤敏紀(監訳),瀬戸口光宏(監訳),原川浩一(監訳),水野貴明(監訳),長尾高弘
- 出版社/メーカー: オライリージャパン
- 発売日: 2011/11/26
- メディア: 大型本
- 購入: 18人 クリック: 779回
- この商品を含むブログ (42件) を見る
Pythonでソーシャルデータの扱い方を学ぶというテキスト。これも色々なところで紹介されていますね。
- 作者: Toby Segaran,當山仁健,鴨澤眞夫
- 出版社/メーカー: オライリージャパン
- 発売日: 2008/07/25
- メディア: 大型本
- 購入: 91人 クリック: 2,220回
- この商品を含むブログ (277件) を見る
同僚が輪読会をずっとやっていました。これもソーシャルデータ分析システムのPython主体での実装を目指すというテキストです。
R関連
- 作者: 金明哲
- 出版社/メーカー: 森北出版
- 発売日: 2007/10/01
- メディア: 単行本(ソフトカバー)
- 購入: 36人 クリック: 694回
- この商品を含むブログ (64件) を見る
*僕が辞書代わりに使っている本。大半の手法を網羅しているので、一通り勉強し終わったらこれを脇に置いておくと便利かも。
Rプログラミングマニュアル (新・数理工学ライブラリ 情報工学)
- 作者: 間瀬茂
- 出版社/メーカー: 数理工学社
- 発売日: 2007/11
- メディア: 単行本
- 購入: 4人 クリック: 90回
- この商品を含むブログ (29件) を見る
*コードを書くときに辞書代わりに置いている本。Rはデータ構造がややこしいので、こういうRの仕様を何もかも解説してくれる本があると助かります。
- 作者: B.エヴェリット,石田基広
- 出版社/メーカー: シュプリンガー・ジャパン株式会社
- 発売日: 2007/06/28
- メディア: 単行本
- クリック: 40回
- この商品を含むブログ (9件) を見る
*S-Plus前提(純正R向けではない)の本。ただしサンプルデータを著者のサイトで配布していたりしてそこそこ使いやすい。手法はやや古めですが、基本的な部分は大体カバーしてます。
- 作者: 石田基広
- 出版社/メーカー: 森北出版
- 発売日: 2008/12/16
- メディア: 単行本(ソフトカバー)
- 購入: 26人 クリック: 342回
- この商品を含むブログ (34件) を見る
*たまたまMeCabで何かしようかなーと思った時に買ってきた本。今はRMeCab使わずにPython-MeCabでやってるのであまり読んでないんですが、Rでテキストマイニングをしたいという人はこれがあれば大体事足ります。
- 作者: 豊田秀樹
- 出版社/メーカー: 東京図書
- 発売日: 2008/12/05
- メディア: 単行本
- 購入: 12人 クリック: 75回
- この商品を含むブログ (22件) を見る
割と定評のあるテキスト。同僚でも持ってる人が多いです。カバーがお洒落?笑
- 作者: Paul Teetor,大橋真也,木下哲也
- 出版社/メーカー: オライリージャパン
- 発売日: 2011/12/22
- メディア: 大型本
- 購入: 9人 クリック: 61回
- この商品を含むブログ (13件) を見る
これも同僚で持ってる人がちらほら。オライリーが好きな人はこちらの方が良いかも。
計量時系列分析
経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)
- 作者: 沖本竜義
- 出版社/メーカー: 朝倉書店
- 発売日: 2010/02/01
- メディア: 単行本
- 購入: 4人 クリック: 101回
- この商品を含むブログ (6件) を見る
*以前も取り上げた、通称「沖本本」。計量時系列分析のほぼ全てが、コンパクトかつ簡潔にまとめられている上に、演習問題が載っていてさらには著者の沖本竜義先生の個人サイトでサンプルデータまで提供されているという、至れり尽くせりの名著。僕にとってはバイブルです。
- 作者: James D. Hamilton
- 出版社/メーカー: Princeton Univ Pr
- 発売日: 1994/01/11
- メディア: ハードカバー
- 購入: 1人 クリック: 5回
- この商品を含むブログ (8件) を見る
*マルコフ転換モデルの発案者である、Hamiltonの大著。洋書ですが、計量時系列分析の「本当に全て」が網羅されている素晴らしいテキスト。データサイエンス業務で計量時系列分析を多用する人は、絶対に持っていて損をしない一冊。
データサイエンス全般・webデータ分析など
Data Mining and Statistics for Decision Making (Wiley Series in Computational Statistics)
- 作者: Stéphane Tufféry
- 出版社/メーカー: Wiley
- 発売日: 2011/06/17
- メディア: Kindle版
- 購入: 1人 クリック: 1回
- この商品を含むブログを見る
*仏語版が原著でさらに英訳したという面倒な由来を持つ洋書ですが、ビジネスの現場において「意思決定のためにいかにして統計学・データマイニング・機械学習を利用するか?」という点を実際の事例を挙げながら、非常に分かりやすく解説している名著。統計分析ツール同士の性能比較一覧(R vs. SAS vs. SPSS)も載せており、きわめて有用な一冊。
入門 ウェブ分析論?アクセス解析を成果につなげるための新・基礎知識?
- 作者: 小川卓
- 出版社/メーカー: ソフトバンククリエイティブ
- 発売日: 2010/10/01
- メディア: 単行本
- 購入: 8人 クリック: 268回
- この商品を含むブログ (9件) を見る
入門 ウェブ分析論――アクセス解析を成果につなげるための新・基礎知識 増補改訂版
- 作者: 小川卓
- 出版社/メーカー: SBクリエイティブ
- 発売日: 2013/03/17
- メディア: 単行本
- 購入: 2人 クリック: 13回
- この商品を含むブログ (11件) を見る
クチコミページと社長ブログ、売上に貢献しているのはどちら? ~マンガでわかるウェブ分析
- 作者: 小川卓,真鍋マコト,トレンド・プロ
- 出版社/メーカー: 技術評論社
- 発売日: 2012/11/17
- メディア: 単行本(ソフトカバー)
- クリック: 1回
- この商品を含むブログ (2件) を見る
*我らが小川卓さんのwebデータ分析シリーズ。実際にwebサイトを運営していく上で必要なアクセス&データ分析、データの見方、そしてデータ分析&可視化ツールの使い方を分かりやすく解説しています。「ビジネスも実務もデキる一味違ったデータサイエンティスト」を目指すなら、必携のシリーズです。
最後に
以上のリストは僕の独断と偏見に基づくものですので、鵜呑みにしてはいけません。笑 ぜひ皆さんに合ったテキストを探してみて下さい!
*1:アフィリエイトの類は一切やっておりませんので、下記リンクからテキストをお買い上げになっても儲かるのはAmazonだけです(笑)
*2:あくまでも僕が持っているorチラ見させてもらって良さげなものを選んだだけですので、全くもって「万人にお薦めできる」とかそういう観点はありませんので悪しからず。。。
*3:もっと書いてしまうと、僕が普段こなしているデータサイエンス業務を片付けるに足る程度のテキスト群しか選んでいないので、例えばサーバーサイドでのアルゴリズム実装を実践する人向けには全く別のテキストたちが必要になると思います
*4:特に邦訳が日本語としてもぐちゃぐちゃで何言ってるか分からないという苦情多数