渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

2025年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたい定番の書籍リスト

気付いたらこの企画をやるようになってもう12年も経つわけですが、今年も懲りずに推薦書籍リストを書いてみようかと思います。


昨年との差異ですが、まず「ホットトピックス」枠を削りました。理由は単純で、データサイエンス分野も昨今の多種多様な分野に細分化されていく一方で、「誰もが追いかけるテーマ」が事実上空前の大ブーム下にある生成AIだけになってしまっているからです。このブログのスタンスとしては「生成AIにまつわる最先端のあれこれは他所様に任せる」という方針なので、生成AIのトレンドを取り上げないとなると必然的にホットトピックスもなくなるということで、今回は定番の書籍リストのみ若干の改訂を加えて記すこととします。


一方で、生成AIが普及してきたこともあって「定番」の書籍リストにも相応の入れ替わりがあります。これまた理由はシンプルで、「この程度の実装やコーディングなら生成AIに聞けば十分」というケースが増えてきたからです(詳細は後述)。そのため、「理論やアルゴリズムの解説はそこそこにコード実装の解説が充実している」系のテキストは今年のリストからは割愛し、「しっかり理論やアルゴリズムを解説している」系のテキストをリストに新たに入れたり戻したりしています。

初級向け

実務総論


近刊のテキストでも良さげなものは色々ありますが、一旦以前書評した『AI・データ分析プロジェクトのすべて』を「実務データ分析向けの総論」書籍としてお薦めする次第です。「駆け出しからベテランまで『必携の仕事術大全』」という内容で、一般論としての「データ分析職はどう仕事すべきか」論が網羅されています。

データサイエンス総論


以前の記事で大絶賛した『マーケティング・エンジニアリング入門 (有斐閣アルマ)』の著者のお一人、上田先生の『データサイエンス入門』を今回も推させていただきます。事実上「データ分析業界で用いられる分析手法全て(統計学機械学習・データ基盤技術)」を概観できる入門書です。初学者はまずこちらの書籍を目次代わりにして、興味が湧いた分野の書籍・資料を当たっていくと良いと思います。

R・Pythonによるデータ分析プログラミング


今年も引き続きこの位置に据わるのはこちらの一冊。読んで字の如く、現代的なデータサイエンスの分析に関わるコード一通りを、全てRとPythonで「ほぼ完全に一対一対応」するように書いて解説してくれるという網羅性の高さで、初心者向けながらNNの組み方まで載っている点もお薦めポイントです。

統計学


初学者向けの統計学の教科書の定番です。Rベースでコードを書きながら統計学*1の基本事項の大半を実践的に学べます。ただ、割と大雑把な内容で近年になって指摘されるポイントが増えているように見聞しますので、早晩他書に置き換わるかもしれません。

機械学習


毎度お馴染みはむかずさん本です。詳細は以前の書評記事をお読みください。文字通り、機械学習を生業にしたいと願う人がゼロから学んでいく上で絶対必須不可欠の知識・教養・技術の全てがこの一冊に収められています。さらに、機械学習に必要な最低限の数学もコーディングもこの本で大体のところを学べるので、特に数学的な基礎についても学びたいという人には是非お薦めです。


中級向け

統計学


今年から東大出版会三部作をリストに戻しました。以前は「現代のテキストとして使うにはコード実装例が皆無で不便」ということで外していましたが、生成AIの普及でコード解説が不要になったため、改めて収録してあります。「基礎統計学シリーズ」と銘打たれているだけあって、単変量解析・多変量解析・系列データ解析と統計学の初歩的内容のほぼ全てがこの3冊でカバーされています。統計分析を生業にするならば、一度はまとめて読破しておきたいところです。


ベイズ統計学及び統計モデリングの(中級者向け)基礎については、定番の馬場さんのこちらの一冊を。以前の書評記事で大絶賛した通りですが、RとStanを駆使してGLM, GLMM, 階層ベイズそして状態空間モデルと、古典的な統計モデリングからモダンなベイジアンモデリングまでを分かりやすく、豊富な例題と共に実践的に学ぶことが出来ます。現職で僕がリードするサブチームでも若手向けのテキストとしてこちらを指定させていただいております。


統計学のトリを飾るのは、毎度お馴染みの『新版 統計学のセンス』です。以前の書評記事でも激賞した通り、信頼区間など頻度論統計学のやや難解なところも言葉を濁さずきちんと解説し、統計的因果推論や実験計画法や果ては非劣性検定についてもページを割いており、極めて貴重な一冊です。あえて言えば多少医療統計の色が強いのが難点で、今後より一般的な分野を対象とした同様の新刊書が出た場合はそちらに置き換わるかもしれません*2

機械学習


いよいよ内容の陳腐化が甚だしくなってきていますが、バランス良く幅広く機械学習の基礎が収録されていて「独習に」最適という点でやはり外せないのがこちらの「はじパタ」。ベイズの識別ルールや性能評価といった基礎事項から、線形分類器、カーネル法、行列分解、クラスタリング、アンサンブル学習と主要なトピックを簡潔かつ分かりやすくまとめています。これを読んで機械学習の全体像を掴んでから、各トピックに特化したテキストを求めてそこでコーディング実装と合わせて深掘りしていく、という「ガイドブック」として利用するのが本書の正しい使い方かなと思います。


これまた毎度お馴染み「カステラ本」です。現代的なNNに関する記述は皆無に等しいですが、それ以外のほぼ全ての機械学習分野の話題がカバーされているので「機械学習分野の『教養』」を確認するための辞書として使う上では今でも最適の鈍器です。英語版PDFならweb上で無料で読めます。


これまた毎度お馴染み講談社MLPシリーズ『深層学習』改訂第2版です。基本的なNNの構造、勾配法とそれにまつわる性能評価、そしてCNN, LSTM含むRNNファミリー、Seq2Seq, attention, transformer, GNN, adversarial examples, LIME / SHAPなどの説明可能性(解釈性)関連手法、NAS, data augmentation, one-shot learning, VAE, GANといった近年*3の研究成果と実装された手法たちが網羅的に取り上げられています。


テーマ別

回帰モデル


以前の書評記事で「温故知新」と称して大絶賛した佐和本です。1979年初版と極めて古い書籍ですが、現代における様々な回帰モデルのバリエーションにも通じる普遍的な事項の丁寧な解説に満ち溢れており、特にMMMなど回帰モデルによる「説明(解釈)」を扱う人にとってはバイブルに等しい一冊になるかと思います。朝倉書店さんには是非電子版の刊行もお願いしたいところです*4

PRML


いわゆる「黄色い本」です。ベイズ機械学習ガウス過程回帰といった「PRMLなら他のテーマと共に包括的に学べる」テーマが近年流行っている一方、特に系列データ分析などは今でもPRML以外に思ったほど良書がなく、今回も入れてあります。以前はコード実装例の乏しさゆえリストから外していましたが、生成AIでコーディングが容易になったことで今ならかなり読みやすいのではないかと思われます。

機械学習の実践


すっかりお馴染み「Kaggleで勝つ」本です。評価指標の置き方・特徴量の扱い方・モデル評価と交差検証の方法・モデルのチューニング・モデルの組み合わせ方・leakageのような落とし穴、などなどKaggleで勝つという目標だけに閉じず、機械学習そのものの理論や実装以上に重要な「メタ機械学習」の考え方が網羅されており、機械学習の実務家であれば今現在においても必携の書と言って良いでしょう。

Deep Learning / NN


今回も、日本人Kaggle Grand Master / Masterの錚々たる顔ぶれが執筆陣にズラリと並ぶ超豪華版の一冊をリストに入れました。主にNNが得意とする画像分類・画像検索・テキスト分類の3領域にテーマを絞って、いかにしてKaggle competitionレベルの競争の中で精度を上げていくかという点をこれでもかと追求した、極めて野心的な解説書です。コード記述の大半をGitHubで公開し、実装環境は章ごとにDockerで構築してもらうことにすることで、冊子自体は非常にコンパクトにまとめられています。


昨年拝読して良かったので、今年から書籍リストに加えさせていただいたのがこちらの一冊です。現代的なNNさらにはLLMなどの開発では必須の量子化・枝刈り・蒸留を初めとした手法であったり、さらには前提知識としてのgrokkingや平坦解vs.先鋭解さらには「次元の祝福」「安定性の縁」といった様々なNNの数理的な性質などについても紹介されており、単純なNN高速化の話題以上の内容が詰まっている良書です。

統計的因果推論


以前の書評記事で大絶賛した、金本さんのテキストです。今回このサブセクションに入れた中では「理論・技術」担当という位置付けの一冊で、因果推論における各種の基礎概念・バイアス調整済み実験・傾向スコア・因果グラフ・機械学習ベース因果推論・因果探索などなど、統計的因果推論の全てが理論的解説及びコード実装例とともに網羅されています。


最近出たばかりの新刊書ですが、内容が素晴らしかったので急遽今回の書籍リストに加えさせていただきました。金本本が「理論・技術」担当なのに対して、本書は「実践・実務」担当という位置付けの一冊です。特にタイトルの通りマーケティングを題材としたグラフィカルな解説が多く、往々にしてカジュアルに因果推論が求められるマーケティング分野のデータ分析実務においては重宝されると思われます。

ベイズ統計学


以前の書評記事でも大絶賛した『標準ベイズ』です。まさしく「最初の基本のきからベイズ的に考える」ことを重視したガチ正統派のベイズ統計学テキストで、「信念関数」としての確率の扱い方、事前分布・尤度・事後分布の考え方、そしてギブスサンプラーメトロポリス・ヘイスティングアルゴリズムによるMCMCを用いた事後分布のサンプリングといった、ベイズ統計学の根幹をなす諸事項をRコードを付して懇切丁寧に解説しています。


こちらも以前の書評記事で大絶賛したBDA3邦訳版です。まさにバイブルと呼ぶべき網羅的・辞書的な鈍器で、ベイズ的な確率の考え方・ベイズベース情報量規準・MCMCベイジアンモデリングベイズ的欠損値処理・ノンパラベイズなどなどといった、ベイズ統計学の全概念がこれでもかと懇切丁寧に解説されています。

自然言語処理


LLMブームの真っ只中に必要な最低限の技術的素養と思われる自然言語処理ですが、今回は以前の書評記事で大絶賛したこちらの一冊に限ってリストに入れさせていただきました。NN時代以前・以後の自然言語処理の理論と技術について網羅的に解説しており、LLMに限らない基礎的な教養が身につく、必読のテキストです。

時系列分析


永遠に鉄板の「沖本本」です。ひとまず理論的な部分についてはこれ一冊あれば十分でしょう。このブログの初期に時系列分析カテゴリ記事群で散々取り上げたので、本書を読みながらなぞると良いかもしれません。


モダンなベイジアンモデリングを駆使した時系列分析に関しては、僕個人が把握している範囲のテキストとして萩原さんの本をお薦めしています。単に時系列分析や状態空間モデルというだけでなく、粒子フィルタまで含めたベイジアン時系列モデリング全般の話題をスクラッチからのRコーディングまで添えて解説しているので、網羅的で非常に読み応えがあります。勿論RStanによる標準的なモデリング方法もカバーしていてお薦めです。Pythonだとこれ系の良書に乏しいのがちょっと残念ではありますが……。

グラフ・ネットワーク分析


グラフ・ネットワーク分析に関しては、現在もなお鈴木先生のこちらの一冊が鉄板にして唯一の決定版でしょう*5グラフ理論の基礎から中心性やコミュニティ検出といった有用な手法の実践例が付されて解説されており、特にソーシャルデータや何かしらのネットワークデータを扱う人は必ず脇に置いておくべき一冊です。ただし、鈴木先生も言及されていたようですが、近年のグラフニューラルネットワーク(GNN)の進歩に合わせたテキストも必要になってきそうな気はしております。


選者としてのコメントなど


冒頭でも触れた「生成AIが普及したのでコード実装例の有無よりも理論やアルゴリズムの解説を重視した」点ですが、実は僕が職場で毎年開講している初級・中級向けデータサイエンス講座の受講生の人たちからもらった感想がもとになっています。


というのも、たまたまある機会に一昨年受講した人たちと昨年受講した人たちとが出くわして僕の講座の感想を言い合っていたんですが、そこで昨年組の人たちから出てきたのが「今は生成AIに質問すれば統計分析も機械学習も実装コードのひな形を教えてくれるので楽だった」というものだったんですね。


各種生成AIが質問されて生成するコードの品質やそれを利用することの是非は今でも議論の的になっていますし今後も論議を呼ぶものと思われますが、こと「教育的用途」即ち技術テキストの内容を理解するためのコーディング実装を目的として生成AIを利用する限りは、概ね許容されうるのではないかというのが僕の意見です。 


これにより、今回の推薦書籍リストでは意図的にコード実装の解説に重きを置いたテキストは減らし、代わりに理論やアルゴリズムの解説に重きを置いたテキストを増やしております。どうかご理解いただければ幸いです。


また、データ基盤の書籍については僕自身が触れることがめっきり減ってしまい、最近の話題に疎くなったので不確かなテキストを推薦するよりは「無い」方が幾分かはマシだろうということで、サブセクションごと削除しています。


……ということで、今年も推薦書籍リスト記事を書かせていただきました。読者の皆様の何がしかのご参考になればと願っております。

*1:ただし頻度論に限る:ベイズ統計学が普及してきた現在では微妙ですが

*2:毎年言ってる

*3:最近では「古典的」と言われそうですが

*4:相変わらず実現されるまで毎年プレッシャーをかけていくスタイル

*5:グラフ理論そのものの書籍は沢山あるが肝心の分析方法について解説した本はいつまで経っても新たに出てこない