渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト

毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。


今回のバージョンでは、趣向をちょっと変えて「定番」と「注目分野」というように分けました。何故こうしたかというと、平たく言って

  • 「初級&中級向け」推薦書籍リストは定番化していて毎年あまり変更点がない
  • 逆に直近のホットトピックスに関するテキストは毎年入れ替わりが激し過ぎて網羅しづらい

という課題があり、特に2点目についてはあまりにもデータサイエンス関連書籍の新規刊行が多過ぎる&僕自身がその流れについていけておらず完全に浦島太郎状態ですので、万人向けに等しくウケるようなリストを作るのは今回をもって完全に諦めたというのが実態です。


その上で、前回まで踏襲されていた定番書籍リストはバルクで提示すると同時に、あくまでも僕の独断と偏見で直近1年間のホットトピックスに沿った知識・見識を提供してくれるであろう注目書籍をピックアップしたリストを提示する、というスタイルを取ることとしました。

ホットトピックス


今現在のホットトピックスと言えば、筆頭に挙がるのは間違いなく生成AIであろうと思われます。ということで、生成AI分野を中心に独断と偏見で僕が選んだ注目書籍をリストアップしておきます。

生成AI


まずLLMを理解するための書籍として、昨年の書評記事でも大絶賛したこちらの2冊をお薦めしておきます。『IT Test自然言語処理の基礎』はLLM以前・以後双方における自然言語処理体系の全てを概観できる素晴らしい解説書で、今後も末長く必携に値すると思われます。『深層学習の原理に迫る』は技術書ではなく一般書の体裁ですが、LLMの挙動について必ず話題になるhallucinationやgrokkingのメカニズムについて考察・解説しており、理解の一助になります。


一方で、LLMの実装そのものやLLMに固有の事由に関心がある方にはこちらの一冊がお薦めです。基盤モデルとしてのTransformerの解説から入り、LLMへの発展、人間のフィードバックによる強化学習(RLHF)やファインチューニングといったトピックスや、その周辺の関連トピックスを幅広く取り上げています。


ところで、僕個人の関心という点において画像生成AIにはかなり疎いという側面が強く、その方面の勉強のために手に取ったのがこちらの一冊です。ゴリゴリの理論面の解説書なので読む人にとっては取っ付きにくいかもしれませんが、Stable Diffusionなどの拡散モデルが内部的にどのように振る舞っているかを知る上で参考になると思います。

生成AI活用法


生成AIというかChatGPTの活用法に関する書籍は、昨年春以降文字通り掃いて捨てるほど出版されていますが、その中でも僕が選んだのはこちらの一冊です。理由は簡単で、著者お二人が僕も良く存じ上げている*1データサイエンス業界屈指の実力者の方々で、そんなお二人が書かれる一冊なら間違いなかろうと思ったからです(笑)。内容としては巷で良く喧伝されるChatGPT活用法に留まらず、ChatGPTにmatplotlibなど任意のパッケージを使わせてデータを可視化するといった、いかにもデータサイエンティストっぽい活用法も多数紹介されており、他書とは一線を画す生成AI活用指南書と言って良いかと思います。

ベイズ統計学


定番リストの方に回しても良かったんですが、つい最近訳者の菅澤さんにお招きいただいてシンポジウムでお話したというご縁もありますので(笑)*2、今一度改めてホットトピックス側で紹介させていただきます。以前の書評記事でも大絶賛した『標準ベイズ統計学』です。「最初の基本のきからベイズ的に考える」ことを重視したガチ正統派のベイズ統計学テキストで、「信念」としての確率の扱い方、事前分布・尤度・事後分布の考え方、そしてギブスサンプラーメトロポリス・ヘイスティングアルゴリズムによるMCMCを用いた事後分布のサンプリングといった、ベイズ統計学の根幹をなす諸事項をRコードを付して懇切丁寧に解説しています。

ベイズ最適化


ベイズ最適化と言えば以前このブログでも機械学習モデルのハイパーパラメータチューニング方法の一つとして紹介したことがありますが、本来は適応的実験計画法における代表的なアプローチの一つとされます。その全体像を体系立てて解説するのが本書であり、そのアルゴリズムからOptunaによる実装、さらには多目的・並列最適化といった発展的内容にまで踏み込んで解説しています。


定番


ここからは定番書籍リストです。例年通りのカテゴリもあれば、微妙に入れ替えたり削除したりしているカテゴリもあったりしますが、概ね前年踏襲だと思ってください。

初級向け

実務総論


以前書評した『AI・データ分析プロジェクトのすべて』で「実務データ分析向けの総論」書籍としてお薦めする次第です。まさしく「駆け出しからベテランまで『必携の仕事術大全』」という内容であり、「一般にデータ分析職はどう仕事するべきか」論が網羅的に解説されている良書と言って良いでしょう。

データサイエンス総論


以前の記事で大絶賛した『マーケティング・エンジニアリング入門 (有斐閣アルマ)』の著者のお一人、上田先生の『データサイエンス入門』を今年も推させていただきます。事実上「データ分析業界で用いられる分析手法全て(統計学機械学習・データ基盤技術)」を概観できる素晴らしい入門書です。初学者はまずこちらの書籍を目次代わりにして、興味が湧いた分野の書籍・資料を当たっていくと良いと思います。

R・Pythonによるデータ分析プログラミング


引き続きこの位置に据わるのはこちらの一冊です。まさに読んで字の如く、一通りの現代的なデータサイエンスの分析に関わるコードを、全てRとPythonで「ほぼ完全に一対一対応」するように書いて解説してくれるという至れり尽くせりぶりで、初心者向けながらNNというかDeep Learningの組み方まで載っている点もお薦めポイントです。

統計学


初学者向けの統計学の教科書の定番です。Rベースでコードを書きながら統計学*3の基本事項の大半を実践的に学べます。ただ、割と大雑把な内容で近年になって指摘されるポイントが増えているように見聞しますので、早晩他書に置き換わるかもしれません。

機械学習


お馴染みはむかずさん本です。詳細は以前の書評記事をお読みください。文字通り、機械学習を生業にしたいと願う人がゼロから学んでいく上で絶対必須不可欠の知識・教養・技術の全てがこの一冊に収められています。さらに、機械学習に必要な最低限の数学もこの本で大体のところを学べるので、特に数学的な基礎についても学びたいという人には是非お薦めです。


そして機械学習の全体像を俯瞰するという意味では、そのはむかずさん監修のこちらの一冊がお薦めです。「図解」である点が素晴らしいといつもながら思います。

中級向け

統計学


お馴染みの神永先生の手による「新・赤本&青本』です。「実務家向けであることを考慮すると数理統計学的な基礎知識を重視した東大出版会3冊よりもこちらの2冊の方がRコードによる実践も添えられていて分かりやすい」ことから、今回も定番書籍として挙げています。もう何年も連続で書いていますが、赤・青と続いて是非「緑」(社会科学データ統計学)も期待したいと思います*4


ベイズ統計学及び統計モデリングの基礎については、定番の馬場さんのこちらの一冊を。以前の書評記事で大絶賛した通りですが、RとStanを駆使してGLM, GLMM, 階層ベイズそして状態空間モデルと、古典的な統計モデリングからモダンなベイジアンモデリングまでを分かりやすく、豊富な例題と共に実践的に学ぶことが出来ます。現職で僕がリードするサブチームでも若手向けのテキストとしてこちらを指定させていただいております。


統計学のトリを飾るのは、これまたすっかりお馴染みになった『新版 統計学のセンス』です。以前の書評記事でも激賞した通り、信頼区間など頻度論統計学のやや難解なところも言葉を濁さずきちんと解説し、統計的因果推論や実験計画法や果ては非劣性検定についてもページを割いており、極めて貴重な一冊です。あえて言えば多少医療統計の色が強いのが難点で、今後より一般的な分野を対象とした同様の新刊書が出た場合はそちらに置き換わるかもしれません。

機械学習


ぶっちゃけ内容の陳腐化が甚だしい感もありますが、バランス良く幅広く機械学習の基礎が収録されていて「独習に」最適という点でやはり外せないのがこちらの「はじパタ」。ベイズの識別規則や性能評価といった基礎事項から、線形分類器、カーネル法、行列分解、クラスタリング、アンサンブル学習と主要なトピックを簡潔かつ分かりやすくまとめています。これを読んで機械学習の全体像を掴んでから、各トピックに特化したテキストを求めてそこでコーディング実装と合わせて深掘りしていく、という「ガイドブック」として利用するのが本書の正しい使い方かなと思います。


これまた毎度お馴染み「カステラ本」です。現代的なNNに関する記述は物足りないですが、それ以外のほぼ全ての機械学習分野の話題がカバーされているので「機械学習分野の『教養』」を確認するための辞書として使う上では今でも最適の鈍器です。英語版PDFならweb上で無料で読めます。


またまたお馴染み講談社MLPシリーズ『深層学習』改訂第2版です。基本的なNNの構造、勾配法とそれにまつわる性能評価、そしてCNN, LSTM含むRNNファミリー、Seq2Seq, attention, transformer, GNN, adversarial examples, LIME / SHAPなどの説明可能性(解釈性)関連手法、NAS, data augmentation, one-shot learning, VAE, GANといった近年の研究成果と実装された手法たちが網羅的に取り上げられています。

テーマ別

回帰モデル


以前の書評記事で「温故知新」と称して大絶賛した佐和本です。1979年初版と極めて古い書籍ですが、現代における様々な回帰モデルのバリエーションにも通じる普遍的な事項の丁寧な解説に満ち溢れており、特にMMMなど回帰モデルによる「説明(解釈)」を扱う人にとってはバイブルに等しい一冊になるかと思います。朝倉書店さんには是非電子版の刊行もお願いしたいところです*5

PRML


「黄色い本」です。ベイズ機械学習ガウス過程回帰といった「PRMLなら他のテーマと共に包括的に学べる」テーマが近年流行っている一方、特に系列データ分析などは今でもPRML以外に思ったほど良書がなく、今回も入れてあります。

機械学習の実践


すっかりお馴染み「Kaggleで勝つ」本です。評価指標の置き方・特徴量の扱い方・モデル評価と交差検証の方法・モデルのチューニング・モデルの組み合わせ方・leakageのような落とし穴、などなどKaggleで勝つという目標だけに閉じず、機械学習そのものの理論や実装以上に重要な「メタ機械学習」の考え方が網羅されており、機械学習の実務家であれば必携の書と言って良いでしょう。

Deep Learning / NN


日本人Kaggle Grand Master / Masterの錚々たる顔ぶれが執筆陣にズラリと並ぶ、超豪華版の一冊です。主にNNが得意とする画像分類・画像検索・テキスト分類の3領域にテーマを絞って、いかにしてKaggle competitionレベルの競争の中で精度を上げていくかという点をこれでもかと追求した、極めて野心的な解説書です。コード記述の大半をGitHubで公開し、実装環境は章ごとにDockerで構築してもらうことにすることで、冊子自体は非常にコンパクトにまとめられています。

統計的因果推論


統計的因果推論については、現在に至ってもなお前々職の後輩である安井君の手によるこちらの一冊が実務家向けでは決定版でしょう。過去に書評記事で称賛した通りで、「セレクションバイアスとRCT」「介入効果を測るための回帰分析」「傾向スコアを用いた分析」「差分の差分法(DID)とCausalImpact」「回帰不連続デザイン(RDD)」という章立てで、段階を踏みながら計量経済学的な理論面での背景も丁寧に解説しつつ、Rコードによる実践例も付して分かりやすく統計的因果推論について説いた良書です。


Pearl本の訳書です。実は昨年版までは入れてなかったのですが、近年MMMなどのビジネス実務系の回帰モデルでDAGを書いて交絡の調整が行われるケースが増えているようですので、その基礎が学べる本書を今回からリストに入れました。Pearl流因果推論の代表的トピックスであるDAG、バックドア・フロントドア基準、反実仮想といった内容がコンパクトにまとめられています。

ベイズ統計学


『標準ベイズ』をホットトピックスに回しましたので、定番リストのこちらでは『モンテカルロ統計計算』だけを挙げておきます。ベイズ統計学の理論面での考え方の入門と、その事後分布を求める手段であるMCMCサンプリングのRコードによるスクラッチ実装から成ります。普段RStanであまり深く考えずサラッと流してしまっているベイズ統計学そしてMCMCの裏側を、極めて分かりやすく解説しており、前掲の『標準ベイズ統計学』に引き続いて読むに相応しい優れたテキストです。ただしRStanの話は全然出てこない*6ので、あくまでも「RStanで良く実装される手法の原理を学ぶための教科書」として読んだ方が良いです。

時系列分析


鉄板の「沖本本」です。ひとまず理論的な部分についてはこれ一冊あれば十分でしょう。このブログの初期に時系列分析カテゴリ記事群で散々取り上げたので、本書を読みながらなぞると良いかもしれません。


モダンなベイジアンモデリングを駆使した時系列分析に関しては、僕が把握している範囲のテキストとして萩原さんの本をお薦めしています。単に時系列分析や状態空間モデルというだけでなく、粒子フィルタまで含めたベイジアン時系列モデリング全般の話題をスクラッチからのRコーディングまで添えて解説しているので、網羅的で非常に読み応えがあります。勿論RStanによる標準的なモデリング方法もカバーしていてお薦めです。

グラフ・ネットワーク分析


グラフ・ネットワーク分析に関しては、現在もなお鈴木先生のこちらの一冊が鉄板にして唯一の決定版でしょう*7グラフ理論の基礎から中心性やコミュニティ検出といった有用な手法の実践例が付されて解説されており、特にソーシャルデータや何かしらのネットワークデータを扱う人は必ず脇に置いておくべき一冊です。ただし、こちらも近年のグラフニューラルネットワーク(GNN)の進歩で更新を迫られるかもしれません。

データ基盤


昨年版から引き続きリストインしている本書は、文字通り「データ基盤の作り方」を一から懇切丁寧に説く、まさに処方箋的な一冊です。特に「ファーストペンギンとしてデータ基盤の整備から手掛けなければならないがどこから手をつけたら良いか分からない」という人には一押しです。


いい加減陳腐化が見えてきている感もありますが、純粋なデータ分析目的のSQLコーディングについてはやはり畏友・田宮さんも共著に加わったこの一冊を依然として推したいところです。過去の書評記事で激賞した通りで、文字通り「データ分析のためのSQL黒魔術大全」と言って良いでしょう。


コメントなど


もう何回書いたか分からないコメントですが、「上級向け」はそもそも僕自身が上級者ではない(汗)のでリストには入れていませんし、今後も設定しない見込みです。悪しからずご了承ください。また、数理統計学や測度論的確率論、確率過程論といった基礎理論分野の書籍も「実務家向けとは必ずしも限らない」ため、やはりリストには入れていません。


一方で、毎年このリストの更新のために改めてデータサイエンス・統計学機械学習分野の新刊書をこの時期になると漁っているんですが、やはり10年以上前に比べるとデータサイエンスが社会に浸透し、さらに生成AIの普及で人々の関心が全体的に非常に高まっているせいもあってか、本当に呆れるほどどの分野でも類書が物凄ーーーーーく沢山刊行されているんですよね。ですので、以前はご恵贈いただいた数冊の技術書を拝読していればさくさくリストの更新が出来たんですが、ここ3年ぐらいはリアル書店Amazonを端から端まで覗き込んで回ってもまだ主要書籍を網羅できないというのが常態化しています。


ということで、恐らく今後も僕のサーベイ不足で及ばない部分を糊塗するために「独断と偏見で選ぶ」感が増していくかと思いますが、少しでも多くのデータ分析職及びその候補生の方々に良書をお読みいただくべく、来年以降も細々と更新していく所存です。これからもよろしくお願いいたします。

*1:ただしX (Twitter)上で

*2:ちなみに別の訳者の入江さんにもその際にご挨拶申し上げました

*3:ただし頻度論に限る

*4:期待の書籍が出るまで著者の方々にプレッシャーをかけていくスタイル

*5:実現されるまで毎年書いていくスタイル

*6:勿論NumPyroの話題も出てこない

*7:グラフ理論そのものの書籍は沢山あるが肝心の分析方法について解説した本はいつまで経っても新たに出てこない