渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

2023年版:実務データ分析を手掛けるデータサイエンティスト向け推薦書籍リスト(初級6冊+中級8冊+テーマ別15冊)


(Image by wal_172619 from Pixabay)

去年で恒例の推薦書籍リストの更新は一旦終了したつもりだったんですが、記事を公開して以降に「これは新たにリスト入りさせないわけにはいかない!」という書籍が幾つも現れる事態になりましたので、前言撤回して今年も推薦書籍リストを公開しようと思います。

初級向け6冊


今回は新たに加わったテキストがあります。

実務総論


以前書評した『AI・データ分析プロジェクトのすべて』ですが、今回は「実務データ分析向けの総論」としてお薦めしています。それは「駆け出しからベテランまで『必携の仕事術大全』」という内容に着目した位置付けであり、「データ分析職はどう仕事するべきか」論が網羅的に解説されている良書と言って良いでしょう。

データサイエンス総論


以前の記事で大絶賛した『マーケティング・エンジニアリング入門 (有斐閣アルマ)』の著者のお一人、上田先生が昨年末に出版された『データサイエンス入門』が、近年僕が読んだ関連書籍の中では群を抜いてデータサイエンス分野の知識の網羅度が高かったので、この度改めて初級向けに追加させていただきました。紙面の都合もあって各手法の技術的な詳細は割愛されていますが、事実上「データ分析業界で用いられる分析手法全て(統計学機械学習・データ基盤技術)」を概観できる素晴らしい入門書です。初学者はまずこちらの書籍を目次代わりにして、興味が湧いた分野の書籍・資料を当たっていくと良いと思います。


R・Pythonによるデータ分析プログラミング


昨年に引き続きこの位置に据わるのはこちらの一冊です。まさに読んで字の如く、一通りの現代的なデータサイエンスの分析に関わるコードを、全てRとPythonで「ほぼ完全に一対一対応」するように書いて解説してくれるという至れり尽くせりぶりはなかなか他書では見られません。初心者向けながらNNというかDeep Learningの組み方まで載っている点もお薦めポイントです。

統計学


初学者向けの統計学の教科書といったら今でもこれしかないですね。Rベースでコードを書きながら統計学*1の基本事項の大半を実践的に学べます。

機械学習


お馴染みはむかずさん本です。未読だけど中身が気になるという方は以前の書評記事をお読みください。文字通り、機械学習を生業にしたいと願う人がゼロから学んでいく上で絶対必須不可欠の知識・教養・技術の全てがこの一冊に収められています。さらに、機械学習に必要な最低限の数学もこの本で大体のところを学べるので、特に数学的な基礎についても学びたいという人には是非お薦めです。


そして機械学習の全体像を俯瞰するという意味では、そのはむかずさん監修のこちらの一冊が良いでしょう。「図解」である点が素晴らしいといつもながら思います。


中級向け8冊


中級向けも今回は微妙に変動があります。

統計学


すっかりお馴染みになった、神永先生の手による「新・赤本&青本』です。「実務家向けであることを考慮すると数理統計学的な基礎知識を重視した東大出版会3冊よりもこちらの2冊の方がRコードによる実践も添えられていて分かりやすい」ことから、今回も筆頭に挙げています。もう3年連続で書いていますが、赤・青と続いて是非「緑」(社会科学データ統計学)も期待したいと思います*2


そしてベイズ統計学及び統計モデリングの基礎については、もはや定番となった馬場さんのこちらの一冊を。以前の書評記事で大絶賛した通りですが、RとStanを駆使してGLM, GLMM, 階層ベイズそして状態空間モデルと、古典的な統計モデリングからモダンなベイジアンモデリングまでを分かりやすく、豊富な例題と共に実践的に学ぶことが出来ます。現職で僕がリードするサブチームでも若手向けのテキストとしてこちらを指定させていただいております。


統計学のトリを飾るのは、これまたすっかりお馴染みになった『新版 統計学のセンス』です。以前の書評記事でも激賞した通り、信頼区間など頻度論統計学のやや難解なところも言葉を濁さずきちんと解説し、統計的因果推論や実験計画法や果ては非劣性検定についてもページを割いており、極めて貴重な一冊です。あえて言えば多少医療統計の色が強いのが難点かも。

機械学習


そろそろ内容の陳腐化が見えてきている間もありますが、バランス良く幅広く機械学習の基礎が収録されていて「独習に」最適という点でやはり外せないのがこちらの「はじパタ」。ベイズの識別規則や性能評価といった基礎事項から、線形分類器、カーネル法、行列分解、クラスタリング、アンサンブル学習と主要なトピックを簡潔かつ分かりやすくまとめています。これを読んで機械学習の全体像を掴んでから、各トピックに特化したテキストを求めてそこでコーディング実装と合わせて深掘りしていく、というのが本書の正しい使い方かなと思います。


毎度お馴染み「カステラ本」です。現代的なNNに関する記述は物足りないですが、それ以外のほぼ全ての機械学習分野の話題がカバーされているので辞書として使う上では今でも最適の鈍器です。英語版PDFならweb上で無料で読めます。


お馴染み講談社MLPシリーズ『深層学習』改訂第2版です。基本的なNNの構造、勾配法とそれにまつわる性能評価、そしてCNN, LSTM含むRNNファミリー、Seq2Seq, attention, transformer, GNN, adversarial examples, LIME / SHAPなどの説明可能性(解釈性)関連手法、NAS, data augmentation, one-shot learning, VAE, GANといった近年の研究成果と実装された手法たちが網羅的に取り上げられています。


そして機械学習のトリはこちら。「実務家として」機械学習を学ぶ上では重要な、ML Ops機械学習のモデル検証、さらにバンディットアルゴリズムやオンライン広告配信の最適化といった様々な「実践的」な機械学習のトピックスを俯瞰できる良書です。ただ、最近ML Opsに関しては良い本が沢山出ているので、いずれはそれらの新刊書に置き換えられるかもしれません。


テーマ別15冊


初級・中級に新刊書が加わった影響で、今回のリストから削除された書籍もあるのでご注意を。

回帰モデル

以前の書評記事で「温故知新」と称して大絶賛したのが佐和本ことこちらの一冊です。1979年初版と極めて古い*3書籍ですが、現代における様々な回帰モデルのバリエーションにも通じる普遍的な事項の丁寧な解説に満ち溢れており、特にマーケティングモデルなど回帰モデルによる「説明(解釈)」を扱う人にとってはバイブルに等しい一冊になるかと思います。絶版なのか度々売り切れになることが多く、朝倉書店さんには是非電子版の刊行もお願いしたいところです。

PRML


かつて「黄色い本」として人気を誇ったPRML上下巻ですが、今年も入れておきました。理由は同様で、ベイズ機械学習ガウス過程回帰といった「PRMLなら他のテーマと共に包括的に学べる」テーマが近年流行っている一方、特に系列データ分析などは今でもPRML以外に思ったほど良書がないためです。ただし、テーマを選んで講談社MLPシリーズの当該巻を買った方が良いという考え方もあり、今後もリストインさせ続けるかどうかは再考の余地があるかも。

機械学習の実践


毎度お馴染み「Kaggleで勝つ」本です。評価指標の置き方・特徴量の扱い方・モデル評価と交差検証の方法・モデルのチューニング・モデルの組み合わせ方・leakageのような落とし穴、などなどKaggleで勝つという目標だけに閉じず、個人的には機械学習そのものの理論や実装以上に重要と思われる「MLデザイン」の考え方が網羅されており、機械学習の実務家であれば必携の書と言って良いでしょう。

Deep Learning / NN


以前の推薦書籍リスト記事でも紹介したsklearn + TensorFlow本の第2版です。相変わらずこの第2版は未読なのですが*4、初版本はうちのチームの若手向け機械学習レーニングでも使っていて好評でした*5。特にTF / Kerasの本という意味では非常に良い解説書で、著名なCNN / RNNモデルの生ネットワークの書き方なんかも紹介されていて便利だと思います。Attention, Transformer, GANや強化学習など最近の話題もカバーしています。ただし、JAX系フレームワークやPyTorchが台頭してきている現在ではそろそろお役御免になるかもという気がしています。


図解速習DEEP LEARNING

図解速習DEEP LEARNING

Amazon

今年もこのカテゴリの2冊目はこちらです。Colaboratoryを駆使し、現代のDeep諸系統全盛期における代表的なネットワークの大半の組み方とその実践さらにはwebへのデプロイ*6をこれ一冊でカバーするという、極めて野心的かつ実践的な良書です。Colabでサクサク学びたいという人には特にお薦めです。


そしてこちらの一冊はつい最近出版されたばかりですが、日本人Kaggle Grand Master / Masterの錚々たる顔ぶれが執筆陣にズラリと並ぶ、まさに超豪華版です。主にNNが得意とする画像分類・画像検索・テキスト分類の3領域にテーマを絞って、いかにしてKaggle competitionレベルの競争の中で精度を上げていくかという点をこれでもかと追求した、極めて野心的な一冊です。一方でコード記述の大半をGitHubで公開し、実装環境は章ごとにDockerで構築してもらうことにすることで、冊子自体は非常にコンパクトにまとめられています。

統計的因果推論


統計的因果推論については、2023年現在に至ってもなお前々職の後輩である安井君の手によるこちらの一冊が実務家向けでは決定版でしょう。過去に書評記事で称賛した通りで、「セレクションバイアスとRCT」「介入効果を測るための回帰分析」「傾向スコアを用いた分析」「差分の差分法(DID)とCausalImpact」「回帰不連続デザイン(RDD)」という章立てで、段階を踏みながら計量経済学的な理論面での背景も丁寧に解説しつつ、Rコードによる実践例も付して分かりやすく統計的因果推論について説いた良書です。ただし最近は良い他書も増えてきているので、そのうち入れ替わりになるかもしれません。

ベイズ統計学


1冊目は以前の書評記事でも大絶賛した『標準ベイズ統計学』です。本邦では殆ど見られなかった「最初の基本のきからベイズ的に考える」ことを重視したガチ正統派のベイズ統計学テキストで、「信念」としての確率の扱い方、事前分布・尤度・事後分布の考え方、そしてギブスサンプラーメトロポリス・ヘイスティングアルゴリズムによるMCMCを用いた事後分布のサンプリングといった、ベイズ統計学の根幹をなす諸事項をRコードを付して懇切丁寧に解説しています。


2冊目は『モンテカルロ統計計算』です。ベイズ統計学の理論面での考え方の入門と、その事後分布を求める手段であるMCMCサンプリングのRコードによるスクラッチ実装から成ります。普段RStanであまり深く考えずサラッと流してしまっているベイズ統計学そしてMCMCの裏側を、極めて分かりやすく解説しており、前掲の『標準ベイズ統計学』に引き続いて読むに相応しい優れたテキストです。ただしRStanの話は全然出てこない*7ので、あくまでも「RStanで良く実装される手法の原理を学ぶための教科書」として読んだ方が良いです。

時系列分析


鉄板の「沖本本」です。ひとまず理論的な部分についてはこれ一冊あれば十分でしょう。このブログの初期に時系列分析カテゴリ記事群で散々取り上げたので、ダイジェスト版としてはそちらを読まれても良いかもしれません。どうしても足りない*8という人はその師匠筋のHamiltonの鈍器を読まれると良いかと思います。


そしてモダンなベイジアンモデリングを駆使した時系列分析に関しては、僕が把握している範囲のテキストとして萩原さんの本をお薦めしています。単に時系列分析や状態空間モデルというだけでなく、粒子フィルタまで含めたベイジアン時系列モデリング全般の話題をスクラッチからのRコーディングまで添えて解説しているので、網羅的で非常に読み応えがあります。勿論RStanによる標準的なモデリング方法もカバーしていてお薦めです。なお馬場さんのいわゆる「隼本」は実は未読なのでリストから外れています……ごめんなさい。

グラフ・ネットワーク分析


グラフ・ネットワーク分析に関しては、現在もなお鈴木先生のこちらの一冊が鉄板にして唯一の決定版でしょう*9グラフ理論の基礎から中心性やコミュニティ検出といった有用な手法の実践例が付されて解説されており、特にソーシャルデータを扱う人は必ず脇に置いておくべき一冊です。ただし、こちらも近年のグラフニューラルネットワーク(GNN)の進歩で更新を迫られるかもしれません。

データ基盤


実は結構前に刊行されているんですが、最近になって読んでみて良かったと思ったのがこちらです。文字通り「データ基盤の作り方」を一から懇切丁寧に説く、まさに処方箋的な一冊です。特に「ファーストペンギンとしてデータ基盤の整備から手掛けなければならないがどこから手をつけたら良いか分からない」という人には一押しです。


そろそろアップデートが必要かなと思わなくもないのですが、純粋なデータ分析目的のSQLコーディングについてはやはり畏友・田宮さんも共著に加わったこの一冊を依然として推したいところです。過去の書評記事で激賞した通りで、文字通り「データ分析のためのSQL黒魔術大全」と言って良いでしょう。


コメントや補足説明など


毎回の言い訳ですが、今回も上級向け書籍は特に選んでおりません。僕自身が上級者でも何でもない半端者なので、上級向け書籍をお望みの方はもっと然るべき学識経験者の方にお尋ね下さい(笑)。


数理統計学周りについては、前回も書いたように個人的にはとあるついでがあって入手した竹村本こと『現代数理統計学』を持っているのでこれを推したいところですが、裏を返すと未読の他書が多くて選べる状況にないことと、そもそもビジネス実務で数理統計学周りの事項を調べる必要性があまり出てこないこともあって、特にリストアップしておりません。悪しからずご了承ください。


ちなみに佐和本を入れるならDobson本も入れる(復活させる)べきではないかと言われそうな気がするんですが、これは佐和本があればとりあえず要らないかなぁと思って今回も入れませんでした。ただ、非常に良い本なので特にGLMそのものについて詳細に解説したテキストが必要な際は是非お読み下さればと思います。


最後に。去年も同じことを書きましたが、今回の推薦書籍リストも(狭義の)データサイエンティスト、即ち「アナリストの延長としてのデータサイエンティスト」を主たるターゲットとしています。言い換えると、このリストは(狭義の)機械学習エンジニア向けではない、ということです。あくまでも「統計学機械学習を主とするデータ分析分野全体を薄くても良いので広くカバーする、そして出来るだけ冊数は少なく抑える」ことを目的とした書籍リストですので、より突っ込んだ知識が必要になった際は改めて皆さん自身で深掘りしていただきたいです。幸い、新型コロナウイルスパンデミックも若干落ち着いてきたことで、僕も新刊書に触れる機会が増えてきましたので、今後も可能な範囲でup to dateなリストに更新できるように調査・読破していこうと思います。


完全なる余談


ところで、こういうご時世なのでいつも通り「図書館の中の光景」的なトップ画像が欲しかったので試しにStable Diffusion 2.1に色々描かせてみたんですが、どれほど試しても著作権フリーのちゃんとした写真に遠く及ばない出来の代物ばかりだったので、諦めました。やっぱり綺麗な完成品だけが欲しいという用途には向かないんですかねぇ……。

*1:ただし頻度論に限る

*2:永遠に著者の方々にプレッシャーをかけていくスタイル

*3:僕が2歳の時ですね……

*4:さっさと読めよ、というツッコミは既に沢山頂いているのでご容赦ください

*5:ちなみに昨年のコースでは皆さん第2版を読んだようですが同様に好評でした

*6:TensorFlow.jsを使う

*7:勿論NumPyroの話題も出てこない

*8:例えばマルコフ転換モデルのEMはどうやっているのかが気になるとか

*9:グラフ理論そのものの書籍は沢山あるが肝心の分析方法について解説した本は依然として新たに出てこない