渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

2022年版:実務の現場で働くデータサイエンティスト向け推薦書籍リスト(初級5冊+中級8冊+テーマ別14冊)

f:id:TJO:20220128154405p:plain
(Image by ElasticComputeFarm from Pixabay)

今年も恒例の推薦書籍リストの季節がやって参りました。……なのですが、相変わらず続くCOVID-19の影響*1でデータ分析業界及び隣接分野の新刊書を読む機会が減ったままにつき、例年とほぼ同じラインナップになっている点、予めご容赦いただければと思います。

初級向け5冊


初級向け書籍リストはあまり出入りがないのが通例ですが、今回も微妙に入れ替わりがあります。

総論


右も左も分からないという初学者の方には以前書評した『AI・データ分析プロジェクトのすべて』が最初の一冊としてお薦めです。これはまさしく「駆け出しからベテランまで必携の仕事術大全」であり、「データ分析職はどう仕事するべきか」論が網羅的に解説されています。

R・Pythonによるデータ分析プログラミング


意外と初学者向けの、しかもデータ分析に特化したプログラミングのテキスト、というとこれまでなかなか良いものがありませんでした。なのですが、昨年出版されたこちらの一冊がその課題感の全てを解決してくれました。読んで字の如く、一通りの現代的なデータサイエンスの分析に関わるコードを、全てRとPythonで「ほぼ完全に一対一対応」するように書いて解説してくれるという至れり尽くせりの一冊です。普通にNNというかDeep Learningの書き方まで載っているので、十分どころか十二分と言って良いでしょう。

統計学


統計学の初歩は今でもこちらが鉄板でしょう。Rベースで統計学*2の基本事項の大半を実践的に学べます。

機械学習


今や国外でも大ブームのはむかずさん本です。中身が気になる方は以前の書評記事をお読みください。文字通り、機械学習を生業にしたいと願う人がゼロから学んでいく上で絶対必須不可欠の知識・教養・技術の全てがこの一冊に収められています。機械学習に必要な最低限の数学もこの本で大体のところを学べるので、お薦めです。


そして機械学習の全体像を俯瞰するという意味では、そのはむかずさん監修のこちらの一冊が良いでしょう。「図解」である点が素晴らしいといつも思います。


中級向け8冊


中級向けも今回は微妙に変動があります。

統計学


お馴染み神永先生の手による「新・赤本&青本』です。以前にも書いた通りで「実務家向けであることを考慮すると数理統計学的な知識を重視した東大出版会3冊よりもこちらの方がRコードによる実践も添えられていて分かりやすい」ことから、東大出版会3冊の代わりに今回も筆頭に挙げています。昨年も一昨年も書きましたが、赤・青と続いて是非「緑」(社会科学データ統計学)も期待したいと思います*3


ベイズ統計学及び統計モデリングについては、もはや定番となった馬場さんのこちらの一冊を。過去に書評記事で大絶賛した通りですが、RとStanを駆使してGLM, GLMM, 階層ベイズそして状態空間モデルと、古典的な統計モデリングからモダンなベイジアンモデリングまでを分かりやすく、豊富な例題と共に実践的に学ぶことが出来ます。現職のうちのチームでも若手向けのベイジアンのテキストとしてこちらを指定させていただいております。


統計学のトリを飾るのは、これまたお馴染み『新版 統計学のセンス』です。以前の書評記事でも激賞した通り、信頼区間など頻度主義的統計学のやや難解なところも言葉を濁さずきちんと解説し、統計的因果推論や実験計画法についてもページを割いており、粗雑な統計学の解説書が多い中にあっては極めて貴重な一冊です。多少医療統計の色が強いのが難点か。

機械学習


バランス良く幅広く機械学習の基礎が収録されていて「独習に」最適という点でやはり外せないのがこちらの「はじパタ」。ベイズの識別規則や性能評価といった基礎事項から、線形分類器、カーネル法、行列分解、クラスタリング、アンサンブル学習と主要なトピックを簡潔かつ分かりやすくまとめています。機械学習の全体像を眺めるのにベストの一冊です。


お馴染み「カステラ本」です。NNに関する記述は物足りないですが、それ以外のほぼ全ての機械学習分野の話題がカバーされているので辞書として使う上では今でも最適の鈍器です。英語版PDFならweb上で無料で読めます。


講談社MLPシリーズ『深層学習』なんですが、毎年のように推薦書籍リストでお薦めしながら「内容の陳腐化が著しい」と文句を書き続けていたら、ついに素晴らしい内容にアップデートされた改訂第2版がやってきました。基本的なNNの構造、勾配法とそれにまつわる性能評価、そしてCNN, LSTM含むRNNファミリー、Seq2Seq, attention, transformer, GNN, adversarial examples, LIME / SHAPなどの説明可能性(解釈性)関連手法、NAS, data augmentation, one-shot learning, VAE, GANといった近年の研究成果と実装された手法たちが網羅的に取り上げられており、まさしく2022年現在参照されるに相応しい一冊と言って良いかと思います。なお個人的には第2版向けのまえがきで最近の「俺様が考えた最強のネットワーク選手権」状態に対する苦言も呈されており、そういったNNに対して良識ある技術者が取るべき(?)姿勢まで学び取れて素晴らしいと感じました。


「実務家として」機械学習を学ぶ上で大いに参考になる一冊がこちら。第1版の内容も素晴らしかったのですが、第2版ではそれに加えてML Ops機械学習のモデル検証、さらにバンディットアルゴリズムやオンライン広告配信の最適化といった様々な「実践的」な機械学習のトピックスを俯瞰できる良書です。ただ、最近ML Opsに関しては良い本が沢山出ているので、いずれはそれらの新刊書に置き換えられるかもしれません。
(注:公開時の記事では第1版を取り上げていたのですが、昨年4月に第2版をご恵贈いただいて拝読していたのをすっかり失念しておりました。ということで、第2版の書評に全面的に置き換えております。伏してご了承ください&著者の皆様大変失礼いたしました)


テーマ別14冊


初級・中級に新刊書が加わった影響で、今回のリストから削除された書籍もあるのでご注意を。

回帰モデル

昨年の書評記事で「温故知新」と称して大絶賛したのが佐和本ことこちらの一冊です。1979年初版と極めて古い書籍ですが、現代における様々な回帰モデルのバリエーションにも通じる普遍的な事項の丁寧な解説に満ち溢れており、特にマーケティングモデルなど回帰モデルによる「説明(解釈)」を扱う人にとってはバイブルに等しい一冊になるかと思います。絶版なのか度々売り切れになることが多く、電子版が欲しいところです。

PRML


昨年復活させたPRML上下巻ですが、今年も入れておきました。理由は同様で、ベイズ機械学習ガウス過程回帰といった「PRMLなら他のテーマと共に包括的に学べる」テーマが近年流行っている一方、特に系列データ分析などは今でもPRML以外に思ったほど良書がないためです。

機械学習の実践


お馴染み「Kaggleで勝つ」本です。評価指標の置き方・特徴量の扱い方・モデル評価と交差検証の方法・モデルのチューニング・モデルの組み合わせ方・leakageのような落とし穴、などなどKaggleで勝つという目標だけに閉じず、個人的には機械学習そのものの理論や実装以上に重要と思われる「MLデザイン」の考え方が網羅されており、機械学習の実務家であれば必携の書と言って良いかと思います。

Deep Learning


以前の推薦書籍リスト記事でも紹介したsklearn + TensorFlow本の第2版です。実はこの第2版は未読なのですが、初版本はうちのチームの若手向け機械学習レーニングでも使っていて好評でした(もっともsklearnの本として見ると色々中途半端な印象は否めませんでしたが)。特にTF / Kerasの本という意味では非常に良い解説書で、著名なCNN / RNNモデルの生ネットワークの書き方なんかも紹介されていて便利だと思います。Attention, Transformer, GANや強化学習など最近の話題もカバーしています。


図解速習DEEP LEARNING

図解速習DEEP LEARNING

Amazon

Colaboratoryを駆使し、現代のDeep諸系統全盛期における代表的なネットワークの大半の組み方とその実践さらにはwebへのデプロイ*4をこれ一冊でカバーするという、極めて野心的かつ実践的な良書です。

統計的因果推論


統計的因果推論については、前々職の後輩である安井君の手によるこちらの一冊が実務家向けでは依然として決定版でしょう。過去に書評記事で称賛した通りで、「セレクションバイアスとRCT」「介入効果を測るための回帰分析」「傾向スコアを用いた分析」「差分の差分法(DID)とCausalImpact」「回帰不連続デザイン(RDD)」という章立てで、段階を踏みながら計量経済学的な理論面での背景も丁寧に解説しつつ、Rコードによる実践例も付して分かりやすく統計的因果推論について説いた良書です。ただし最近は良い他書も増えてきているので、そのうち入れ替わりになるかもしれません。

ウェブ最適化


以前の書評記事でも称賛した、ウェブ最適化のテキストです。いわゆるUI/UX改善の手法について、A/Bテスト・バンディット・ベイズ最適化とモダンなアプローチがNumPy / PyMC3による実践的コードと共に紹介されていて、非常に分かりやすいです。

ベイズ統計


一冊目は『モンテカルロ統計計算』。ベイズ統計学の理論面での考え方の入門と、そのRコードによるスクラッチ実装から成ります。普段RStanであまり深く考えずサラッと流してしまっているベイズ統計学そしてMCMCの裏側を、極めて分かりやすく解説している優れたテキストです。ただしRStanの話は全然出てこないので、あくまでも「RStanで良く実装される手法の原理を学ぶための教科書」として読んだ方が良いです。


二冊目は洋書ですが、かのGelman御大監修の鈍器ことBDAです。ただし千葉大の米倉さんが監修して邦訳版が出るというお話なので、末長くお待ちしていきたいと思います*5。モダンで世界標準のベイズ統計学&関連する計算機統計学の知識を広汎に網羅する、まさにベイズ統計学時代に必携の辞書と言って良いでしょう。

時系列分析


言わずと知れた「沖本本」です。ひとまず理論的な部分についてはこれ一冊あれば十分でしょう。このブログの初期に時系列分析カテゴリ記事群で散々取り上げたので、ダイジェスト版としてはそちらを読まれても良いかもしれません。どうしても足りない*6という人はその師匠筋のHamiltonの鈍器を読まれると良いかと思います。


モダンなベイジアンモデリングを駆使した時系列分析に関しては、こちらの萩原さんの本が良いでしょう。単に時系列分析や状態空間モデルというだけでなく、粒子フィルタまで含めたベイジアン時系列モデリング全般の話題をスクラッチからのRコーディングまで添えて解説しているので、網羅的で非常に読み応えがあります。勿論RStanによる標準的なモデリング方法もカバーしていてお薦めです。なお馬場さんのいわゆる「隼本」は実は未読なのでリストから外れています……ごめんなさい。

グラフ・ネットワーク分析


グラフ・ネットワーク分析に関しては、現在もなお鈴木先生のこちらの一冊が鉄板にして唯一の決定版でしょう*7グラフ理論の基礎から中心性やコミュニティ検出といった有用な手法の実践例が付されて解説されており、特にソーシャルデータを扱う人は必ず脇に置いておくべき一冊です。ただし、こちらも近年のグラフニューラルネットワーク(GNN)の進歩で更新を迫られるかもしれません。

SQL


データ分析目的のSQLコーディングについては、そろそろ陳腐化も見えてきていますがやはり畏友・田宮さんも共著に加わったこの一冊を推したいです。過去の書評記事で激賞した通りで、文字通り「データ分析のためのSQL黒魔術大全」と言って良いでしょう。ただし最近はSQL上で動かせる機械学習も増えてきたので*8、ここもアップデートが必要なのかなと感じています。


コメントなど


ということで、いつもながらですが今回も上級向け書籍は特に選んでおりません。僕自身が上級者でも何でもない半端者なので、上級向け書籍をお望みの方はもっと然るべき学識経験者の方にお尋ね下さい(笑)。


それから、Goodfellow本ですが岡谷先生の講談社MLP本の改訂第2版が出ましたので、out of dateということでテーマ別書籍リストからは削除してあります。Deep LearningというかNN周りは相変わらず日進月歩を通り越して秒進分歩という有様なので、出版されたまとめ書籍的なものが片っ端から時代遅れになっていくのは致し方ないことなのですが、それでも研究者でも開発者でもない我が身としてはarXivの論文を毎日読むというのはしんどいので、できる限り最先端の学識をカバーした邦書が出版され続けることを期待したいと思います。


また数理統計学周りについては、個人的にはとあるついでがあって入手した竹村本こと『現代数理統計学』を持っているのでこれを推したいところですが、裏を返すと未読の他書が多くて選べる状況にないことと、そもそもビジネス実務で数理統計学周りの事項を調べる必要性があまり出てこないこともあって、特にリストアップしておりません。ここは僕自身の数理統計学に関する勉強の必要性が増したところで、改めて検討させてください。


ちなみに佐和本を入れるならDobson本も入れる(復活させる)べきではないかと言われそうな気がするんですが、これは佐和本があればとりあえず要らないかなぁと思って今回は入れませんでした。もう少しGLMに特化したニーズの増大が感じられたら、もしかしたら復活させるかもしれません。


最後に。今回の推薦書籍リストも記事タイトルで強調したように、(狭義の)データサイエンティストを主たるターゲットとしています。これは去年のリストと同様で、このリストは(狭義の)機械学習エンジニア向けではない、ということです。あくまでも「統計学機械学習を主とするデータ分析分野全体を薄くても良いので広くカバーする、そして出来るだけ冊数は少なく抑える」*9ことを目的とした書籍リストですので、より突っ込んだ知識が必要になった際は改めて皆さん自身で深掘りしていただきたいです。そして、深掘りした結果良書に行き当たった際は、是非僕にお知らせくださると来年以降の推薦書籍リスト作りが捗ります(笑)。よろしくお願いいたします。

*1:オフィスに行ける時期もあれば行けない(行く気になれない)時期もあるので、特に献本の形でご恵贈いただいた各種書籍がオフィスのメールボックスに放置されているケースが依然として多くあります

*2:頻度主義的な

*3:永遠に著者の方々にプレッシャーをかけていくスタイル

*4:TensorFlow.jsを使う

*5:相変わらず訳者陣にプレッシャーをかけていくスタイル

*6:例えばマルコフ転換モデルのEMはどうやっているのかが気になるとか

*7:グラフ理論そのものの書籍は沢山あるが肝心の分析方法について解説した本は依然として新たに出てこない

*8:BigQuery MLなど

*9:平たく言えば「最大公約数」的なイメージ