渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

『AI・データ分析プロジェクトのすべて』は駆け出しからベテランまで全てのデータ分析者が読むべき仕事術大全

旧知どころか僕が7年前にこのブログを始めた頃からの友人でもある、てつろーさんこと伊藤徹郎さんからご恵贈いただいたのがこちらの一冊です。執筆陣にはてつろーさんのみならずデータ分析業界の著名人がズラリと並んでおり、これぞ豪華版といったところでしょうか。


執筆陣が豪華なだけあって、内容もまた素晴らしい充実ぶり。今年読んだデータ分析業界の新刊書の中でもトップクラスと言っても過言ではないと思います*1。記事タイトルにも大書しましたが、まさにこれこそが「全てのデータ分析者が読むべき仕事術大全」だと唸らされた次第です。


ということで、早速本書をレビューしてみようと思います。なおコードや数式の殆ど出てこない本なので誤読や誤解釈のようなことはないだろうと思われますが、何かおかしな点があればコメント欄などでご指摘くだされば幸いです。

本書の概要


全体としては4部に分かれていますが、何よりもまず『はじめに』を精読することをお薦めします。ここには「本書をどう活用すべきか」のガイドラインが予め書かれており、未経験者・ジュニア・ミドル・シニアそれぞれのレベルに該当するデータサイエンティストに向けた本書の活用方が示されています。なお、僕は本文中のフローチャートに沿って分類された結果としてはシニアデータサイエンティストだったんですが、そこには

本書は、シニアデータサイエンティストのみなさんはすでにご存知の情報が多いと思いますので、たとえば後輩のジュニアデータサイエンティストの育成や、インターンとして雇い入れた学生の教材など、後進の育成にご活用いただければ幸いです。

とあって、いきなり「お前に読ませる内容はもはやここにない」感があって面白かったです(笑)。という戯言はさておき、以下に本書の概要をまとめておきます。

第1部 プロジェクトの準備

第1章 AI・データ分析業界の概要


この章では基礎知識というか一種の教養としての「AI・データ分析業界の歴史」や、日本と海外とでのAI・データ分析業界の現状とその差異、またそれらを踏まえた大前提としての「従来のシステム開発*2とAIシステム開発*3の違い」そしてAIシステム開発プロジェクトに臨上での心構えなどが説かれています。


f:id:TJO:20201218170558p:plain
f:id:TJO:20201218170633p:plain

ここでは表1.2と図1.4が極めて秀逸だと思います。そもそもAI・データ分析プロジェクトは従来のIT開発とは様々な点で根本的に異なることや、AIというか機械学習(ML)システム開発では学習データやモデル選択など様々な要素の制約から「精度100%」があまりにも難しく費用対効果に限界がある、という点などが明快に指摘されています。

第2章 データサイエンティストのキャリアと雇用


この章ではデータサイエンティスト*4のスキルセットやサブカテゴリへの分類、そしてさらにはキャリアビルディングと採用市場の動向を扱っています。


f:id:TJO:20201218171039p:plain

秀逸なのは2-3節『データサイエンティストの生存戦略』2-4節『求人情報からわかること』のパートで、これはまさに以前僕が「データサイエンティストに王道無し」と断じたのと同じ話題を鋭い筆致で斬っていて、これぞ我が意を得たりという内容でした。既に新規参入の門戸が狭まっているという現実の冷静な解説と共に、今後新規参入するならどのようなキャリアがあり得て、尚且つどのような現場に入っていくべきかといったテーマが論じられています。

第3章 AI・データサイエンティストの実務と情報収集


ここでは端的に言えば「仕事としてのデータ分析の始め方」が紹介されています。例えば企業で働いているのであれば「データ分析部署への入り方」もしくは「データ分析部署の作り方」、これに対して「副業やフリーランスでのデータ分析業務の始め方(請け負い方)」、そしてそれらの基礎知識となる情報源の探し方と、これと表裏一体となる「情報発信の方法」について解説がされています。ちなみに情報源として名だたる有名サイト・ブログがズラリと並ぶ中でこのブログもご紹介いただいており、まことに恐悦至極です。

第2部 プロジェクトの入口

第4章 社内案件の獲得と外部リソースの検討


第2部からはいよいよ実務的なアプローチの話題が多くなってきます。データドリブンの考え方、データ分析部門の立ち上げ、(内製を前提として)社内案件の獲得と提案の仕方、ステークホルダーの見極め方、外注の場合の予算・スケジュール・見積もり・リスクヘッジの管理といった、実際の運用で必要なマネジメントについて解説されています。

第5章 データのリスクマネジメントと契約


意外とデータ分析業界でも話題に上ることが多くないのが、「データそのものの管理」。即ちプライバシーやセキュリティといった、データを「使う」以前の問題ですね。この点について、この章では個人情報保護法ハンドブックの記述を引きながら、何に気をつけながら適切な匿名化をすべきかが論じられています。そしてこの点を踏まえた契約締結の際の注意事項についても解説がなされています。

第3部 プロジェクトの実行

第6章 AI・データ分析プロジェクトの起ち上げと管理


ここから実際のAI・データ分析プロジェクトを実行する話に入っていきます。まずこの章ではプロジェクト設計における注意点や解決すべき課題の設定、先行事例の調査、KPIの設定、スケジュール・リソース・進捗の管理といったプロジェクトマネジメントで頻出のポイントが取り上げられています。個人的にはKPIの話題が重要かなと思いました。というのは、KPIが適切に決められずに迷子になってしまうデータ分析プロジェクトを沢山見てきましたので(汗)。

第7章 データの種類と分析手法の検討


この章では、他書で多く取り上げられるいわゆる「データサイエンス」の概要を改めて解説しています。即ち業界ごとに頻出のデータの種類、実データあるある(欠損・重複・カラムずれetc.)とその前処理の重要さ、分析に使われるツールやプログラミング言語の紹介、さらにはデータ分析手法の大分類(探索的・仮設検証的)、教師ありorなし学習、といった話題が出てきます。


ちなみに本書ではこれらの話題は「詳細は本書では取り上げないので実践を目的として詳しく学びたい人は他書をどうぞ」というスタンスを取っているわけですが、これは言い換えると「あくまでもAI・データ分析プロジェクトの『マネジメント』しかしない人でもここまでは知っておけ」という最低限の知識が書かれているだけとも言えます。なので、ここに書かれている程度のことは自分では手を動かさない人であっても、マネジメントを担うなら知っておいて欲しいかなと思いました。

第8章 分析結果の評価と改善


この章では、このブログでも以前論じたML designとか効果検証といったポイントの重要性について概説しています。即ち性能評価指標を定め、交差検証で汎化性能を評価し、実際にプロダクトを投入した後はA/Bテストやバンディットなどで効果検証&逐次改善を行う、というイメージです。


これらのポイントは以前のブログ記事でも論じたように、実はデータ活用という意味ではアウトプットのクオリティを決めるという点で極めて重要な割に意外と忘れ去られていることが珍しくないので、ここを俯瞰する章が設けられているのは有難い限りです。

第9章 レポーティングとBI


ここでは主に統計分析を多用して「意思決定」に資することを目的としたデータ分析のアウトプットが意識された内容が展開されています。即ち「門外漢が見ても分かるようなレポーティング」そして「BIツールと可視化」です。データ分析職にとって一番多い仕事が前処理、次がダッシュボードというくらいBIダッシュボードの制作はよく降ってくる仕事なので、その周辺の流れを知っておくことは重要です。

第10章 データ分析基盤の構築と運用


この章ではML Opsを念頭に置いたデータ分析基盤の話題が展開されます。どのクラウドを使うか、業務用DBと分析用DBの違い、AutoMLを初めとする各種APIサービスの活用、そして意外と見落とされがちなメタデータ(個々のテーブルの成り立ちや用途などについて情報をまとめたもの)の管理の話題などが論じられています。

第4部 プロジェクトの出口

第11章 プロジェクトのバリューと継続性


ここでは一般論として、AI・データ分析プロジェクトのアウトプットにどのようなバリューを求めるか?という観点からの議論の交通整理が行われています。例えばreproducibilityを意識した社内でのナレッジ共有、収益化に繋げるための動き方、論文・カンファレンスなどの学術発表、プロジェクトのブランディング、組織拡大&人材獲得の方策、メンバーの育成、そして頭の固い経営層の期待値調整*5はたまた社内政治の乗り切り方といった、データサイエンティストが水面下で密かに苦しんでいるテーマが並んでいてなかなかに面白いです(泣)。

第12章 業界事例


最後に業界事例ということで、データ分析が比較的普及している業界ごとにそれぞれの代表的なケーススタディが紹介されています。即ち、金融業界ならクレジットスコアリング、広告業界なら画像・動画広告のクリエイティブ自動生成や予算配分最適化、ゲーム業界ならゲームバランス調整やLTV最適化、Eコマース業界ならレコメンデーションやダイナミックプライシング、といった話題が扱われています。


個人的な感想など


基本的に、本書はやはり「仕事術大全」であり言ってみれば「辞書」的な存在に当たる本だと思いました。というのは、冒頭でもうたわれているようにAI・データ分析という大きな体系のひとつひとつを詳説するものではなく全体を俯瞰するための本であり、ひとつひとつの項目に興味がある人は別途専門書や論文または詳細資料などを参照すべき、というスタイルになっているからです。


それでも、過去にデータ分析業界の全体像をここまで網羅的にきちんとまとめた本そのものがなかったのは事実だと思います。何だかんだでこれまではそもそもデータ分析業界そのものの定義付けだったり範囲だったりが非常に曖昧で、「どこまでまとめたらきちんとした辞書が出来上がるか」が読めない状況だったというのが僕の理解です。実際、知人のベテラン分析者と「そういう話をまとめた『ビジネスデータ分析大全』みたいな本書いたら売れるんじゃないか」と飲みながら話していたこともありますが、とてもそこまで一元的にまとめられないよなぁということで結局具体化しなかったという記憶があります。


一方、マネジメント層向けなどに大雑把にデータ分析業界の状況をまとめた本というのは過去にも何冊か出ていますが、いずれも「それはあなたの観測範囲だけの話ですよね」「それはあなたの感想ですよね」*6の域を出ないものばかりで、いまいち説得力に欠けるなぁという印象を抱くことが多かったのでした。


その意味では、本書こそが「日本で初めてデータ分析業界の全体像を網羅的にまとめた本」だと言って差し支えないかと思います。しかも執筆陣は日本のデータサイエンティストブーム黎明期以来の経験豊富なベテランが多く、個人的にも読みながらいちいち納得して頷きたくなるくらい「業界あるあるネタ」がぎっしりと収録されており、これこそ日本のデータ分析業界の「実態」を正確に表した本だと言っても過言ではないでしょう。


特に「データサイエンティストになる方法」については、あけすけに現実が語られており、昨今の「ワナビー」で溢れ返る状況をバッサリ斬っていて素晴らしいと思いました(笑)。その意味では、まさに駆け出しのデータサイエンティスト志望者にこそ読んで欲しい本だとも言えます。勿論、我々のようなベテランデータサイエンティストにとっても、多様化して全貌が掴みにくくなっている業界の全体像を俯瞰する上でも有用な本です。


あえて一点注文を付けるならば、個々のポイントを突っ込んで勉強したい読者のためにもう少し参考文献リストを充実してもらえると良かったかな?という印象があります。こういう辞書的な本では仕方ない部分ではありますが、参照している先が同じような辞書的で総花的な本だと迷子になってしまう読者もいるかと思いますので、多少専門的な本を多めにリストアップしておいても良いかもしれないと感じました。


ともあれ、ようやく登場した「データ分析業界の全体像が掴める本」ということで、AIに興味ある人、データ分析に興味ある人、はたまたデータサイエンティストのキャリアに興味ある人、それぞれに是非お読みいただければと思っています。

*1:ちなみに今年3月下旬から勤務先オフィスが閉鎖されているため、オフィスにお送りいただいた献本はいずれも目を通すことすらできていません。恐らく最低でも5冊はあるはずなのですが。。。

*2:ここではウォーターフォールになりがちなSESなどを想定している

*3:ここではアジャイルになりがちなスタートアップなどでの内製開発を想定している

*4:ここではこのブログで長年独立した職種として扱っている「機械学習エンジニア」も含まれている模様

*5:期待「度」調整と呼ぶべきかも

*6:画像略