渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

『データサイエンス超入門』は統計学&機械学習の入門書としてはお薦めできない→データ分析に特化したビジネス書としては良書

発売から間もなくその内容についてTwitter上で妙な伝聞やら伝言ゲームが飛び交っていたこの本。実は僕もその伝言ゲームに巻き込まれた*1もので、だったら現物を読んで書評してやろうじゃないかということで有楽町の三省堂で買ってきたのでした。それがこちらです。


データサイエンス超入門 ビジネスで役立つ「統計学」の本当の活かし方

データサイエンス超入門 ビジネスで役立つ「統計学」の本当の活かし方


書店によっては山積みになってるところもあるようですが、僕が買いに行ったところでは残り3冊ぐらいといった感じでした。もしかしたらもう売れちゃったということだったのかもですが。


ざっくり内容紹介


Amazonの書籍ページから目次をそのままコピペしてきました。全部内容を紹介していったらきりがない*2ので、章ごとにかいつまんで要約を。

第1章 「データを操る力」を使いこなせ!

  • 1-1 なぜ今、データサイエンスが注目されているのか?
  • 1-2 社会に不可欠なデータサイエンス
  • 1-3 膨大なデータを操る「目利き力」と、それを支える3要素
  • 1-4 問われるのは専門家を組織化する「つなぐ力」


要するに概論です。大体どのタイプの「ビッグデータ」「データサイエンティスト」系のビジネス書でも出てくるような「データ分析とは何ぞや」「データ分析の重要性」みたいな話が、他の本に比べると結構細かく書かれています。


第2章 ビジネス戦略を支えるデータサイエンス

  • 2-1 すべてのプロジェクトの最初の山場 ─ 「発射台と的」の設定
  • 2-2 個々の好みを予測するレコメンドエンジン
  • 2-3 「勘と経験」に頼らない魅力的なウェブサイトの作り方
  • 2-4 クチコミを科学するソーシャルメディア・アナリティクス
  • 2-5 位置情報がもたらすマーケティングの新時代
  • 2-6 ビッグデータ時代の個人情報保護


ここではもう少し各論として、どんなデータ分析技術がどういうビジネスに貢献しているかという話題をいくつかの事例に基づいて語っています。レコメンドのところが妙に手厚いのが印象的でした*3


第3章 データサイエンティストでなくとも知っておきたい統計基礎

  • 3-1 ひと目で分かる! データ分析の全体像
  • 3-2 データの特徴を把握する記述統計学
  • 3-3 サンプルから全体を推測する推測統計学
  • 3-4 帰納的に事象を推論する探索的データ解析
  • 3-5 身近なところで使われている予測モデリング
  • 3-6 コンピューターに人間の思考回路を持たせろ! 機械学習


統計学機械学習のエッセンスを、かなりかいつまんで紹介しています。その内容については後で詳しくコメントしますが、かなり粒度にばらつきがあるなぁというのが個人的な印象でした。


第4章データ分析のためのIT技術

  • 4-1 データ処理基盤を支える技術
  • 4-2 データの正しい扱い方


え、データ分析ってIT基盤技術の比重結構高いんだけど、これでいいの?というぐらいちょっと薄い章です。Hadoop, Mahout, R以下統計解析ツールについての説明がサクッとされています。4-2はどちらかと言うとITというよりデータ分析プロジェクトの組み立て方の話みたいな内容が中心なので、実質この本でIT基盤技術の話をしているのは4-1だけですね。これも後でコメントします。


第5章 データサイエンスで未来を切り開け!

  • 5-1 イノベーション創出のための視点を与えるデータサイエンス
  • 5-2 データからイノベーションを生み出す3カ条
  • 5-3 イノベーション創出のためのエンパワーメント型リーダーシップ
  • 5-4 One for all, All for oneの精神
  • 5-5 データサイエンティストとは何者なのか?初めて明かされる3つの素養
  • 5-6 ともに未来を切り開こう


おそらく著者が本書で最も言いたかったことが、この章では語られています。いかにしてデータからイノベーションに繋げるか、そのためにはどんな素養が求められるのか、などなど。


5-5ではその素養として「分析の前提や限界を認識していること」「特徴次元空間を意識できること」「一専多能型のコミュニケーション能力を保持していること」の3つを挙げ、さらにこれに「情熱とリーダーシップという姿勢」を伴うべきだ、とうたっています。


ということで、僭越ながら僕の評価を


偉そうに評価なんて言っちゃってすいません。と予め断った上でズバリ書くと、

  • 内容:★★★☆☆
  • オススメ度:★★☆☆☆


ぶっちゃけ、内容は僕自身は読んでて「ふむふむ」という感じだったので★3つ付けました。けれども、オススメできるかというとちょっと。。。個人的には「データ分析を『させる』立場の現場MGRクラスの人々にならお薦めできる」かなと思いました。ただし、裏を返せばそうでない人々にはお薦めしづらいという。。。そう思った理由を以下に列挙していきます。


統計学機械学習の説明のレベルが中途半端で「入門」には不向き


かなり苦心して色々盛り込んだり削ったりを繰り返したんだろうなぁというのが伝わる内容だったんですが、それでも中途半端なのは否めなかったです。ド素人には難し過ぎるし、そこそこ知識のある人から見ると易し過ぎるor突っ込みたくなるというレベル。「データサイエンティストでなくとも知っておきたい統計基礎」とうたってますが、ちょっと辛いです。


「数式&コードゼロ」を貫徹したせいか色々と工夫したような図表が使われているんですが、正直逆に分かりにくくなってないかちょっと不安になりました。なら、RでもSASでもSPSSでも良いので統計解析ツールを使って、演算結果を美しく可視化したものを見せてくれた方が読者の直感的な理解を促すことができて良かったんじゃないでしょうか? データの可視化もまた、データ分析の要諦なので。


多分誰もが突っ込みたくなるのが、「頻度論」「主観論」という表記。もちろん頻度主義とベイジアン(ベイズ統計)のことなんですが、この語を充てるのはどうなんでしょうか。工夫した結果なのかもしれませんが、この語で覚えてしまった初心者は、のちのち他のテキストを探す際に苦労するハメになると思います*4。多少ハードルが上がっても、標準的な用語を使った方が無難だったのではないかと。


基本的なところとして、「分類vs.回帰」「推定vs.検定」のような大枠でのカテゴライズがされていないことにちょっと違和感を覚えました。色々詰め込もうとした結果各論的な記述が増えてしまい、総論的なポイントが抜け落ちてしまい、ビジネス側パートでの曖昧な説明で代用されてしまっていた点は残念です。


細かいことを書くと、SVMの扱いがぞんざいなのが気になりました。。。何故か一般化線形モデルのグループに色々理由をつけられて押し込まれているのは読んでいて悲しかったです。マージン最大化とカーネル法と凸二次計画はどこ行った的な。その一方でANOVAの説明がものすごーーーく懇切丁寧という妙なギャップ。ANOVAはあるのに重回帰分析(正規線形モデル)が見当たらないという謎。他にもモンテカルロ法からMCMCに至るまでの説明が冗長で、肝心のMCMC自体の威力が全然読み取れない感とか。説明の粒度にかなりのばらつきがあるという印象が否めませんでした。


あと「構造化データサイエンスモデル」という一覧表ですが、これって確かTuffery本(Data Mining and Statistics for Decision Making (Wiley Series in Computational Statistics))にもほぼ似た内容が(表でも地の文の形でも)載ってた気がするんですよね。。。と言うかそれなりに数多く分析手法に通じていて事業サイドにも詳しいデータ分析者なら、この辺は誰でもピンと来る内容だという気もします。少なくとも、喧伝するほど目新しいものではないです。ただ、一覧表としてまとめたこと自体には意義があるかも。


また直接機械学習とは関連しないんですが、ソーシャルメディア分析のための手法という触れ込みで何故かMeCabだけが単体で取り上げられているのにも強い違和感を感じました。いやそこは自然言語処理とかテキストマイニングという、もっと広い概念で取り上げるべきでしょと。KuromojiとかCaboChaとかは全スルーですか的な。


そして、ランダムフォレスト以下アンサンブル学習とDeep Learning*5はどこ行っちゃったんでしょうか? ランダムフォレストはともかく、Deep Learningの話を入れないと初心者はこの本を読んだだけでは今の流行についていけないですよー。


最後に、参考文献リストが全然ないのはよろしくないなと思いました。「入門」とうたっているのだから、「発展学習」のための文献リストを簡単でも良いのできちんと挙げておくべきだったのではないでしょうか。


(付録A・Bについては取り上げると炎上する気がしないでもないので*6ここでは割愛しました)


データ分析基盤技術(というかシステム系)の説明が短すぎる


よく読むと、第4章の4-1節でしかHadoopまわりの話とかは取り上げられていません。Hadoopについてはさらっと触れてあるだけで、MahoutとかJubatusとかが突然出てきて*7、後はRとSASSPSSみたいな紹介のされ方をしていて、あまり系統立った感じがないです。。。


僕は、データ分析者に欠かせない素養として「どんなに最低限でも良いのでデータ分析基盤技術のスキルを明確に持っていること」*8というのを何度かブログでも提唱しているので、ここの扱いが薄い点は残念だと思ってます。


あと立場上仕方ないのかもですが、ベンダー製品の名前を挙げて「こういうのもある」「これが良い」ということを、その製品の詳細を取り上げることなくサラリと書いてしまっているので、ある程度事情通の人間からすると読んでいて「・・・・・・」となる場面が結構ありました。別に構わないんですが、ちゃんと性能比較とかはして欲しかったですね。Tuffery本なんて何十ページも費やしてR / SAS / SPSSの性能比較してるくらいなので。


ちなみにA社ソリューションの宣伝が多いのはご愛嬌(笑)。とは言え色々なところで様々なソリューションが登場するので、A社のソリューションの内容を全然知らない人には良い資料になるかも。


そして本書について全般的に言えるんですが(そしてビジネス書という括りだから仕方ないんでしょうが)、エンジニア視点での話がかなり少なかったように感じました。というか、エンジニアを意識して書かれたパートはほとんどなかったかも。そういう点で言うと、エンジニア層は読んでいても面白くないと思うかもしれませんね。NY時代に少なからずエンジニア業務をこなした経験*9のある著者のエンジニア談義を読んでみたかったなという気はしてます。


まー、縦書き本なのであんまりこういうことを言っても詮無いことかも。次回作に期待、ということで。


「データ分析とビジネス」の関係について論じたところは流石の読み応え


統計学機械学習のパートは疑問符が色々ついてしまう感じでしたが、流石は最大手経営コンサルを代表するデータサイエンティストだけあってビジネスの話になると読み応えのあるパートが多くて面白く読めました。具体的な内容については、実際に買って読んでもらった方が早いでしょう。


いかにしてデータ分析プロジェクトを構築するか、いかにしてデータ分析組織を整備するか、いかにしてデータ分析からどうやって事業改善につなげていくか、いかにしてデータ分析の障害となり得る要因を排除していくか、いかにしてデータからイノベーションを生み出すか、などなど。日本国内に限らず、国外の事例も交えて分かりやすく論じています。


ところどころに著者のNY時代の仕事ぶりの話が出てくるんですが、これまたかなり面白いんですよ。カーネギーメロン大を卒業後にNYで就職活動して知った現地の人材競争の熾烈さとか、医療政策局にいた時にサンプリングによって歪んだ分析結果が出てしまって関係者への説明に追われたとか、教育委でデータサイエンティストをやっていた時に議会報告に合わせて徹夜でシステム構築したとか、やはり教育委で学校の校長を対象にプロファイリングしたとか。


僕はコンサル系の事情には疎いので、著者が経営コンサルという仕事を通じて蓄積してきたケーススタディが数多く紹介されている点はなかなか良かったと感じました。


全体としては『養成読本』と『完全ガイド』の中間という出来


ということで、僕個人の印象としては既に書評済みの『データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)』と『データサイエンティスト完全ガイド (日経BPムック)』との、まさにちょうど中間ぐらいの出来かなぁといったところです。


理由は簡単で、前者はエンジニア出身のデータ分析者向けのガチの入門書で、後者は経営者向けのベタッとした印象論だらけのビジネス書。本書の内容は、まさにその中庸を取った感じ。そういう意味で言うと、おそらく本書は「現場MGRクラスorビジネスサイドにシフトしたい既存データ分析者向け」と僕は思ってます。


結局、本書を読んで得るものが大きい層というのは「チームの部下や同僚に分析『させて』いて彼らから具体的なデータ分析の用語やプロセスや報告を聞く機会がある」分析チームのマネージャークラスの人々だと思うんですよね。統計学やら機械学習やらの用語が飛び交う中、彼らをどう束ねてビジネスにつなげていくか。。。そういうデータ分析の現場でビジネスとの間に入って、分析と事業の双方を自分の手で回そうとしている人たちには良い本なのではないでしょうか。


統計学機械学習の説明が中途半端なのでそこを勉強するための本としては使えないものの、逆にその辺の専門知識は既にマスター済みのデータ分析者が「これからもっと企画や運営などのビジネスサイドに乗り出したい」と思った時には、データ分析をビジネスと結び付けてきた著者のヒストリーに裏付けられた事例が数多く載っているという意味で、一読する価値のある本とも言えそうです。


最後に


ビジネス書コーナーに置いてある割には、統計学機械学習のことについて「も」書かれている本だと思うので、そういう点はなかなかチャレンジングな本だと思いました。この点については僕は評価されて然るべきだと考えています。特に第5章の内容はこれまでのデータ分析本にはなかった視点からの主張が多く、ベテランのデータ分析者であっても読む価値があると感じました。


ただ、やはり「ビジネス書」という括りにこだわったことで、その肝心の統計学機械学習のことについての説明がかなり中途半端になったかなぁという感は否めないと思います。残念ながら、目論見とは裏腹に「ビジネスパーソン向けの統計学機械学習の入門書」と言うにはキツい感じになっちゃいましたね。。。むしろ、そのビジネス&分析双方の見識の深さを生かしてこの本をシリーズ化して、「ビジネス編」「アナリシス編」みたいに巻を分けたら良かったのかなという感が。失礼ながら、読むべき点も多いけど色々と中途半端な惜しい一冊、というのが最もしっくり来る評かなと思ってます。


後は、やはりコンサルの人が書いた本だなぁというのが率直な印象でした。インハウスで自ら何かをするというより、色々差配するのはコンサルへ、システム組むのはITベンダーへ、みたいな話が多くて、ぶっちゃけずっとインハウスでやってきた身には馴染みにくかったです(笑)。今後コンサル系データ分析者が増えることを考えれば良い本と言えるのかもしれませんが、まだまだインハウス系が多数を占める現状ではちょっとウケが良くないかも。


・・・ところで、この本については冒頭でも触れた通りTwitter上では内容について様々な伝聞やら伝言ゲームやらが飛び交っていて、書いてもないようなことが噂で流れて「あの本はやっぱりド素人が書いたまがい物だ」みたいな風聞にまで発展しているケースが多くあったんですが、一体何だったんですかね?


「有名データサイエンティストなんて全てペテン師」とか二言目には言いたくて仕方ないアンチの人たちが多いことは知ってますが、批判するんだったら少なくとも原典をきちんと読んでからにした方がいいんじゃないですかねぇ。。。自戒も込めて。


完全なる余談


どうでもいいんですが、そこかしこに「脳科学」へのオマージュというかリスペクトみたいな文言が散りばめられていて、何故だろう?と興味を持ちました。神経科学の元研究者としては色々もにょるところもあったんですが、きっと何か訳があるのだろうということで。。。。

*1:僕のフォロワーの皆さんはその様子を見ていたかもですが

*2:というかそれただの無断全転載だし(笑)

*3:でも普通のcollaborative filteringぐらいしか出てこなかった。Bayesian Setsとかどこ行ったのー

*4:「主観論」で統計学機械学習の本を探しても多分難航する

*5:今や2010年代を代表する機械学習手法になっているものばかり

*6:パッと見ではそこまで間違ったことは書いてないんですが、専門家レベルで見るとちょいちょい厳密さを欠いた変な記述が見え隠れする上に、何と言っても取り上げている手法たちのバランスが良くないので。。。

*7:ピー社には良い宣伝になりましたかね?w

*8:もっとドンピシャでいうと、最低でもSQLやHiveのクエリが叩けること。今時ならhivemallを使うことでクエリさえ叩ければin-databaseで分散機械学習すらできるのでこのスキルは非常に重要

*9:NY教育委でシステム構築まわりのSE案件まで抱え込んで徹夜した話とかも出てきます