『データサイエンティスト養成読本』はゼロからデータサイエンティストを目指す人なら絶対に読むべき一冊

執筆陣12人中8人が直接の知人友人というこの新刊書でございますが。

データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)

作者: 佐藤洋行,原田博植,下田倫大,大成弘子,奥野晃裕,中川帝人,橋本武彦,里洋平,和田計也,早川敦士,倉橋一成
出版社/メーカー: 技術評論社
発売日: 2013/08/08
メディア: 大型本
この商品を含むブログ (4件) を見る

もちろん僕も発刊が決まってAmazonに予約ページができた時点でポチりまして、読んでみたところあまりにも内容が素晴らしかったので早速現職場の図書コーナーに持ち込んだ次第です（笑）。ということで、僭越ながら書評など書かせて頂こうかと思います。

ざっくり内容紹介

正直言って、ものすごーーーく網羅的で非常によく出来ています。1ページ目から順に読んでいっても初学者には大変参考になるだろうと確信しますが、要点だけ知りたいという人もいるかと思うのでかいつまんで紹介します。

巻頭企画：データサイエンティストの仕事術

データサイエンティストに必要なスキル（佐藤洋行さん）
データサイエンスのプロセス（原田博植さん）
「ビッグデータインフラ」入門（原田博植さん）
コラム：データサイエンティスト協会の活動（橋本武彦さん）

まず最初に「データサイエンティストとは何ぞや」「データサイエンティストは何をしているのか」がざっくりと書かれています。

これはかなり重要で、大半のデータサイエンスの手法に関する本はほとんど実務について触れていないんですよね*1。ビジネスの現場でどんな働き方をしていくのか？を初学者がイメージする上では非常に大切な章だと思います。

また、特に実務を殆どやったことのない初学者のために、DBインフラ周りの章が独立して設けられているのも良いと思います*2。Hadoopなどの概要を知るためにも、まずこの巻頭企画からじっくり読んでみると良いでしょう。

特集1：データ分析実践入門

Rで統計解析をはじめよう（里洋平さん）
データサイエンティスト・リテラシー（和田計也さん）
RStudioでらくらくデータ分析（和田計也さん）
Pythonによる機械学習（早川敦士さん）
データマイニングに必要な10のアルゴリズム（倉橋一成さん）

有名データサイエンティストの皆さんがズラリと揃って、RとPythonでデータ分析をどう実践するかが実コード・概念図・グラフ入りで非常に分かりやすく書いています。可視化・多変量解析・機械学習という、実際のデータ分析の現場では欠かせない三大手法がばっちり取り上げられているのも大きいです。

またオープンデータをRに取り込む具体的なやり方や、RStudioでIDE的にデータ分析業務を回す方法並びに代表的なデータ分析アルゴリズム一覧も載っており、この特集1だけで大体のデータ分析手法を俯瞰することができます。初学者はここの5つの章を集中して勉強するだけでも、かなりのスキルが身に付くと思います。

特集2：マーケティング分析本格入門

Rによるマーケティング分析（里洋平さん）
mixiにおける大規模データマイニング事例（下田倫大さん・木村俊也さん）
ソーシャルメディアネットワーク分析（大成弘子さん）

ここではちょっとadvancedな方法論が出てくる代わりに、実際にどのようなシチュエーションでデータ分析業務を回すことになるかも念頭に置いた解説がなされています。

いかにもありがちなシチュエーションでのマーケティング分析、ソーシャルデータに対するデータマイニング、ソーシャルネットワークを対象とする分析各論といったホットなトピックスが並んでいて、おまけにmixiの事例ではMahoutを用いるケースについても触れられています。この辺はいずれデータ分析業界でも拡大してくる動きだと思われるので、初学者には重要なポイントでしょう。

特別記事：リアルタイムログ収集でログ解析をスマートに

Fluentd入門（奥野晃裕さん）

独立した章になっていますが、ある意味この章だけのためにこの本を買っても損はないかもしれません。というのは、2013年夏現在Fluentdについて解説した和書はほとんどないからです。

今後、どの現場でも「ビッグデータ分析」の実践たるログ解析に当たってログ収集の効率化を目指していくものと見込まれますが、その流れの中にあってFluentdはFlumeと並んで重要な地位を占めることが予想されています。その点から言っても、この章があることには大きな意味があると言って差し支えないでしょう。

特別企画：データ分析のためにこれだけは覚えておきたい基礎知識

SQL入門（中川帝人さん）
Webスクレイピング入門（中川帝人さん）

最後に、意外にも見落とされがちな「データ取得」の実際について大切な説明が2章設けられています。特に1番目のSQL入門は、DB周り未経験の人にとっては必須と言っても過言ではないでしょう。

手元にHadoop / Hive, MySQLなどの環境がなかったとしても、MS OfficeがあればAccessで同様のSQLを用いて練習することが可能です。好みのデータテーブルを取ってきて、これをAccessに突っ込んで試してみるというのも良い勉強法だと思います。

ということで、僭越ながら僕の評価を

偉そうに評価なんて言っちゃってすいません。と予め断った上でズバリ書くと、

内容：★★★★☆（星4つ半）*3
オススメ度：★★★★★（星5つ！）

きっと続編が出る*4んだろうなーと勝手に期待しておりますので（笑）、あえて星半分だけ内容の評価は下げておきました。その理由を以下に挙げます。

内容が重複して見える部分が少々目に付いた

特集1の第1 & 2章とか、それからこれは仕方ないんですがRでやった内容をPythonでもやるということでほぼ同じ内容が第4章に来てしまうとか、人によっては冗長に感じるところがあるかも？とはちょっと思いました（もちろん同じ内容を違う言語で扱えるようにするというのを目指す上では重要なポイントですが）。特集2の第1章もテーマは違えども手法がかぶる部分があるので、この辺は冗長さをできるだけ減らした方がいいかも？という気も。

もっとも特集1・第2章の和田さんのようにサンプルデータセットにオリジナル色の強いもの（Jリーガーの年俸データ）を持ってくるとか工夫されているところもあるので、目くじらを立てるようなことではないとは思いますが。。。できれば手法の話を先にざっくり書いておいて、その上で「適用事例」ということで後にまとめて回すと「ああこの手法ってこんな使い方もあるのかー」的な読み方をしてもらえるのかな、と感じました。

できれば初学者が発展的にさらに深い学術的知識を学ぶためのtipsもどこかに書いておいて欲しかった

参考文献を章末に挙げている筆者の方もおられましたが、どういう手法を使うにせよやはりこれ一冊では基礎知識＆学術的知識まで身に付けるには難があると思います。できれば、発展的にさらに深く学びたいという初学者のためにどうしたら良いか、もしくはどういう本を読んでどう勉強すれば良いか、みたいな点まで書いておいてもらえるとなお良かったかな、という感想を持ちました。

あと、脚注に回しましたが残念ながら不正確な記述が一部にあるようです。これも第2版以降で何かしらの修正が入るものと期待しております。

とは言え、これ以上初学者に薦められる本はない！

とまぁ、色々あげつらいましたが、これだけは何度でも断言できます。

ゼロからデータサイエンティストを目指す人は、絶対にこの養成読本を読むべし！！！

お値段もお手頃*5で、ぶっちゃけ企業勤めのエンジニアやマーケッターなら気軽にポチれるはずです。学生さんでも、そこまで悩むような価格設定ではないでしょう。

一方で、これまでのデータサイエンティスト本にありがちだった「データサイエンティストとは何者であるか」みたいな観念論や、「我が社ではデータサイエンティストがこんなに活躍しています！」みたいな自慢話ではなく、個々のデータ分析の実務の現場でどのようにして個々のデータサイエンティストが取り組んでいるかがよく分かる、素晴らしい入門書だと思います。

特に、ITエンジニアでデータ分析に興味のある人であれば、この養成読本の内容であれば読みこなすのは全く難しくないでしょう。巻頭特集で佐藤さんも書かれていますが、今のデータサイエンティストの主流は「エンジニアから転じてくる」人たちです。そういった意味では、まずは是非エンジニアの方に読んでもらいたい一冊ですね。

最後に

この本はやはり「入門書」としての位置付けになるのだろう、と思ってます。そこから先は、改めてもっとしっかりした書籍や資料をもとにさらに深く学んでいくことが必要になることでしょう。

なお、僕自身は技術評論社からも執筆陣のどなたからも謝礼やリベートの類を貰ったりはしていませんので（笑）、念のため。もっと書くとアフィリエイトも一切やってないので、上のリンクから皆さんが購入されても僕には一銭の得にもなりませんよ～*6。皆さんの判断でご自由に購入なさって下さい*7。

*1:今手元にある手法系の本のどれを見ても「実務ではどんなイメージで使われるか」は書かれてないです

*2:ただし、ここの章にTwitterで物議を醸していた「母集団に正規分布を仮定しない統計をノンパラメトリックと呼び、母集団に正規分布を仮定する統計をパラメトリックと呼びます」という正しくない記述があるのはマイナスかと。教科書的な定義は例えば『自然科学の統計学』（東京大学出版会）p.218にもあるように、「分布の形に関係なく妥当な結論を与えるような検定方式をノンパラメトリック検定という。これに対し、t検定のように分布の形について正規分布のような厳密な形を仮定して導かれる検定をパラメトリック検定という」であり、正規分布であるかどうかはパラ・ノンパラの分類とは関係がない

*3:そもそも星半分のフォントってないのよね

*4:最低でも重版しますよね

*5:2000円未満

*6:確か印税方式ではないので、この記事のおかげで買う人が増えても執筆陣の皆さんの懐には何も入らないはず

*7:むしろこんなステマっぽい記事なんか信用するか！という人は、まぁ買わなくてもいいんじゃないでしょうかね。。。もっとも初学者がこれ以外の本を選ぶとそれなりに大変だと思いますが