渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

2013年秋版:データ分析初心者にお薦めする「基礎を本当にゼロから学ぶ」ためのテキスト5冊

前回の書籍リストは、基本的には「そこそこ統計学のことは知っていて」「機械学習とはどんなものかというイメージがあって」「Pythonの初歩ぐらいはできて」「本を見ながらで良ければRを使える」人たちを対象にしたものでした。


なのですが、世の中そんな最初から基礎レベルであってもきちんとスキルが揃ってる人なんてそうそう多くないわけで*1、特に今の「ビッグデータ」「データサイエンティスト」ブームを受けて勉強を始める人のほとんどが完全な初心者でしょう。


ということで、僕が実際に読んだことがあったり人から借りて読んでみたり書店で立ち読みしたりしたものの中から、そういう初心者向けのテキストを5冊に絞って紹介してみます。なお、毎回毎回しつこいですが下のリンクから書籍を購入されても、儲かるのは僕ではなくはてななのでそこのところよろしくです(笑)。


データ分析の「考え方」を身に付けるために


色々評判の良いものもあるんですが、ビジネスとか学術研究とかIT産業とかそういう区分は一切関係なしに分かりやすく説明しているものとしては、こちらがお薦めかなと。



まだ実際のデータを用いたデータ分析をやったことのない人は、データ分析の「考え方」を身に付けるためにも、何よりもまずこの本から読み始めると良いかもしれません。表紙から受けるユルめのイメージからは想像もつかないくらい良い本だと思います。


実は、僕の場合たまたま職場の図書コーナーに置いてあったのを読んだんですが、データの読み取り方や着目点と言った「データへの臨み方」について代表値や相関・単回帰といった初歩的なテーマに合わせて非常に分かりやすく丁寧に説明されています。


特に第6・7章では「なぜ同じデータから反対の結論が出るのか」「手持ちのデータでは足りない場合どうすれば良いか」といったメタレベルで大事なポイントについても触れられていて、初心者には大いに参考になると思います。


しかも、この本の素晴らしいところは「データの可視化」「プレゼンのやり方」という統計学をただ学んだだけではなかなか身に付かないようなテーマについても、しっかり章を割いて説明されているところでしょう。


また、Excelでの分かりやすい実践例が豊富なのも嬉しいです。Excel分析ツールの使い方なども載っているので、初めて複雑なグラフ描画や相関分析や回帰分析などにチャレンジする人には親切な作りと言えるのではないでしょうか。


最後に。この本から読み始める人はまず最初に第1章p.17の『大手メーカーのマネージャ62人にアンケートしてわかった「現場で必要な統計知識」とは』の項を読むことをお薦めします。意外なことが分かると思います。


統計学


ということで、上記の『明日からつかえるシンプル統計学』でもかなり統計学自体の勉強にもなると思いますが、純粋に統計学の知識を身に付けるためのものとして別にテキストをピックアップ。それぞれスタイルが違うので、自分に合った本を選んでもらえれば良いかと。


マンガでわかる統計学

マンガでわかる統計学


うちの職場の図書コーナーにも置いてあります。マンガを通して繰り広げられる軽妙な展開の中に、統計学の基礎がコンパクトに詰まってます。これ1冊だと本当に初歩の初歩である代表値とか独立性の検定あたりで終わってしまいますが、このシリーズの他の巻も併せて読むと回帰分析や因子分析についても学ぶことができて良いと思います。


統計学がわかる (ファーストブック)

統計学がわかる (ファーストブック)


こちらも図書コーナーに置いてあったのを読んだんですが、シンプルかつ図表をふんだんに使い、数式をゼロにするのではなく「最小限必要な数式だけを挙げて説明する」ようにしているので、細大漏らさずなかなか分かりやすいと思いました。登場キャラが問答する形で、Excelで実践例を示しているので読みやすいです。上の本同様、このシリーズの他の巻も読むとさらに突っ込んだ内容についても学べます。



書評では辛口の点をつけちゃいましたが、ラノベ風にするというのはむしろありきたりなマンガ仕立てよりも新鮮で良いのでは?という評もあるということで、お薦めリストに入れさせていただきました。ビジネスの現場でのデータ分析に必要な諸手法の知識がかなり高度な範囲まで含めてコンパクトに収まっていて、雰囲気をつかむという点でも良いでしょう。Rが使える必要がある点のみ要注意。


機械学習


そもそも統計学に比べると機械学習の初心者向けテキストとか一般向け書籍ってほとんどない*2んですよね。ということで迷いに迷ったんですが、一応こちらを挙げておきます(ただしRのスキルが必要です)。


入門 機械学習

入門 機械学習


基本的にはRのパッケージを利用しながら機械学習の各アルゴリズムの挙動を見て行きましょーという内容なんですが、数式の類がほとんど出てこない代わりに基礎的な概念の数々についての説明が豊富なので、Rが使えるようになって、多少統計学のことも分かって、次のステップに進もう!という人にはなかなか良いテキストなんじゃないかと思います。


Amazonではえらく辛口なレビューがついてますが、僕はむしろ数式を極力出さずに「機械学習のイメージ」を分かりやすく読者に植え付けることを目指していて良いと感じました。少なくとも「黄色い本」PRMLをいきなり読むよりは遥かにマシじゃないですかね? 数式アレルギーも多い初心者の人たちにはこれぐらいが限界かと。


ちなみに『PRMLガール』が良いらしいという評判も聞くのですが(笑)、何分にも未見でして。。。機械学習線形代数とか最適化計画解法*3とかの知識が要るので、丸っきりざっくりと入るのはさすがに無理だと思うのです。


ちなみに


たまたま職場の図書コーナーにあったものから選んだものが多いですが、別に恣意的に選んだわけではありませんので悪しからず。。。


一応有楽町の三省堂とかまで足を運んで他に良い本がないか探してみたんですが、新しい本で「わかりやすい○○」とかうたっているものでも開いて中身を見たら「東大出版会の赤本を丸写ししただけ」みたいな本が結構多くてびっくり。そんなのどこも分かりやすくないじゃんかよ!とw


またビジネス書のコーナーとか見ると各種大手メディアで喧伝されているような中身の薄い本がいっぱい並んでたんですが、ああいうデータ分析と○○みたいな本は基本的にデータ分析を「やらせる人」向けの本ばかりで「やる人」向けのものはほぼ皆無なので、今回は取り上げませんでした。


最後に。「分かりやすい統計学のテキスト」の大半はExcelかRで演習することを前提にしているので、皆さんExcelとRだけは最低でも何か別の本で勉強しましょう(笑)。

*1:この辺業界内でも感覚がマヒしてる人が多いので怖い。。。

*2:いや「全く」ないかも。。。

*3:ラグランジュの未定乗数法や凸二次最適化計画など