渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

シリーズUseful R『データ分析プロセス』ご恵贈いただきました

データ分析プロセス (シリーズ Useful R 2)

データ分析プロセス (シリーズ Useful R 2)


f:id:TJO:20150622124934j:plain


著者の福島さんからご恵贈いただきました。ということで、早速書評させていただきます。


ざっと内容を眺めてみる


いつも通り章立てごとに簡単に寸評をば。

第1章 データ分析のプロセス

1.1 データ分析で直面する課題の例
1.2 データ分析のプロセス
1.3 CRISP-DM
1.4 KDDプロセス
1.5 本書の目的と構成


ある意味この本の最大のポイントで、データ分析のプロセスにおける世界的な標準フレームワークとして知られるCRISP-DMを初めとして、「どのようにデータ分析を始めるべきか」という点を簡潔ながらも明確に述べています。

第2章 基本的なデータ操作

2.1 データの入出力
2.2 データフレームのハンドリング
2.3 データテーブルのハンドリング


Useful Rシリーズなので、もちろんデータ操作はSQLなどではなくRです(笑)。ただしSQL依拠の他のDBとRとを接続させてDB操作する方法なども紹介されています。後はお馴染み{dplyr}などの使い方なども。

第3章 前処理・変換

3.1 データの記述・要約
3.2 欠損値への対応
3.3 外れ値の検出と対応
3.4 連続データの離散化
3.5 属性選択
3.6 次元削減


典型的な前処理の話題なんですが、ここでの注目ポイントは欠損値と外れ値への対応。データ分析の一環という位置付けの上で、ここまできちんと体系立てて欠損値・外れ値対応を詳説した本はなかなか他にはないんじゃないでしょうか。

第4章 パターンの発見

4.1 予測モデルの構築
4.2 頻出パターンの発見


この章は世の中の人々の多くが想像するような「データ分析」の例として、SVMとランダムフォレストを挙げてどのように適用するかという話をしています。他書と異なり予測精度判定指標の話題も突っ込んで書いているところが目を引きますね。{caret}と併せてさらに展開させる方法についても述べられています。


そしてもう一つのポイントが{arules}を用いたアソシエーション分析についての解説。意外かもしれませんがこれの解説を含む一般向け書籍ってあまり多くないので、ここでアソシエーションの話を持ってくるのは大事だと思いました。

第5章 データ分析の例

5.1 分析計画の立案
5.2 データの理解
5.3 データの加工
5.4 予測モデルの構築


ダートマス大が公開しているStudentLifeというオープンデータに対する分析を通じて、これまで述べられてきたデータ分析プロセスをどのように適用し、予測モデルを構築していくかについての実践例を紹介しています。特徴量をごにょごにょして、一つのデータテーブルにまとめられるまでの一連の流れが紹介されているのは良いですね。


まとめ


内容:☆☆☆☆☆(非公開)
オススメ度:☆☆☆☆☆(非公開)


いつも通り友人の著書ということで、基本的に星はつけませんw 悪しからずご了承ください。


ということで一つだけ注文を。Useful RシリーズなのでRの話がメインなのは全くもって問題ないのですが、やはりDB基盤の話にはもう少し紙面を割いてもらっても良かったかなぁと思いました。というのは、やっぱりデータ分析の仕事をしている限りはRにいきなりデータをインポートできることなんてまずなく、ほぼ確実にどこかしらのDBを叩く羽目になるものなので。。。


全体として、共立出版さんの本らしくアカデミックな雰囲気が色濃い玄人好みする本だなと思いました。最近は無理にライトに書かれている本も多いので、こういう質実剛健な感じのデータ分析本って結構ウケるんじゃないでしょうか? 特にRをメインに分析業務で使う人で、まだ分析業務自体は初心者という人にはお薦めできる本です。