渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

今月下旬に『手を動かしながら学ぶ ビジネスに活かすデータマイニング』(技術評論社)という本を出します

本日、出版元の技術評論社(gihyo)様の公式サイトでオープンになりました。

f:id:TJO:20140804214301p:plain


そして書影はまだ反映されていないようですが、Amazonでも予約受付が始まった模様です*1


手を動かしながら学ぶ ビジネスに活かすデータマイニング

手を動かしながら学ぶ ビジネスに活かすデータマイニング


ということで、僕が生まれて初めて執筆した書籍が恥ずかしながら8月22日(予定)に発売されることになりました。詳しくはgihyo様の公式サイトをご覧いただきたいのですが、このブログで唯一はてブ1000超えを達成したエントリ(Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くData Scientistのブログ)を、単行本として改めて全面的に書き直したものです。


この本は、基本的には「Rを使いながら、出来る限り直感的に統計学機械学習の『使い方』を理解できるように解説し、その上で発展的な内容に通じる手掛かりも出来る限り載せておいた*2本です。


想定としてはエンジニア・非エンジニア問わず「ある程度マーケティングなどの実務でデータ分析をやったことはあるけど、その先に行くための手掛かりとしての統計学機械学習に興味がある」という方々に読んでもらえたらなぁ、というところを考えています。


特に本書掲載のRコードは、ほぼ全て非エンジニアの担当編集さんに本文を読みながらRStudioを使ってもらって再現出来るところまで確認した上で載せているものなので、非エンジニアの読者の方にも安心して読んでいただけるのではないかと思ってます。


参考までに、本書の目次を以下に載せておきます。もしこの目次を読んで気に入っていただけたなら、是非ポチって下さると有難いですm(_ _)m*3

第1章 データマイニングとは

1-1 データマイニングって一体何?
1-2 データマイニングの両輪:統計学機械学習
1-3 これだけは覚えておきたい基礎知識
1-4 大事なのは「イメージ」できるようになること
1-5 この本を読み進める上での注意点

第2章 Rを使ってみよう

2-1 Rとは
2-2 Rのインストール
2-3 RStudioのインストール
2-4 Rでデータ操作をしてみよう
2-5 CRANパッケージを使ってみよう
2-6 Rによるコーディングについて
2-7 formula式を覚えよう
[コラム]サンプルデータのダウンロードについて

第3章 その2つのデータ,本当に差があるの? ~仮説検定~

3-1 それが偶然に起きたことか必然的に生じたことかを判定する=仮説検定と有意確率
3-2 t検定:いわゆる「有意差」を見つける代表的なメソッド
3-3 独立性の検定(カイ二乗検定):施策の効果があったかどうかを見る
3-4 順位和検定:分布同士の「ずれ」を見る

第4章 ビールの生産計画を立てよう~重回帰分析~

4-1 ある「目的となるデータ」をさまざまな「独立な周辺データ」から「説明」したい=回帰
4-2 重回帰分析=複数の説明変数でひとつの目的変数を説明する
4-3 重回帰分析をやってみよう
4-4 「偏回帰係数」と「相関係数」の違いに注意
[コラム]どれくらいの個数のデータを集めれば良い?

第5章 自社サービス登録会員をグループ分けしてみよう ~クラスタリング

5-1 「何かの基準に基づいて似たもの同士をまとめる」=クラスタリング
5-2 Rで利用できるクラスタリング手法たち
5-3 eコマースサイトの顧客データでクラスタリングしてみよう

第6章 コンバージョン率を引き上げる要因はどこに? ~ロジスティック回帰~

6-1 「一般化線形モデル」とは
6-2 パーセンテージのように「上限と下限が決まっている」場合のロジスティック回帰
6-3 テストの合否のように「Yes/No(1 or 0)の二値で現れる」場合のロジスティック回帰
6-4 実際にロジスティック回帰をやってみよう
[コラム] データ分析の勉強会に参加してみませんか?

第7章 どのキャンペーンページが効果的だったのか? ~決定木~

7-1 決定木から始める機械学習
7-2 「できるだけ外れているものをよけるように」分岐条件の順番を決めていく=決定木
7-3 決定木を試してみよう
7-4 決定木で回帰分析をすると「回帰木」になる
[コラム] Rの次は何を勉強するべき?

第8章 新規ユーザーの属性データから今後のアクティブユーザー数を予測しよう ~SVM/ランダムフォレスト~

8-1 機械学習とはどういうもの?
8-2 サポートベクターマシン(SVM):「美しく」分類する機械学習の王様
8-3 ランダムフォレスト:コンピューターの進歩が生み出した機械学習の若きスター
8-4 新規ユーザーの属性データから,1ヶ月後のアクティブユーザー数を予測してみよう

第9章 ECサイトの購入カテゴリデータから何が見える? ~アソシエーション分析~

9-1 「Xが起きればYも起きる」をモデリングする
9-2 ECサイトの購入カテゴリデータからおすすめカテゴリ導線のプランを考えてみよう
[コラム]レコメンデーション(推薦)システムとの関係

第10章 Rでさらに広がるデータマイニングの世界 ~その他の分析メソッドについて~

10-1 分散分析
10-2 一般化線形モデルとその応用
10-3 主成分分析,因子分析とその発展形
10-4 機械学習のその他の手法と発展形
10-5 グラフ理論・ネットワーク分析
10-6 計量時系列分析
10-7 ベイジアンモデリング
10-8 その他の新旧メソッドたち


そして、これまたお恥ずかしい限りですがgihyo様の公式ページにはプロモーションも兼ねて、僕の書いた「はじめに」が抜粋されてそのまま掲載されています。ということで、ついでなのでこちらも以下に引用しておきます。こんなことを考えながら書きましたよー、ということで。

(「はじめに」より抜粋)


本書は,筆者の個人ブログ『銀座で働くデータサイエンティストのブログ』ではてなブックマーク1000以上を獲得した人気記事,「Webデータ分析&データサイエンスで役立つ統計学機械学習系の分析手法10選」(http://tjo.hatenablog.com/entry/2013/06/10/190508)をベースに,単行本として全面的に書き下ろしたものです。


このブログ記事は,元はといえば私自身向けの備忘録も兼ねて「あれー,あの統計学or機械学習の手法ってRでどうやってやるんだったっけ?」という程度のメモとしてざっくりとまとめただけだったのですが,思いの外反響が大きくてびっくりしたのを覚えています。


私自身は今でこそデータ分析を生業としておりますが,かつては異なる分野の研究者としてデータ分析を実践する立場にはあったとはいえ,統計学機械学習といったデータ分析の根幹をなす学術分野のエキスパートだったわけではありません。


それどころか,今現在盛んに用いられている分析手法の中には,私が若かりし頃情報系の学生だった頃にはまだ実用化していなかったものもあったり……そうなると,もはや復習するどころかゼロから学ばなければならないものだらけということに。まさに三十路半ばからの手習いということで,データ分析の仕事を始めてからは地道にサンプルデータやチュートリアルをRで扱ったり実践したりすることで,徐々にビジネスにおけるデータ分析と,統計学機械学習とに慣れ親しんでいったのでした。


皆さんの中には,データ分析はともかく,統計学機械学習なんてちんぷんかんぷんという方もいらっしゃることでしょう。そのような方々のために,「Rを使って手を動かせば,こんなに簡単にデータ分析も,統計学も,機械学習も使いこなせるようになりますよ!」と伝えたい。そういう思いを込めて,本書を書き上げました。ぜひ,本書を読みながら,Rを使って手を動かすことで,少しずつでも良いので着実に統計学機械学習について学び取っていただければと願っております。


ということで、本書が正式に発売された暁には僕自身の手による書評*4をこのブログ上でやろうかと考えております(笑)。いやー、これまで散々他人様の本をボロクソに書評で貶してきただけに、僕の本のAmazonレビューがどうなることやらと想像するだけでも楽しいですねあっはっは(震え声)。そんなわけで、お後がよろしいようで。。。

*1:電子書籍版も出る予定ですが、こちらはまだオープンではないのかも

*2:主にブログと同じで脚注に小難しい話はまとめてあるという

*3:何よりもお世話になったgihyo様のためにも。。。

*4:自虐行為ともいう