渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

シリーズUseful R『戦略的データマイニング』『金融データ解析の基礎』ご恵贈いただきました

戦略的データマイニング (シリーズ Useful R 4)

戦略的データマイニング (シリーズ Useful R 4)

金融データ解析の基礎 (シリーズ Useful R 8)

金融データ解析の基礎 (シリーズ Useful R 8)

f:id:TJO:20140905143004j:plain


著者の@こと里さんと高柳さんからご恵贈いただきました! ということで簡単にできるだけ辛口ではない書評を書いておきます*1。皆さんの参考になれば嬉しいです*2


『戦略的データマイニング


内容:☆☆☆☆☆(非公開)
オススメ度:☆☆☆☆☆(非公開)


タイトルと著者が@氏であるという点からも想像がつくように、具体的にビジネス的なテーマがある時にどんなデータ分析手法をどのように当てはめれば、どのようなビジネス的に有意義な知見が得られるか?というポイントを解説する本です。


他書と違うところとしては、あくまでも「ビジネス上の問題意識」に基づいて章立てされている点。下に目次を引用しておきますが、他のデータ分析本とは異なり「手法ごと」ではなく「テーマごと」に分かれています。なので、特に実務面で何かしらのテーマに基づく分析をやりたい(やらなきゃいけない)という人には向いているんじゃないかなぁと思います。

第1章 序論
1.1 戦略的データマイニング
1.2 戦略的データマイニングの流れ


第2章 データ加工
2.1 データ加工とは
2.2 条件にあったデータを抽出する
2.3 データを並び替える
2.4 複数のデータを結合する
2.5 ピボットテーブルのような操作を行う
2.6 複雑な集約処理を行う
2.7 リストからデータフレームを作る
2.8 その他細かい処理


第3章 データ可視化
3.1 ggplot2パッケージ
3.2 棒グラフ
3.3 折れ線グラフ
3.4 散布図
3.5 ヒストグラム
3.6 箱ひげ図


第4章 問題発見
4.1 ビジネスにおける問題解決フロー
4.2 問題とは
4.3 基礎集計で問題を見つける
4.4 データマイニングで問題を見つける


第5章 問題解決:意思決定支援
5.1 グループ化してターゲットを決める
5.2 知覚マップを描いてポジショニングを決める
5.3 因果関係を把握してアクションを決める
5.4 パターンやルールを見つけて施策を決める


第6章 問題解決:自動化・最適化
6.1 自動化・最適化とは
6.2 ケーススタディ:需要予測を自動化する
6.3 モデル構築の可能性を確認する
6.4 モデルを構築するためのデータセットを作成する
6.5 1つのデータセットで予測モデルを構築して比較する
6.6 予測モデルの自動選択を実装する
6.7 予測の精度をあげるには


第7章 効果測定
7.1 基本的な考え方
7.2 ランダムなグループ間で比較する
7.3 非ランダムなグループ間で比較する


付録A R/RStudioの導入
A.1 Rの導入
A.2 RStudio
A.3 Rの基本操作


コメントをいくつか。まず、この本では最近出した拙著(『手を動かしながら学ぶ ビジネスに活かすデータマイニング』)で僕が割愛してしまった分析手法も取り上げているので、実務的なテーマに沿って分析の手数を増やしたい人には合ってると思います。ただしその分各手法の説明は簡潔なものにとどまっているので*3、手法の原理やコンセプト・考え方について詳しく学びたい人は拙著を合わせて読まれると良いかもしれません(露骨な宣伝行為)。


ところで、この本は図表がちょっと粗いですね^^; PowerPointで作った図の中のテキストにオートコレクトの下線が出たままだったり、解像度が低いイラストが載っていたり。。。この辺は専任のデザイナーさんがついてくれた拙著が贅沢だっただけかもしれませんが(汗)。


『金融データ解析の基礎』


内容:☆☆☆☆☆(非公開)
オススメ度:☆☆☆☆☆(非公開)


これはもうタイトルを読んで字の如しで、要するに金融データ分析を専門とするいわゆるクオンツの人々向けの本です。なので、どちらかというとオープンデータとして公開されている金融データをいかにしてRから効率良く読み込むか?とかその辺にかなり重点の置かれているなぁと感じました。


下の目次からも分かるかと思いますが、全体として「Rで各所にある金融データを呼び出してくる」「呼び出してきた金融データを前処理する」というところに重点が置かれていて、第6章を除くとあまりデータ分析手法の話が出てこないのが特徴的です。

第1章 R言語の基礎
1.1 本章の概要
1.2 R言語とは
1.3 R言語のインストール
1.4 RStudioの使い方
1.5 R言語の基礎
1.6 まとめ


第2章 金融関連データの取得法
2.1 本章の概要
2.2 quantmodパッケージを用いた株価・マクロ経済指標データの取得
2.3 quandlパッケージを用いたデータ取得
2.4 TFXパッケージを用いた高頻度為替データ取得
2.5 認 証
2.6 webサイトからのデータ取得
2.7 まとめ


第3章 データの前処理
3.1 本章の概要
3.2 データの差分・変化率の計算
3.3 リスク(標準偏差)と相関係数の算出
3.4 データの標準化
3.5 欠損値の処理
3.6 外れ値の処理
3.7 データの正規性の検定
3.8 まとめ


第4章 データの可視化と要約
4.1 本章の概要
4.2 時系列データの可視化
4.3 PerformanceAnalyticsパッケージを用いたパフォーマンスの可視化・要約
4.4 まとめ


第5章 財務データの取得法
5.1 本章の概要
5.2 XML形式の処理
5.3 XBRL形式の財務諸表の取得
5.4 XBRL形式の処理
5.5 まとめ


第6章 時系列解析
6.1 はじめに
6.2 時系列解析の基礎
6.3 金融時系列の特徴
6.4 ARMA過程
6.5 ボラティリティ変動モデル
6.6 VARモデル
6.7 単位根過程


ということでこちらもコメントをいくつか。僕は仕事柄ほとんど金融データを扱わないので、個人的には結構新鮮な内容が多かったです。というか金融データも箱ひげ図で外れ値探しとかやるんだー、みたいなw 面白かったのは財務データのRによる前処理ですね。こんなものまで取ってこれるのか!という。これで例えば東証一部全社の財務データを集めるとかやるんでしょうかやっぱり。


なので、裏を返すとあまり金融工学的な話が多くないのでちょっと拍子抜けしたのも事実です。第6章の内容はそう言えばこのブログでもしばらくやったなー、とか。ブラック・ショールズ方程式あたりの話題とか勉強したかったもので、そこがないのはちょっと残念でした。もっともガチのクオンツの方々はそういうガチな仕事は、RなんかではなくてF#とか、はたまたゴリゴリC++で書いたりするものなんでしょうけど。。。


なお、余談ですがp.147で紹介されている「非線形な相関」はHSICなどの「21世紀の相関」で評価するのが妥当かと思いますw


両書を通じて


もしかしたらこの2冊だけのことなのかもしれませんが、Rそのものについての説明が互いにかぶっていて冗長かと。もしUseful Rシリーズのどの巻でも同じようにRそのものについての説明がかぶって書かれているのであれば、ちょっと辛いですねー。


せっかくシリーズものになっているわけですから、Rそのものの背景説明・コードの書き方・データ構造といった説明はどれか1巻にまとめて、残りの巻ではそれぞれのテーマのことだけを書くようにした方がいいんじゃないかなぁと思いました。


というのも、『戦略的データマイニング』では多分@氏の他著でも紹介されているRのtipsがほぼ再掲されるような形になってしまっていて、『金融データ解析の基礎』に至っては全体の3分の1にも及ぶページが第1章「R言語の基礎」に費やされてしまっています。いや、そういう話題は別の巻にでも任せて、それぞれの巻ごとのテーマにもっとページを割いた方が良かったのではないかなぁと。。。


最後に


何だかんだで結局ちょっと辛口だったかも(汗)。@氏、高柳さん、ごめんなさいごめんなさいごめんなさい。。。

*1:さすがに直接の友人の本をボコボコにするのは気が引けるので

*2:なので点数はつけてません:ただし著者お二方から許可が出れば点数は公開します(笑)

*3:というか端折りすぎ(笑)