渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

R

Rで計量時系列分析:はじめに覚えておきたいこと

機械学習は全然専門ではない僕が知ったかぶりをするのも何なので*1、もっともっと以前からそこそこやっている*2計量時系列分析の話でもしてお茶を濁してみることにします(笑)。 *1:新職場には正真正銘の機械学習の研究者から転じた先任のQuantitative Engi…

サンプリング時の最適なサンプルサイズをRパッケージ{pwr}で求める

最近、「ビッグデータ」というバズワードに対するアンチテーゼとして叫ばれるようになってきたのが、 「統計学ってのは限られたサンプル(抽出)データから、まだ見ぬ全体像を知るためのもの」「だからビッグデータなんて苦労して集める必要はない、サンプリ…

マルコフ状態転換モデルのRパッケージ{MSwM}の使い方(異常値検出・ステータス変化検出などに有用)

CRANパッケージ{MSwM}の大体の使い方が分かったので簡単に共有します。 なお、しつこいようですがマルコフ状態転換モデルについてはこのブログではすっかりお馴染みの以下のテキストをご参照のこと*1。僕もまだ勉強中です。 経済・ファイナンスデータの計量…

改善施策の効果検証はどうやるべきか?

最近「効果検証」というキーワードを見聞きする機会が増えてきたので、僕のこれまでの経験に基づいてちろっと書いてみます。

Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選

追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケー…

「真の割合の95%信頼区間」をブートストラップ法で推定するRスクリプト

「カイゼンしたらコンバージョン率が○○%→△△%にup!」は分母を無視したら成り立たないかもしれない 上記ブログ記事で話題に取り上げた「真の割合の95%信頼区間」の推定ですが、大したコードじゃないので一つのRスクリプト(関数)にまとめてみました。ソースは…

「カイゼンしたらコンバージョン率が○○%→△△%にup!」は分母を無視したら成り立たないかもしれない

大体どこの会社でも、KPIというと「△△数(実測数)」「○○率」のような数字が多いのではないかと思います。 そのようなKPIを特定のコンバージョン(課金・契約・定着…)と関連づけて、例えばプロモーション・UI改修・導線変更などの改善施策の効果を検証する…

見せかけの回帰について(そして単位根過程・共和分など)

(※今回は相当に難解な内容になっちゃったかもしれません) 先日はてブを沢山集めた記事で「平均への回帰」「見せかけの回帰」「共和分」について紹介したんですが、こちらのブログで言及を頂いたようです。 はっきり言って僕が書くよりも大変丁寧な説明をさ…

素性ベクトル+分類ラベルのテーブルを持ってくる⇒Rを使ってお手軽に機械学習で分類してみる

Hiveで生テーブルを取ってくる→素性ベクトル+分類ラベルのテーブルに直す 前回の記事では、Hadoopクラスタ(というかHDFS)に収納されている、いかにもありがちなユーザー行動テーブルを、機械学習で扱いやすい素性ベクトル+分類ラベルのテーブルに直す、…