渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

R

効果量(effect size)のはなし

統計学的検定の話を始めたら自分の勉強の方が止まらなくなってしまったので(笑)、ついでにやってみようと思います。ちなみにこの記事は前回のやたらブクマを集めた記事の続きみたいなものです。 そもそもビジネスの現場ではどういう「レベル」の統計学を使…

Stanで統計モデリングを学ぶ(2): そもそもMCMCって何だったっけ?

(前回記事はこちらから) ベイジアンの知識もいい加減な僕がこんなシリーズ記事を書くとかほとんどギャグの領域なんですが(汗)*1、2回目の今回の記事ではそもそもMCMCって何だったっけ?ってところから始めようと思います。 今回参考にするのは、主に久保…

パッケージユーザーのための機械学習(6):階層的クラスタリング

さて、教師あり学習の方はひと段落ついたので、今度は教師なし学習の話をやっていこうかと思います。と言っても僕が知っている範囲でなおかつ常用するような教師なし学習はRでの実装が割と貧弱なので、シリーズとしてはあまり面白くない感じになりそうです(…

Stanで統計モデリングを学ぶ(1): まずはStanの使い方のおさらいから

(※Stan v2.4.0以降でインストール方法に若干変更があります!詳しくはこの記事の中ほどをご覧ください) さて、年初の抱負でも語ったように今年はStanを頑張って会得していこうと思います。理由は簡単で、ありったけの要素を詰め込んでMCMCサンプラーでガン…

パッケージユーザーのための機械学習:教師あり学習同士で分離超平面・決定境界を比較してみる

このシリーズ記事では、Rで*1色々な機械学習のアルゴリズムについて、それらがどんなものなのかを簡単なデータに対して分離超平面・決定境界を描きながら見てきました。 パッケージユーザーのための機械学習(1):決定木 - 銀座で働くデータサイエンティスト…

パッケージユーザーのための機械学習(5):ランダムフォレスト

(※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります) さて、こんな記事をクリスマス・イヴのプレゼントにするのはアレなんですが(笑)、教師あり学習&分類器系では一旦これでシリーズを〆る予定です。 トリを飾るのは…

パッケージユーザーのための機械学習(4):ニューラルネットワーク

(※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります) 実は僕は普段全くニューラルネットワークを使ってない上に、すぐ隣に再帰ニューラルネットワークでバリバリNIPSに通していたことのある教授氏がいるので*1、こんな…

パッケージユーザーのための機械学習(3):サポートベクターマシン(SVM)

(※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります) PythonでSMO-SVM書き下すという宿題がまだ終わってないくせにこれ書いていいのか物凄く迷うんですが(笑)、R Advent Calendar 2013の12月6日分第6回の担当に当たっ…

パッケージユーザーのための機械学習(2):ロジスティック回帰

(※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります) だらだらと機械学習をパッケージで回していく様子を眺めるこのシリーズ、今回はロジスティック回帰をやってみようと思います。ロジスティック回帰はどちらかという…

パッケージユーザーのための機械学習(1):決定木

(※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります) だいぶ前に「糞コードで頑張る機械学習シリーズ」と言うのを始めようとしたんですが、パーセプトロンをPythonで実装した次にMatlabで書いたSMO-SVMコードをPythonに…

MCMCの計算にStanを使ってみた(超基礎・導入編)

肝心のMCMCの勉強はどこ行ったゴルァとか怒られるとアレなんですが、先にツールの使い方覚えてしまおうと思ってStanで簡単な練習をやってみました。ちなみに参考にした資料はこちら。 Stanチュートリアルの資料を作成しました。 - Analyze IT. StanTutorial …

Rで季節変動のある時系列データを扱ってみる

Rで計量時系列分析シリーズでだいぶ時系列データの話をしてきたわけですが、最近個人的に季節変動のあるデータを扱うケースが増えてきたので、備忘録的にまとめてみようかなと。 一般に、webデータサイエンスの領域で季節変動というと業種や領域にもよるもの…

第30回データマイニング+WEB@東京(#TokyoWebmining 30th)でお話してきました

タイトルを読んで字の如く、昨日10/19(土)開催のこちらの勉強会でお話してきました。 第30回 データマイニング+WEB@東京( #TokyoWebmining 30th)−機械学習活用・マーケティング 祭り− を開催しました - hamadakoichi blog TokyoRの時と同様、いつもTwitte…

{Rcpp}を入れる時はシステム内に既にあるgccに注意

最近こんな素晴らしい勉強会があったと知りまして。主催は7月の1ヶ月間で何故か3回も一緒に飲んだこの人。 第1回BUGS/Stan勉強会を開催しました 元々WinBUGSは{R2WinBUGS}経由で使っていたんですが、やっぱり{Rcpp}経由でC++コンパイラで高速で走るStan良さ…

『とある弁当屋の統計技師(データサイエンティスト)』はむしろマンガにした方が良かったかも

先日Amazonから届いて読了したので、Twitterでも公言していた通り書評をやってみようと思います。RMeCabやその他R関連書籍多数でお世話になっている方も多いであろう、石田基広先生の新刊書です。 とある弁当屋の統計技師(データサイエンティスト) ―データ分…

「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ

先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。 …

今さら人に聞けない「重回帰分析の各手法の使い分け」

(※※※続編記事書きました→「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ) 今ちょうどadtech tokyo 2013の会期中で、職場からも近い&会社から行ってこいという指示が出たということで僕も色々セッション…

ディスプレイ広告のクリック数改善のためのデザイン最適化に、ポアソン分布 / 負の二項分布によるGLMを使ってみる

これはディスプレイ広告に限った話ではないと思うんですが、あるPC / スマホ上の何かしらのクリエイティブに対するクリック数がそのデザインの良し悪しによって左右されるということは、web業界ではよく知られているかと思います。 そういう場合「どんなデザ…

Rで機械学習するならチューニングもグリッドサーチ関数orオプションでお手軽に

ちょっと調べてみたらタイトルの件について言及してる記事があまり多くなかったので、ざっくり書いてみます。なお、この記事はid:shakezoさんの 実務でRandomForestを使ったときに聞かれたこと へのオマージュです。というか、実は僕もこの記事を読んでから…

第33回TokyoRでトークしてきました

前々から参加してみたいと思っていたTokyoRですが、ついに昨日の第33回に参加してきました。ちなみに初登壇のおまけつき。 Rで計量時系列分析~CRANパッケージ総ざらい~ from Takashi J Ozaki 正直言って詰め込み過ぎた感ありありなんですが、Rで計量時系列…

何も考えずに線形回帰すると怖いので、計量時系列分析でダメ押ししてみる

何気なく読んでいて、途中で「?」と思った記事がありました。 ITエンジニアのためのデータサイエンティスト養成講座(5):「ビールと紙おむつ」のような相関関係を探る分析手法にはどんなものがある?――データ分析方法についての検討 (1/5) 何をやっている…

Rで計量時系列分析:状態変化を伴うモデル(閾値モデル、平滑推移モデル、マルコフ転換モデル)

前回の記事までは多変量時系列モデルとしてのVARモデルを扱ってきました。今回は一旦このシリーズの最終回ということで、元の単変量時系列モデルに戻って「状態変化を伴うモデル」を扱ってみようと思います。 ということでもはや毎回恒例になってますが、使…

『データサイエンティスト養成読本』はゼロからデータサイエンティストを目指す人なら絶対に読むべき一冊

執筆陣12人中8人が直接の知人友人というこの新刊書でございますが。 データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)作者: 佐藤洋行,原田博植,下田倫大,大成弘子,奥野晃裕,中川帝人,…

Rで計量時系列分析:単位根過程、見せかけの回帰、共和分、ベクトル誤差修正モデル

前回の記事ではVARモデルに基づく様々な計量時系列分析手法を取り上げました。今回はいよいよ現実世界の時系列データを扱う上では避けて通れない、単位根過程とそれにまつわる様々な問題とその解決策について触れてみようと思います。 ということでもはや毎…

なぜ項目ごとに単純な集計をするより、多変量解析(重回帰分析)をした方が正確な結果を返すのか

ちょっと前の記事(単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース)に裏先生からツッコミを頂き、慌てて学部1年生の頃の教科書を開いて復習しまして。。。いやー、忘れてることが多過ぎて大変(汗)。知るは一時の恥という…

単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース

一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶ…

Rで計量時系列分析:VARモデルから個々の時系列データ間の因果関係を推定する

前回の記事ではVARモデルの基礎までを取り上げました。ということで、今回はVARモデルに基づいて異なる時系列同士の因果関係を推定する3つの手法について取り上げてみようと思います。 ということで毎回毎回しつこいですが、使用テキストはいつもの沖本本で…

Rで計量時系列分析:VARモデルの基礎(多変量時系列モデル)

前回の記事では単変量の時系列までを扱いました。今回は多変量(ベクトル)時系列を記述するVARモデルとその周辺のポイントを取り上げます。 ということでしつこいですが、使用テキストはいつもの沖本本です。 経済・ファイナンスデータの計量時系列分析 (統…

Rで計量時系列分析:AR, MA, ARMA, ARIMAモデル, 予測

前回の記事では計量時系列分析とは何ぞや?みたいなところをやりましたので、今回はいろはのイともいえるARIMAまわりから始めていこうと思います。 ということで改めて、使用テキストはいつものこちらです。 経済・ファイナンスデータの計量時系列分析 (統計…

「数式が苦手でも統計やりたいのでRで試す」は現実問題としてはアリだと思う

むしろ数式が苦手だけど統計を勉強したいという人はRをやるといいかもしれない - Line 1: Error: Invalid Blog('by Esehara' ) ものすごくブコメを集めてるので、読んでみました。で、結論から言うと「四の五の言う人はいるかもしれないけどデータ分析の世界…