統計学
さて、前回リストの記事から半年ぐらい経ちましたよーということで、それ以降に発刊された書籍などを吟味した上で更新したリストをお届けしたいと思います。といっても引き続き今回のリストにも入っているものが多いので変わり映えしないかもですが。。。 前…
今日何気なく呟いたツイートが、見ていたら結構RT&favされていた模様で。 社会人が統計学とか機械学習を独習するには、いわゆる「落下傘方式」が良いと思う。必要な時にその項目だけ学んで実践する。その繰り返しで学問体系のマス目が埋まっていけば良し。あ…
実は業務でもStan使い始めてるんですが、まだまだ単位根ありパネルデータの分析に回すなど低レベルなものが多く、無情報事前分布と階層事前分布を巧みに使いこなして華麗にサンプリング。。。なんて夢のまた夢という情けない状況です(泣)。 で、気が付いた…
統計学的検定の話を始めたら自分の勉強の方が止まらなくなってしまったので(笑)、ついでにやってみようと思います。ちなみにこの記事は前回のやたらブクマを集めた記事の続きみたいなものです。 そもそもビジネスの現場ではどういう「レベル」の統計学を使…
(前回記事はこちらから) ベイジアンの知識もいい加減な僕がこんなシリーズ記事を書くとかほとんどギャグの領域なんですが(汗)*1、2回目の今回の記事ではそもそもMCMCって何だったっけ?ってところから始めようと思います。 今回参考にするのは、主に久保…
(※Stan v2.4.0以降でインストール方法に若干変更があります!詳しくはこの記事の中ほどをご覧ください) さて、年初の抱負でも語ったように今年はStanを頑張って会得していこうと思います。理由は簡単で、ありったけの要素を詰め込んでMCMCサンプラーでガン…
データサイエンティストブームが去りつつある一方で、データ分析ブームそのものはじわじわと広がり続けている感じのする昨今ですが。最近また、色々なところで「本当にビジネスやるのに統計学って必要なの?」みたいな話題を聞くことが増えてきたので、何と…
あけましておめでとうございます。本年もよろしくお願いいたしますー。ということで新年最初の記事なんですが、新年早々にask.fmでこんな質問をいただきましてですね。 はじめまして.ブログ記事で勉強させて頂いております. 生存分析(COX比例ハザード解析…
これは先日うちの教授氏と話していて出てきた話題なんですが、 データ分析とは「データドリブンなソリューション」を提供すること アルゴリズム実装=定量的ソリューション アドホック分析=定性的ソリューション だよね、という。これは結構一般的なコンセ…
最近また色々な新刊書で「パラメトリックvs.ノンパラメトリック検定の違い」について正確でない説明を見かけることが増えてきたので、ちょっと出典を明示して備忘録的に書いておこうと思ったのでした。
誰かの参考になるかもしれないと思って、僕の前職時代の取り組み方や他の現場で僕とよく似たアドホック分析系の仕事をされている方から聞き取った内容をもとに、適当にまとめてみました。 ということで、これは正確には「アドホック分析系データサイエンティ…
肝心のMCMCの勉強はどこ行ったゴルァとか怒られるとアレなんですが、先にツールの使い方覚えてしまおうと思ってStanで簡単な練習をやってみました。ちなみに参考にした資料はこちら。 Stanチュートリアルの資料を作成しました。 - Analyze IT. StanTutorial …
回帰・分類・推定・予測
前回の書籍リストは、基本的には「そこそこ統計学のことは知っていて」「機械学習とはどんなものかというイメージがあって」「Pythonの初歩ぐらいはできて」「本を見ながらで良ければRを使える」人たちを対象にしたものでした。 なのですが、世の中そんな最…
5ヶ月前に書いた記事がだいぶ陳腐化してきた*1気がするので、それ以降出版された書籍や、他にも学術的知識を得るだけでなく「データサイエンティストとして働く上で必要なスキル」について書かれた書籍などを加えて、「2013年秋版」の10冊をチョイスしてみま…
先日Amazonから届いて読了したので、Twitterでも公言していた通り書評をやってみようと思います。RMeCabやその他R関連書籍多数でお世話になっている方も多いであろう、石田基広先生の新刊書です。 とある弁当屋の統計技師(データサイエンティスト) ―データ分…
先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。 …
(※※※続編記事書きました→「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ) 今ちょうどadtech tokyo 2013の会期中で、職場からも近い&会社から行ってこいという指示が出たということで僕も色々セッション…
これはディスプレイ広告に限った話ではないと思うんですが、あるPC / スマホ上の何かしらのクリエイティブに対するクリック数がそのデザインの良し悪しによって左右されるということは、web業界ではよく知られているかと思います。 そういう場合「どんなデザ…
ちょっと前の記事(単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース)に裏先生からツッコミを頂き、慌てて学部1年生の頃の教科書を開いて復習しまして。。。いやー、忘れてることが多過ぎて大変(汗)。知るは一時の恥という…
一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶ…
最近色々なデータ分析の現場の方々と意見交換したり一緒に飲んだりするようになり、ますます現場ごとの仕事のやり方の違いや雰囲気の違い、はたまた価値観の違いといったことについてそこそこ深く知るようになってきました。 おかげさまで、今の僕の立ち位置…
むしろ数式が苦手だけど統計を勉強したいという人はRをやるといいかもしれない - Line 1: Error: Invalid Blog('by Esehara' ) ものすごくブコメを集めてるので、読んでみました。で、結論から言うと「四の五の言う人はいるかもしれないけどデータ分析の世界…
前回の記事で、Rパッケージ{pwr}によるサンプルサイズの決め方を紹介したわけですが。 サンプルサイズの決め方 (統計ライブラリー)作者: 永田靖出版社/メーカー: 朝倉書店発売日: 2003/09/01メディア: 単行本購入: 20人 クリック: 277回この商品を含むブログ…
最近、「ビッグデータ」というバズワードに対するアンチテーゼとして叫ばれるようになってきたのが、 「統計学ってのは限られたサンプル(抽出)データから、まだ見ぬ全体像を知るためのもの」「だからビッグデータなんて苦労して集める必要はない、サンプリ…
CRANパッケージ{MSwM}の大体の使い方が分かったので簡単に共有します。 なお、しつこいようですがマルコフ状態転換モデルについてはこのブログではすっかりお馴染みの以下のテキストをご参照のこと*1。僕もまだ勉強中です。 経済・ファイナンスデータの計量…
ソーシャル(特にソシャゲ)界隈の業界では未だによく聞こえてくる話が、 「毎日毎週施策を打つたびにしっかりKPIが上がってるのは見えてるのに、半年後とかの数字見るとなーんか芳しくないんだよね。何でだろう?」 という不思議な愚痴。このブログを初期の…
最近「効果検証」というキーワードを見聞きする機会が増えてきたので、僕のこれまでの経験に基づいてちろっと書いてみます。
追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケー…
僕の得意分野は計量時系列分析(Econometric time series analysis)なんですが、実際にソーシャルwebサービス企業でデータ分析に取り組む上ではそんなに細かいことやる必要はない、というかそこまで正確な分析をする前に実務上色々やるべきことがある、という…