読者です 読者をやめる 読者になる 読者になる

六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

統計学

そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか

データサイエンティストブームが去りつつある一方で、データ分析ブームそのものはじわじわと広がり続けている感じのする昨今ですが。最近また、色々なところで「本当にビジネスやるのに統計学って必要なの?」みたいな話題を聞くことが増えてきたので、何と…

AICとc-index (concordance index)とはどう使い分けるべきなのか

あけましておめでとうございます。本年もよろしくお願いいたしますー。ということで新年最初の記事なんですが、新年早々にask.fmでこんな質問をいただきましてですね。 はじめまして.ブログ記事で勉強させて頂いております. 生存分析(COX比例ハザード解析…

アルゴリズム実装=定量的ソリューション、アドホック分析=定性的ソリューション

これは先日うちの教授氏と話していて出てきた話題なんですが、 データ分析とは「データドリブンなソリューション」を提供すること アルゴリズム実装=定量的ソリューション アドホック分析=定性的ソリューション だよね、という。これは結構一般的なコンセ…

「パラメトリック検定」と「ノンパラメトリック検定」の違いについて出典を明示して書いておく

最近また色々な新刊書で「パラメトリックvs.ノンパラメトリック検定の違い」について正確でない説明を見かけることが増えてきたので、ちょっと出典を明示して備忘録的に書いておこうと思ったのでした。

データサイエンティストはこうやってデータ分析の仕事をしている(自分の経験と見聞談をもとに)

誰かの参考になるかもしれないと思って、僕の前職時代の取り組み方や他の現場で僕とよく似たアドホック分析系の仕事をされている方から聞き取った内容をもとに、適当にまとめてみました。 ということで、これは正確には「アドホック分析系データサイエンティ…

MCMCの計算にStanを使ってみた(超基礎・導入編)

肝心のMCMCの勉強はどこ行ったゴルァとか怒られるとアレなんですが、先にツールの使い方覚えてしまおうと思ってStanで簡単な練習をやってみました。ちなみに参考にした資料はこちら。 Stanチュートリアルの資料を作成しました。 - Analyze IT. StanTutorial …

データ分析を「させる(依頼する)」側に最低限知っていて欲しい4つの分析コンセプト

回帰・分類・推定・予測

2013年秋版:データ分析初心者にお薦めする「基礎を本当にゼロから学ぶ」ためのテキスト5冊

前回の書籍リストは、基本的には「そこそこ統計学のことは知っていて」「機械学習とはどんなものかというイメージがあって」「Pythonの初歩ぐらいはできて」「本を見ながらで良ければRを使える」人たちを対象にしたものでした。 なのですが、世の中そんな最…

2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊

5ヶ月前に書いた記事がだいぶ陳腐化してきた*1気がするので、それ以降出版された書籍や、他にも学術的知識を得るだけでなく「データサイエンティストとして働く上で必要なスキル」について書かれた書籍などを加えて、「2013年秋版」の10冊をチョイスしてみま…

『とある弁当屋の統計技師(データサイエンティスト)』はむしろマンガにした方が良かったかも

先日Amazonから届いて読了したので、Twitterでも公言していた通り書評をやってみようと思います。RMeCabやその他R関連書籍多数でお世話になっている方も多いであろう、石田基広先生の新刊書です。 とある弁当屋の統計技師(データサイエンティスト) ―データ分…

「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ

先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。 …

今さら人に聞けない「重回帰分析の各手法の使い分け」

(※※※続編記事書きました→「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ) 今ちょうどadtech tokyo 2013の会期中で、職場からも近い&会社から行ってこいという指示が出たということで僕も色々セッション…

ディスプレイ広告のクリック数改善のためのデザイン最適化に、ポアソン分布 / 負の二項分布によるGLMを使ってみる

これはディスプレイ広告に限った話ではないと思うんですが、あるPC / スマホ上の何かしらのクリエイティブに対するクリック数がそのデザインの良し悪しによって左右されるということは、web業界ではよく知られているかと思います。 そういう場合「どんなデザ…

なぜ項目ごとに単純な集計をするより、多変量解析(重回帰分析)をした方が正確な結果を返すのか

ちょっと前の記事(単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース)に裏先生からツッコミを頂き、慌てて学部1年生の頃の教科書を開いて復習しまして。。。いやー、忘れてることが多過ぎて大変(汗)。知るは一時の恥という…

単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース

一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶ…

データサイエンティストは「アルゴリズム実装系」と「アドホック分析系」とに分けた方が良いかも

最近色々なデータ分析の現場の方々と意見交換したり一緒に飲んだりするようになり、ますます現場ごとの仕事のやり方の違いや雰囲気の違い、はたまた価値観の違いといったことについてそこそこ深く知るようになってきました。 おかげさまで、今の僕の立ち位置…

「数式が苦手でも統計やりたいのでRで試す」は現実問題としてはアリだと思う

むしろ数式が苦手だけど統計を勉強したいという人はRをやるといいかもしれない - Line 1: Error: Invalid Blog('by Esehara' ) ものすごくブコメを集めてるので、読んでみました。で、結論から言うと「四の五の言う人はいるかもしれないけどデータ分析の世界…

サンプルサイズを決めるための複雑な計算をExcelでやってのける(資料紹介)

前回の記事で、Rパッケージ{pwr}によるサンプルサイズの決め方を紹介したわけですが。 サンプルサイズの決め方 (統計ライブラリー)作者: 永田靖出版社/メーカー: 朝倉書店発売日: 2003/09/01メディア: 単行本購入: 20人 クリック: 277回この商品を含むブログ…

サンプリング時の最適なサンプルサイズをRパッケージ{pwr}で求める

最近、「ビッグデータ」というバズワードに対するアンチテーゼとして叫ばれるようになってきたのが、 「統計学ってのは限られたサンプル(抽出)データから、まだ見ぬ全体像を知るためのもの」「だからビッグデータなんて苦労して集める必要はない、サンプリ…

マルコフ状態転換モデルのRパッケージ{MSwM}の使い方(異常値検出・ステータス変化検出などに有用)

CRANパッケージ{MSwM}の大体の使い方が分かったので簡単に共有します。 なお、しつこいようですがマルコフ状態転換モデルについてはこのブログではすっかりお馴染みの以下のテキストをご参照のこと*1。僕もまだ勉強中です。 経済・ファイナンスデータの計量…

「施策を打ったらKPIが上がった!」だけで満足するのは危険

ソーシャル(特にソシャゲ)界隈の業界では未だによく聞こえてくる話が、 「毎日毎週施策を打つたびにしっかりKPIが上がってるのは見えてるのに、半年後とかの数字見るとなーんか芳しくないんだよね。何でだろう?」 という不思議な愚痴。このブログを初期の…

改善施策の効果検証はどうやるべきか?

最近「効果検証」というキーワードを見聞きする機会が増えてきたので、僕のこれまでの経験に基づいてちろっと書いてみます。

Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選

追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケー…

「n日間移動平均」+「±2σ境界線」をExcelでプロットしてお手軽にKPIの異常値をチェックする(厳密ではないけど)

僕の得意分野は計量時系列分析(Econometric time series analysis)なんですが、実際にソーシャルwebサービス企業でデータ分析に取り組む上ではそんなに細かいことやる必要はない、というかそこまで正確な分析をする前に実務上色々やるべきことがある、という…

「真の割合の95%信頼区間」をブートストラップ法で推定するRスクリプト

「カイゼンしたらコンバージョン率が○○%→△△%にup!」は分母を無視したら成り立たないかもしれない 上記ブログ記事で話題に取り上げた「真の割合の95%信頼区間」の推定ですが、大したコードじゃないので一つのRスクリプト(関数)にまとめてみました。ソースは…

「データサイエンティスト」イコール「機械学習・データマイニング・統計学の専門家」とは必ずしも限らない

各種メディアを見ていると、いよいよ日本も「データサイエンティスト元年」が来ちゃったんじゃないかと思ってしまうほど、これでもかというくらいデータサイエンティストに関する記事が出まくってる感が半端ない昨今なんですが。

データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる

追記2 2015年末の時点での最新リストはこちらです。 追記 この記事の5カ月後にもう少し更新した内容の「お薦め本リスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 六本木で働…

「カイゼンしたらコンバージョン率が○○%→△△%にup!」は分母を無視したら成り立たないかもしれない

大体どこの会社でも、KPIというと「△△数(実測数)」「○○率」のような数字が多いのではないかと思います。 そのようなKPIを特定のコンバージョン(課金・契約・定着…)と関連づけて、例えばプロモーション・UI改修・導線変更などの改善施策の効果を検証する…

見せかけの回帰について(そして単位根過程・共和分など)

(※今回は相当に難解な内容になっちゃったかもしれません) 先日はてブを沢山集めた記事で「平均への回帰」「見せかけの回帰」「共和分」について紹介したんですが、こちらのブログで言及を頂いたようです。 はっきり言って僕が書くよりも大変丁寧な説明をさ…

「毎日の数字を追いかけ、毎日改善する」ことの意外な落とし穴

(※今回の記事の内容はかなり難解かもです) 大竹文雄の経済脳を鍛える(2月13日分記事) 幾何ブラウン運動と見せかけの回帰 - My Life as a Mock Quant 得てして多くの企業では、「毎日の数字(売上高・利益・在庫etc.)を追いかけ」、「その結果を元手に毎…

データマイニングとはどんなもので、それで何ができるのか?(主にビジネス系の方々向け)

そもそもデータマイニングって何ですか データマイニング - Wikipedia Data mining - Wikipedia 実は僕もITデータサイエンス業界向けの就活始めるまで、「でーたまいにんぐ」という単語というか言葉自体を知りませんでした*1。笑 なので、正直言って未だに僕…