渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

統計学

「真の割合の95%信頼区間」をブートストラップ法で推定するRスクリプト

「カイゼンしたらコンバージョン率が○○%→△△%にup!」は分母を無視したら成り立たないかもしれない 上記ブログ記事で話題に取り上げた「真の割合の95%信頼区間」の推定ですが、大したコードじゃないので一つのRスクリプト(関数)にまとめてみました。ソースは…

「データサイエンティスト」イコール「機械学習・データマイニング・統計学の専門家」とは必ずしも限らない

各種メディアを見ていると、いよいよ日本も「データサイエンティスト元年」が来ちゃったんじゃないかと思ってしまうほど、これでもかというくらいデータサイエンティストに関する記事が出まくってる感が半端ない昨今なんですが。

データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる

追記2 2015年末の時点での最新リストはこちらです。 追記 この記事の5カ月後にもう少し更新した内容の「お薦め本リスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 六本木で働…

「カイゼンしたらコンバージョン率が○○%→△△%にup!」は分母を無視したら成り立たないかもしれない

大体どこの会社でも、KPIというと「△△数(実測数)」「○○率」のような数字が多いのではないかと思います。 そのようなKPIを特定のコンバージョン(課金・契約・定着…)と関連づけて、例えばプロモーション・UI改修・導線変更などの改善施策の効果を検証する…

見せかけの回帰について(そして単位根過程・共和分など)

(※今回は相当に難解な内容になっちゃったかもしれません) 先日はてブを沢山集めた記事で「平均への回帰」「見せかけの回帰」「共和分」について紹介したんですが、こちらのブログで言及を頂いたようです。 はっきり言って僕が書くよりも大変丁寧な説明をさ…

「毎日の数字を追いかけ、毎日改善する」ことの意外な落とし穴

(※今回の記事の内容はかなり難解かもです) 大竹文雄の経済脳を鍛える(2月13日分記事) 幾何ブラウン運動と見せかけの回帰 - My Life as a Mock Quant 得てして多くの企業では、「毎日の数字(売上高・利益・在庫etc.)を追いかけ」、「その結果を元手に毎…

データマイニングとはどんなもので、それで何ができるのか?(主にビジネス系の方々向け)

そもそもデータマイニングって何ですか データマイニング - Wikipedia Data mining - Wikipedia 実は僕もITデータサイエンス業界向けの就活始めるまで、「でーたまいにんぐ」という単語というか言葉自体を知りませんでした*1。笑 なので、正直言って未だに僕…