渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

2013-09-01から1ヶ月間の記事一覧

『とある弁当屋の統計技師(データサイエンティスト)』はむしろマンガにした方が良かったかも

先日Amazonから届いて読了したので、Twitterでも公言していた通り書評をやってみようと思います。RMeCabやその他R関連書籍多数でお世話になっている方も多いであろう、石田基広先生の新刊書です。 とある弁当屋の統計技師(データサイエンティスト) ―データ分…

データサイエンティストを目指す就活生の皆さんに役立つかもしれない記事まとめ

(※記事の内容的に随時アップデートが入る可能性があります) そろそろ新卒の就活戦線が始まる季節になってきましたねー*1。昨今は若い学生さんでもデータサイエンティストという職種に興味のある人も多いようで、僕も前職では何度かデータサイエンティスト志…

「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ

先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。 …

今さら人に聞けない「重回帰分析の各手法の使い分け」

(※※※続編記事書きました→「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ) 今ちょうどadtech tokyo 2013の会期中で、職場からも近い&会社から行ってこいという指示が出たということで僕も色々セッション…

ここ最近の博士人材の動向を見ながら感じていること

ここ最近、データ分析業界では有名な博士人材の方々が相次いでアカデミア(学術界)から離れる事態になっているようで。また、それに輪をかけるかのようにキツいオチのついたブログ記事も人気を集めている模様で。 大学院をやめました|Colorless Green Idea…

ディスプレイ広告のクリック数改善のためのデザイン最適化に、ポアソン分布 / 負の二項分布によるGLMを使ってみる

これはディスプレイ広告に限った話ではないと思うんですが、あるPC / スマホ上の何かしらのクリエイティブに対するクリック数がそのデザインの良し悪しによって左右されるということは、web業界ではよく知られているかと思います。 そういう場合「どんなデザ…

『データサイエンティスト完全ガイド』を読んでもデータサイエンティストのことは分からない

何かすっかりRと計量時系列分析の話と書評とデータサイエンティスト論以外何も書かないブログになりつつある昨今ですが(笑)、たまたま職場の図書コーナーに置いてあるのを見つけたので懲りずにまた書評を書いてみようと思います。このムック本です。 デー…

Rで機械学習するならチューニングもグリッドサーチ関数orオプションでお手軽に

ちょっと調べてみたらタイトルの件について言及してる記事があまり多くなかったので、ざっくり書いてみます。なお、この記事はid:shakezoさんの 実務でRandomForestを使ったときに聞かれたこと へのオマージュです。というか、実は僕もこの記事を読んでから…

第33回TokyoRでトークしてきました

前々から参加してみたいと思っていたTokyoRですが、ついに昨日の第33回に参加してきました。ちなみに初登壇のおまけつき。 Rで計量時系列分析~CRANパッケージ総ざらい~ from Takashi J Ozaki 正直言って詰め込み過ぎた感ありありなんですが、Rで計量時系列…