渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

2013-05-01から1ヶ月間の記事一覧

データサイエンティストを「口説ける」か?

私は、数学や計量経済学をやってきたような地頭のいい人材に、是非我々のマーケティングコミュニケーションの世界に入ってきて欲しいと思っている。こうしたことが出来る頭脳は、従来の広告屋を鍛えてどうにかなるレベルではなく、「データ取扱い者免許」み…

「n日間移動平均」+「±2σ境界線」をExcelでプロットしてお手軽にKPIの異常値をチェックする(厳密ではないけど)

僕の得意分野は計量時系列分析(Econometric time series analysis)なんですが、実際にソーシャルwebサービス企業でデータ分析に取り組む上ではそんなに細かいことやる必要はない、というかそこまで正確な分析をする前に実務上色々やるべきことがある、という…

「データサイエンティスト」と一括りにせず、Quantitative Analyst / Engineer / Researcherの3カテゴリに分けよう

この話題もだいぶ長引いてきましたが、そろそろこの辺で「決定版」ということにしたいと思います。 実はTwitterでも色々議論した話なんですが、やはり「データサイエンティスト」(Data Scientist)という語は曖昧過ぎて、色々混乱は生むし、あまつさえバズワ…

「真の割合の95%信頼区間」をブートストラップ法で推定するRスクリプト

「カイゼンしたらコンバージョン率が○○%→△△%にup!」は分母を無視したら成り立たないかもしれない 上記ブログ記事で話題に取り上げた「真の割合の95%信頼区間」の推定ですが、大したコードじゃないので一つのRスクリプト(関数)にまとめてみました。ソースは…

「第4回サイバーエージェントMarketing & Analytics勉強会」でお話してきました

少し前の話ですが、第4回サイバーエージェントMarketing & Analytics勉強会の講演者としてお話してきました。おかげさまで当日は大盛況! お越しになられた皆様、まことに有難うございました。以下slideshare。

ビジネスにおける「ビッグデータ」「データサイエンス」は要するに「データドリブン」なのでは、というお話

データドリブン - いまんとこの最適解 ビッグデータといったときに、広義・狭義の定義とは別に「大量のデータを扱う」ということと、「データドリブン(僕はデータに基づいて意思決定、アクションを廻していくという理解です)」が混在しているように思う訳…

似非データサイエンスと似非データサイエンティストを斬る(海外記事紹介)

Fake data science (by Vincent Granville) - AnalyticBridge ちょっと前の記事で恐縮なんですが、物凄く面白いネタを見つけたので紹介します。Forbes本誌が選ぶ「最も影響あるビッグデータ専門家トップ20人」にもリストされている、Ph.D. Data ScientistのV…

「データサイエンティスト」イコール「機械学習・データマイニング・統計学の専門家」とは必ずしも限らない

各種メディアを見ていると、いよいよ日本も「データサイエンティスト元年」が来ちゃったんじゃないかと思ってしまうほど、これでもかというくらいデータサイエンティストに関する記事が出まくってる感が半端ない昨今なんですが。

「データ分析」「A/Bテスト」病は、「目の前のデータばかり追いかけて局所最適にハマる」のとほぼ同義

昨今のwebディレクターは「データ分析」「A/Bテスト」病にかかってしまい、考え方のスケールが小さくなっているのではないか。 大変面白いブログ記事を拝読しました。うん、まさにこの通りだと僕も思います。笑 本当に、こういう記事を待ってました!という…

データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる

追記2 2015年末の時点での最新リストはこちらです。 追記 この記事の5カ月後にもう少し更新した内容の「お薦め本リスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 六本木で働…

単純パーセプトロンをPythonで組んでみる

いきなり自分でハードル上げてみました(笑)。ちなみに何故単純パーセプトロンを最初に持ってきたのか?というと、id:echizen_tmさんのブログ記事でも触れておられる通り 機械学習には大きく分けて「識別関数」「識別モデル」「生成モデル」の3つの種類があ…