渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

2013-01-01から1年間の記事一覧

Rで計量時系列分析:はじめに覚えておきたいこと

機械学習は全然専門ではない僕が知ったかぶりをするのも何なので*1、もっともっと以前からそこそこやっている*2計量時系列分析の話でもしてお茶を濁してみることにします(笑)。 *1:新職場には正真正銘の機械学習の研究者から転じた先任のQuantitative Engi…

銀座で働き始めました

ということで、ブログのタイトルも変えまして(笑)銀座で働き始めました。 のっけから健康診断に回されて、すわバリウム飲むのかと顔を青くしたもののバリウムを飲む必要はなくてホッとし、終わった後はもう一人の7月入社の人を築地市場に案内しつつ*1、場…

ブログのタイトルを変えました

とりあえず、道玄坂から銀座に変えました(笑)。 ということで、これからも引き続きよろしくお願いします。

サイバーエージェントを退職しました

私事ですが、本日をもって株式会社サイバーエージェントを退職しました。 正式には6月30日が退職日なのですが、本日が最終出社日*1なのでサイバーの同僚の皆さんと(同僚として)お会いするのはこれで最後です。 *1:残年休消化&バカンスのため

サンプルサイズを決めるための複雑な計算をExcelでやってのける(資料紹介)

前回の記事で、Rパッケージ{pwr}によるサンプルサイズの決め方を紹介したわけですが。 サンプルサイズの決め方 (統計ライブラリー)作者: 永田靖出版社/メーカー: 朝倉書店発売日: 2003/09/01メディア: 単行本購入: 20人 クリック: 277回この商品を含むブログ…

サンプリング時の最適なサンプルサイズをRパッケージ{pwr}で求める

最近、「ビッグデータ」というバズワードに対するアンチテーゼとして叫ばれるようになってきたのが、 「統計学ってのは限られたサンプル(抽出)データから、まだ見ぬ全体像を知るためのもの」「だからビッグデータなんて苦労して集める必要はない、サンプリ…

マルコフ状態転換モデルのRパッケージ{MSwM}の使い方(異常値検出・ステータス変化検出などに有用)

CRANパッケージ{MSwM}の大体の使い方が分かったので簡単に共有します。 なお、しつこいようですがマルコフ状態転換モデルについてはこのブログではすっかりお馴染みの以下のテキストをご参照のこと*1。僕もまだ勉強中です。 経済・ファイナンスデータの計量…

意外と見極めにくい「CVR向上に最も貢献する行動パターン」

割とどこの現場でもやっている分析として「CVR向上に最も貢献する行動パターン」の同定・抽出というのがあると思うんですが、これって簡単なようで意外と難しいポイントがゴロゴロしてるんですよね。 例えばユーザー行動ログDBからソシャゲのイベントA, B, C…

「施策を打ったらKPIが上がった!」だけで満足するのは危険

ソーシャル(特にソシャゲ)界隈の業界では未だによく聞こえてくる話が、 「毎日毎週施策を打つたびにしっかりKPIが上がってるのは見えてるのに、半年後とかの数字見るとなーんか芳しくないんだよね。何でだろう?」 という不思議な愚痴。このブログを初期の…

改善施策の効果検証はどうやるべきか?

最近「効果検証」というキーワードを見聞きする機会が増えてきたので、僕のこれまでの経験に基づいてちろっと書いてみます。

Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選

追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケー…

データを「科学」しないならデータ「サイエンティスト」でなくても良いのでは?

「データ分析に対する3つの勘違い」も紹介。「大量のデータや高度な統計分析に価値を置く」「分析力だけでビジネスを変えようとする」「KKD(勘と経験と度胸)を軽視する」ことに対しては、警鐘を鳴らした。そうではなく、データ分析に携わる人は「ビジネス…

データサイエンティストを「口説ける」か?

私は、数学や計量経済学をやってきたような地頭のいい人材に、是非我々のマーケティングコミュニケーションの世界に入ってきて欲しいと思っている。こうしたことが出来る頭脳は、従来の広告屋を鍛えてどうにかなるレベルではなく、「データ取扱い者免許」み…

「n日間移動平均」+「±2σ境界線」をExcelでプロットしてお手軽にKPIの異常値をチェックする(厳密ではないけど)

僕の得意分野は計量時系列分析(Econometric time series analysis)なんですが、実際にソーシャルwebサービス企業でデータ分析に取り組む上ではそんなに細かいことやる必要はない、というかそこまで正確な分析をする前に実務上色々やるべきことがある、という…

「データサイエンティスト」と一括りにせず、Quantitative Analyst / Engineer / Researcherの3カテゴリに分けよう

この話題もだいぶ長引いてきましたが、そろそろこの辺で「決定版」ということにしたいと思います。 実はTwitterでも色々議論した話なんですが、やはり「データサイエンティスト」(Data Scientist)という語は曖昧過ぎて、色々混乱は生むし、あまつさえバズワ…

「真の割合の95%信頼区間」をブートストラップ法で推定するRスクリプト

「カイゼンしたらコンバージョン率が○○%→△△%にup!」は分母を無視したら成り立たないかもしれない 上記ブログ記事で話題に取り上げた「真の割合の95%信頼区間」の推定ですが、大したコードじゃないので一つのRスクリプト(関数)にまとめてみました。ソースは…

「第4回サイバーエージェントMarketing & Analytics勉強会」でお話してきました

少し前の話ですが、第4回サイバーエージェントMarketing & Analytics勉強会の講演者としてお話してきました。おかげさまで当日は大盛況! お越しになられた皆様、まことに有難うございました。以下slideshare。

ビジネスにおける「ビッグデータ」「データサイエンス」は要するに「データドリブン」なのでは、というお話

データドリブン - いまんとこの最適解 ビッグデータといったときに、広義・狭義の定義とは別に「大量のデータを扱う」ということと、「データドリブン(僕はデータに基づいて意思決定、アクションを廻していくという理解です)」が混在しているように思う訳…

似非データサイエンスと似非データサイエンティストを斬る(海外記事紹介)

Fake data science (by Vincent Granville) - AnalyticBridge ちょっと前の記事で恐縮なんですが、物凄く面白いネタを見つけたので紹介します。Forbes本誌が選ぶ「最も影響あるビッグデータ専門家トップ20人」にもリストされている、Ph.D. Data ScientistのV…

「データサイエンティスト」イコール「機械学習・データマイニング・統計学の専門家」とは必ずしも限らない

各種メディアを見ていると、いよいよ日本も「データサイエンティスト元年」が来ちゃったんじゃないかと思ってしまうほど、これでもかというくらいデータサイエンティストに関する記事が出まくってる感が半端ない昨今なんですが。

「データ分析」「A/Bテスト」病は、「目の前のデータばかり追いかけて局所最適にハマる」のとほぼ同義

昨今のwebディレクターは「データ分析」「A/Bテスト」病にかかってしまい、考え方のスケールが小さくなっているのではないか。 大変面白いブログ記事を拝読しました。うん、まさにこの通りだと僕も思います。笑 本当に、こういう記事を待ってました!という…

データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる

追記2 2015年末の時点での最新リストはこちらです。 追記 この記事の5カ月後にもう少し更新した内容の「お薦め本リスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 六本木で働…

単純パーセプトロンをPythonで組んでみる

いきなり自分でハードル上げてみました(笑)。ちなみに何故単純パーセプトロンを最初に持ってきたのか?というと、id:echizen_tmさんのブログ記事でも触れておられる通り 機械学習には大きく分けて「識別関数」「識別モデル」「生成モデル」の3つの種類があ…

「機械学習とは何ぞや」をゆるーく説明してみる

追記(2017年7月12日)こちらの記事がGoogle検索結果でかなり上位に来ているようですが、投稿から既に4年以上が経過しており内容としては非常に古いものになっております。よろしければ「機械学習」カテゴリの比較的新しい記事もご参照ください。tjo.hatenab…

「カイゼンしたらコンバージョン率が○○%→△△%にup!」は分母を無視したら成り立たないかもしれない

大体どこの会社でも、KPIというと「△△数(実測数)」「○○率」のような数字が多いのではないかと思います。 そのようなKPIを特定のコンバージョン(課金・契約・定着…)と関連づけて、例えばプロモーション・UI改修・導線変更などの改善施策の効果を検証する…

見せかけの回帰について(そして単位根過程・共和分など)

(※今回は相当に難解な内容になっちゃったかもしれません) 先日はてブを沢山集めた記事で「平均への回帰」「見せかけの回帰」「共和分」について紹介したんですが、こちらのブログで言及を頂いたようです。 はっきり言って僕が書くよりも大変丁寧な説明をさ…

ビジネスの現場でデータマイニングに取り組むなら必読の一冊(ただし洋書)

週末ということで、何となく書籍紹介でも。isseing333さんのブログ記事で紹介されていたのを見て、僕も買った本です。

未経験者はどうすればデータサイエンティストになれるか

追記(2017年8月)こちらの記事へのアクセスが未だに多いようですが、書かれてから既に4年が経過しており業界事情もだいぶ様変わりしております。このブログの「データサイエンティスト」カテゴリの他の新しい記事も是非ご覧ください。 以前の記事の続き再び…

「毎日の数字を追いかけ、毎日改善する」ことの意外な落とし穴

(※今回の記事の内容はかなり難解かもです) 大竹文雄の経済脳を鍛える(2月13日分記事) 幾何ブラウン運動と見せかけの回帰 - My Life as a Mock Quant 得てして多くの企業では、「毎日の数字(売上高・利益・在庫etc.)を追いかけ」、「その結果を元手に毎…

どんな人がデータサイエンティストに向いているのか?

以前新卒配属に関連して書いた記事で、「もうちょっとデータサイエンティストの定義とか育て方とか書かなきゃいけないなー」的なことを呟きましたので、何となく適当に書いてみることにします*1。 *1:僕の、インターネット企業でビッグデータ(と俗称される…