渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

2013-01-01から1年間の記事一覧

データサイエンティストを目指す就活生の皆さんに役立つかもしれない記事まとめ

(※記事の内容的に随時アップデートが入る可能性があります) そろそろ新卒の就活戦線が始まる季節になってきましたねー*1。昨今は若い学生さんでもデータサイエンティストという職種に興味のある人も多いようで、僕も前職では何度かデータサイエンティスト志…

「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ

先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。 …

今さら人に聞けない「重回帰分析の各手法の使い分け」

(※※※続編記事書きました→「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ) 今ちょうどadtech tokyo 2013の会期中で、職場からも近い&会社から行ってこいという指示が出たということで僕も色々セッション…

ここ最近の博士人材の動向を見ながら感じていること

ここ最近、データ分析業界では有名な博士人材の方々が相次いでアカデミア(学術界)から離れる事態になっているようで。また、それに輪をかけるかのようにキツいオチのついたブログ記事も人気を集めている模様で。 大学院をやめました|Colorless Green Idea…

ディスプレイ広告のクリック数改善のためのデザイン最適化に、ポアソン分布 / 負の二項分布によるGLMを使ってみる

これはディスプレイ広告に限った話ではないと思うんですが、あるPC / スマホ上の何かしらのクリエイティブに対するクリック数がそのデザインの良し悪しによって左右されるということは、web業界ではよく知られているかと思います。 そういう場合「どんなデザ…

『データサイエンティスト完全ガイド』を読んでもデータサイエンティストのことは分からない

何かすっかりRと計量時系列分析の話と書評とデータサイエンティスト論以外何も書かないブログになりつつある昨今ですが(笑)、たまたま職場の図書コーナーに置いてあるのを見つけたので懲りずにまた書評を書いてみようと思います。このムック本です。 デー…

Rで機械学習するならチューニングもグリッドサーチ関数orオプションでお手軽に

ちょっと調べてみたらタイトルの件について言及してる記事があまり多くなかったので、ざっくり書いてみます。なお、この記事はid:shakezoさんの 実務でRandomForestを使ったときに聞かれたこと へのオマージュです。というか、実は僕もこの記事を読んでから…

第33回TokyoRでトークしてきました

前々から参加してみたいと思っていたTokyoRですが、ついに昨日の第33回に参加してきました。ちなみに初登壇のおまけつき。 Rで計量時系列分析~CRANパッケージ総ざらい~ from Takashi J Ozaki 正直言って詰め込み過ぎた感ありありなんですが、Rで計量時系列…

第15回Webマーケティングリレーセミナーでお話してきました

Catchball 21様主催の第15回Webマーケティング・リレーセミナーでお話してきました。既にslideshareにスライドをupしてあります。 最新業界事情から見るデータサイエンティストの「実像」 from Takashi J Ozaki 内容としては5月の講演会の時と大体同じですが…

ポジショントークかもしれないし、ちゃんとしたデータもないけど、「今後数年間のデータサイエンティストの雇用情勢」を根拠なく書いてみる

先日の記事で散々「世の中のデータサイエンティスト論はことごとくポジショントークだ!」と煽っておいて何ですが。。。(笑) 色々なメディアを見ていて、あまり現実のデータサイエンティスト人材の雇用情勢って語られないものだなぁと思ったので、ひとまず…

Googleトレンドに見る「データ分析関連キーワード」の栄枯盛衰

最近Googleトレンドを用いて"Statisticians died, as data scientists rise"みたいなひどいことを言っている記事をAnalytic Bridgeで見かけたので、同じようなことを日本語でもやってみようと思ったのでした。 The death of the statistician これに倣っても…

何も考えずに線形回帰すると怖いので、計量時系列分析でダメ押ししてみる

何気なく読んでいて、途中で「?」と思った記事がありました。 ITエンジニアのためのデータサイエンティスト養成講座(5):「ビールと紙おむつ」のような相関関係を探る分析手法にはどんなものがある?――データ分析方法についての検討 (1/5) 何をやっている…

さらば「ポジショントークとしてのデータサイエンティスト論」

我らがVapnikマン氏(@sla)が「データサイエンティストの○○」シリーズ完結編をslideshareにupされてました。 さらば!データサイエンティスト Vapnikマン氏の筆致もあっていつも通り大変面白く読ませていただいたんですが、このスライドへの反響を見ていて「…

Rで計量時系列分析:状態変化を伴うモデル(閾値モデル、平滑推移モデル、マルコフ転換モデル)

前回の記事までは多変量時系列モデルとしてのVARモデルを扱ってきました。今回は一旦このシリーズの最終回ということで、元の単変量時系列モデルに戻って「状態変化を伴うモデル」を扱ってみようと思います。 ということでもはや毎回恒例になってますが、使…

『データサイエンティスト養成読本』はゼロからデータサイエンティストを目指す人なら絶対に読むべき一冊

執筆陣12人中8人が直接の知人友人というこの新刊書でございますが。 データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)作者: 佐藤洋行,原田博植,下田倫大,大成弘子,奥野晃裕,中川帝人,…

Rで計量時系列分析:単位根過程、見せかけの回帰、共和分、ベクトル誤差修正モデル

前回の記事ではVARモデルに基づく様々な計量時系列分析手法を取り上げました。今回はいよいよ現実世界の時系列データを扱う上では避けて通れない、単位根過程とそれにまつわる様々な問題とその解決策について触れてみようと思います。 ということでもはや毎…

なぜ項目ごとに単純な集計をするより、多変量解析(重回帰分析)をした方が正確な結果を返すのか

ちょっと前の記事(単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース)に裏先生からツッコミを頂き、慌てて学部1年生の頃の教科書を開いて復習しまして。。。いやー、忘れてることが多過ぎて大変(汗)。知るは一時の恥という…

データサイエンティストは精鋭の6000人しか要らないかもしれない

ちょっと前の話ですが、Vapnikマン氏*1(@sla)の超絶素晴らしいインタビュー記事が出てました。 データサイエンティストが要らなくなる日が来るかもしれない しかも、あの「ネガティブにデータサイエンティストな日記」のid:dscaさんが、Vapnikマン氏のインタ…

単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース

一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶ…

「アカデミアの博士がデータサイエンティストに生まれ変わって企業に転身するための5つの秘訣」(海外記事紹介)

こんな大変面白い記事が紹介されているのを見かけました。 From PhD to Data Scientist:5 tips for Making the Transition そもそもこのサイト自体が「6週間でポスドクをデータサイエンティストに生まれ変わらせる」*1プログラムの公式サイトのようです。日…

データサイエンティストは「アルゴリズム実装系」と「アドホック分析系」とに分けた方が良いかも

最近色々なデータ分析の現場の方々と意見交換したり一緒に飲んだりするようになり、ますます現場ごとの仕事のやり方の違いや雰囲気の違い、はたまた価値観の違いといったことについてそこそこ深く知るようになってきました。 おかげさまで、今の僕の立ち位置…

Rで計量時系列分析:VARモデルから個々の時系列データ間の因果関係を推定する

前回の記事ではVARモデルの基礎までを取り上げました。ということで、今回はVARモデルに基づいて異なる時系列同士の因果関係を推定する3つの手法について取り上げてみようと思います。 ということで毎回毎回しつこいですが、使用テキストはいつもの沖本本で…

データサイエンティストの要件は「資格」ではなく「人材(像)」本位であるべき

ちょっとした話題になってたこの記事、実は結構前の公開だったと気付いて焦ってます(汗)。 データサイエンティストの資格が必要ない理由2つ (改) 密かに愛読しているid:dscaさんのブログの最新記事が、ものすごーーーーーく示唆に富んでいて非常に面白か…

Rで計量時系列分析:VARモデルの基礎(多変量時系列モデル)

前回の記事では単変量の時系列までを扱いました。今回は多変量(ベクトル)時系列を記述するVARモデルとその周辺のポイントを取り上げます。 ということでしつこいですが、使用テキストはいつもの沖本本です。 経済・ファイナンスデータの計量時系列分析 (統…

Web系サービス運営でKPIを決める時に気を付けるべき3つのポイント

そろそろ新職場にも慣れてきましたよ、ということでちょっと与太話でも。少し前のTokyoWebminingでも話題になっていた、「KPIの決め方」についてです。 ところで、現場によってはKPIが何故か売上高とか営業利益とか「目標そのもの」になってしまっているケー…

社団法人データサイエンティスト協会、ついに発足

昨年来僕も準備会に名前を加えていただいていたデータサイエンティスト協会ですが、本日ついに発足したとのこと。 一般社団法人データサイエンティスト協会発足について - 一般社団法人データサイエンティスト協会 ビッグデータ分析 人材育成へ - NHK News W…

ネタとして秀逸どころか実際に大いに使える『データサイエンティスト レベル表』(記事紹介)

はてなIDコールから突然Twitterにリプが飛んできたので、何かと思ったら以下の@shakezo_さんの記事で言及されていたのでした。 データサイエンティスト レベル表 - shakezoの日記 これがですねぇ、もうこれ以上ないくらい大変面白かった!ので是非とも紹介さ…

Rで計量時系列分析:AR, MA, ARMA, ARIMAモデル, 予測

前回の記事では計量時系列分析とは何ぞや?みたいなところをやりましたので、今回はいろはのイともいえるARIMAまわりから始めていこうと思います。 ということで改めて、使用テキストはいつものこちらです。 経済・ファイナンスデータの計量時系列分析 (統計…

「データサイエンティスト」「ビッグデータ」狂想曲の裏で何が進んでいるのか

ついに「データサイエンティスト」「ビッグデータ」の語が、お茶の間にやってくる日が来たようです。 数字のカラクリ・データの真実 ~統計学ブームのヒミツ~ - NHKクローズアップ現代 ノイズとシグナルの狭間で - スタッフの部屋 ワールドビジネスサテライ…

「数式が苦手でも統計やりたいのでRで試す」は現実問題としてはアリだと思う

むしろ数式が苦手だけど統計を勉強したいという人はRをやるといいかもしれない - Line 1: Error: Invalid Blog('by Esehara' ) ものすごくブコメを集めてるので、読んでみました。で、結論から言うと「四の五の言う人はいるかもしれないけどデータ分析の世界…