渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

2014-01-01から1年間の記事一覧

レバテックタイムの12/24付対談記事で話し切れなかったこと

データサイエンティストが生き残るために必要なのは「本質を見抜く力」|小川卓氏x尾崎隆氏対談 レバテックタイムさんのお招きで、そして正確にはこちらの記事で田宮直人さん(id:naototamiya)から誘われまして(笑)、こんな対談を先日小川卓さん(id:ryuka0…

2014年を振り返る:Stan, KDD, RでDeep Learning, 初の自著出版, そしてデータ分析業界のあれこれ

魂の限界まで前処理をし続けている間にもう年の瀬が来ちゃいました。。。ということで、昨年末同様に今年もざっくり振り返ってみようかと思います。 柔軟な統計モデリングを目指してStan導入しました BUGS/Stan - 銀座で働くData Scientistのブログ これは1…

h2o.deeplearningでクリスマスツリー(のようなもの)を描く

R Advent Calendar 2014 (ATND)のクリスマス・イヴ担当ということで、クリスマスツリーを描いてみます。 R Advent Calendar 2014 : ATND まずは去年もやったSVMで、ついでにちょっとだけホワイト・クリスマス感を出してみた感じで。クリスマスツリーのデータ…

Rによる最適化計画(1):とりあえずCRAN Task Viewを見て、{linprog}パッケージのsolveLP関数とoptim関数を触ってみる

時々最適化計画をやってくれみたいな依頼をもらうことがあるんですが、普通の線形計画法って普通にやると実はwinner-take-allみたいなことになって、結局ヒトが介在しなきゃダメみたいなことになるんですよね。なーんて愚痴りながらググってたらこんなPDFを…

"Understanding Dropout" (Baldi, NIPS 2013) メモランダム

ちょっと今週は忙し過ぎて新しいことに取り組んでいる時間が1秒たりとも見つからないので、少し前にやった例の弊社分析チーム論文輪読会のネタをそのまま転載しておきますorz 元ネタはこちら。 Understanding Dropout ちなみに式を丸写しするのは面倒だった…

Stanで統計モデリングを学ぶ(7): 時系列の「トレンド」を目視ではなくきちんと統計的に推定する

何かこのシリーズめちゃくちゃ久しぶりなんですが(汗)、ちょっと最近問題意識を抱いている話題があるのでそれに関連した形でStanでやってみようと思います。 それは時系列の「トレンド」の扱い。ビジネスの現場では、時系列を意識しなくても良い*1クロスセ…

パッケージユーザーのための機械学習(11):番外編 - AdaBoost

このシリーズ記事、教師なし学習をあらかたやったので*1もういいかなと思ってたんですが、ひょんなことから取り上げ忘れてたものがあったなぁと思い出したのでサクッとやってみようと思います。 忘れていたのはAdaBoost。普段はほとんど使わないブースティン…

Rでベイジアン動的線形モデルを学ぶ(4):季節要素のあるローカルレベル・モデル

色々と興味が発散していて違う話題ばかりしてますが、これもまだ全然終わってないので粛々と進めようと思います。ということで今回は季節調整のお話。Commandeur本の進行に合わせて、季節調整ありただしトレンドなしというモデルでいきます。もちろんテキス…

H2OのRパッケージ{h2o}でお手軽にDeep Learningを実践してみる(3):MNISTデータの分類結果を他の分類器と比較する

さて、折角Deep Learningなんて使うんだったらもうちょっと面白いデータでやってみようよ!ということで、多次元データの代表たるMNIST手書き文字データ*1を使って試してみようかと思います。 で、MNISTデータなんですが真面目に取ってこようとするとえらく…

H2OのRパッケージ{h2o}でお手軽にDeep Learningを実践してみる(2):学習データとパラメータを変えて試す

うっかりこのシリーズでJapan.Rで喋ることに決めてしまったせいで関係各方面からのプレッシャーを感じつつある今日この頃ですが。 Japan.R 2014 : ATND ともあれ一度乗ってしまった舟なので、このままだらだら{h2o}でDeep Learningというお題でちょっとシリ…

杜氏のいない蔵元が示した「データ分析さえすれば職人の技を職人抜きでも再現できる」という事実の凄み(追記あり)

先日、とあるコンサルの社長さんとお酒を飲みながらお話していて出てきた話題が「畢竟データ分析って何の役に立つんだろう?」というものだったんですが、そこで僕が思い出して紹介したのが「獺祭」で世界進出を成功させている旭酒造のエピソードだったので…

H2OのRパッケージ{h2o}でお手軽にDeep Learningを実践してみる(1):まずは決定境界を描く

我らが自称ゆるふわ*1ガチ勢代表@motivic_氏がこんな記事をupしてました。 Deep Learningの性能を見てみよう ~Iris編~ ということで、こんなに簡単にDeep LearningをR上で試せるんだったらついでに僕もやってみようと思ったのでした。ただし同じirisでやる…

Rで不均衡データをクラス分類する方法まとめ:SVM、ランダムフォレスト、ロジスティック回帰の場合

追記(2018年4月) 2017年4月にアップデート記事を出しておりますので、そちらもご覧ください。 以前の記事でSVM(しかもsvm{e1071}に限って)で不均衡データをクラス分類する方法について取り上げましたが、色々調べた結果その他のRの分類器でもやれるとい…

Rでベイジアン動的線形モデルを学ぶ(3):ローカル線形トレンドモデル

相変わらずグダグダな上に挙句の果てに既にRでやっちゃった例をまとめたPDF bookまであると判明してモチベーションだだ下がりなんですが、備忘録も兼ねてめげずに続けます。もちろんテキストは相変わらずこちらの2冊。 状態空間時系列分析入門作者: J.J.F.コ…

不均衡データをSVMでクラス分類するにはどうすれば良いか

今年のKDD cupが絵に描いたような不均衡データ(正例と負例との数的比率が極端に偏っているデータ)で苦労させられたので、ちょっと調べたら色々と良い方法があるなぁと気が付きましたよということで備忘録的に紹介しておきます。 ちなみにググったら普通に@…

チーム内Journal ClubでKDD2014から1報選んで紹介してきました

と言っても大した話ではないです。以下がそのスライド。 Jc 20141003 tjo from Takashi J Ozaki とりあえず読んでみた印象から言うと、「おいおいこんなんでKDD通るのかよ!」という。でも確かに言われてみれば、そもそもuser return timeみたいな概念って普…

Rでベイジアン動的線形モデルを学ぶ(2.5):最尤法でパラメータ推定してみる

前回サクッとローカルレベル・モデルを推定してみたわけですが、そう言えばパラメータ推定は何もしなかったのでした。既に線形モデルも一般化線形モデルもこのブログで見てきている以上最小二乗法や最尤法やMCMCでパラメータ推定するというのは常識なわけで…

Rでベイジアン動的線形モデルを学ぶ(2):まずは状態空間のコンセプトと基本のローカルレベル・モデルから

前回からだいぶ間が空いた上に、要は{dlm}パッケージで遊ぼう!という大袈裟なタイトルの割に中身のないこのシリーズ記事ですが(笑)、取るものもとりあえずちょっと例題をやってみようと思います。参考文献はまずこちらのPetris本。 Rによるベイジアン動的…

Googleがリリースした「キャンペーンとKPIとの因果関係を推定する」Rパッケージ{CausalImpact}を試してみた

何気なくR-Bloggerのタイムラインを見ていたら、"CausalImpact: A new open-source package for estimating causal effects in time series | Google Open Source Blog"という記事がシェアされていたので見に行ってみたのでした。これはもう読んで字の如く「…

KDD2014に行ってきました

KDD 2014, 8/24-27, New York: Data Mining for Social Good ということで報告が遅くなりましたが、行って参りましたKDD2014 in NYC。かつてアメリカ横断ウルトラクイズで福留さんの「ニューヨークへ、行きたいかーーー!!!」を毎年TVで見ていた世代*1とし…

シリーズUseful R『戦略的データマイニング』『金融データ解析の基礎』ご恵贈いただきました

戦略的データマイニング (シリーズ Useful R 4)作者: 里洋平,金明哲出版社/メーカー: 共立出版発売日: 2014/08/23メディア: 単行本この商品を含むブログを見る金融データ解析の基礎 (シリーズ Useful R 8)作者: 高柳慎一,井口亮,水木栄,金明哲出版社/メーカ…

【PR】「学生データサイエンティスト日本一決定戦 Data League」開催しております

ニューヨークから帰朝していきなり何ですが、弊グループのリクルートキャリアが提供するサービス「キャリフル」とデータスタジアム株式会社様共催のデータ分析コンペ、「学生データサイエンティスト日本一決定戦 Data League」が8月20日から開催されておりま…

KDD2014に来てます

KDD 2014, 8/24-27, New York: Data Mining for Social Good ということで、現在2日目のPaper Spotlightsの最中です。ポスターが1日目の夜しかないのが残念ですが、その分talk sessionでしっかり聞けというところですかね。ちなみに僕はKDD初参加なので知り…

『手を動かしながら学ぶ ビジネスに活かすデータマイニング』(技術評論社)を書くに当たって気を付けたこと&補足など(追記あり)

追記(2015/03/14) 第7章の決定木のところで取り上げた{mvpart}パッケージのサポートが切れ、CRANから削除されてしまったためinstall.packages関数ではインストールできなくなっています。現在のインストール方法を最後に追記しました。 追記(2014/09/18) 実…

相変わらず海の向こうのData ScientistたちはPh.D.が多いらしい

お盆休みということで僕も今週はずっとお休みなのですが、こんな記事がWSJから出ていたと知りました。 ビッグデータ活用に向け需要増す「データサイエンティスト」 - WSJ 以前HBRのDavenport論説についてコメントしたかと思いますが、あれから2年経ってどう…

今月下旬に『手を動かしながら学ぶ ビジネスに活かすデータマイニング』(技術評論社)という本を出します

本日、出版元の技術評論社(gihyo)様の公式サイトでオープンになりました。 手を動かしながら学ぶ ビジネスに活かすデータマイニング:書籍案内|技術評論社 そして書影はまだ反映されていないようですが、Amazonでも予約受付が始まった模様です*1。 手を動か…

パッケージユーザーのための機械学習(10):Affinity Propagation

だいぶ前回から間が空いてしまいましたが、ついに10回目になったこのシリーズ記事。。。多分クラスタリングだとこれが最後になるんじゃないでしょうか。以前話題に出ていたAffinity Propagationをやってみようと思います。 なのですが。今回も文献資料は見つ…

Rでベイジアン動的線形モデルを学ぶ(1):なぜ「動的」モデルなのか

ちょっとStan一辺倒でやってるのも随分効率が悪いなぁと思い始めてきたところに、大仏のオッサンがこんなナイスな記事をupしていたのに今頃気付いたのでした(オッサン気付くの遅くてごめん)。 逐次モンテカルロ/(粒子|パーティクル|モンテカルロ)フィルタ…

ハッカーズチャンプルー2014に参加してきました

7/11(金)-13(日)にかけて、沖縄で開催されたハッカーズチャンプルー2014にゲストスピーカーとして参加してきました。弊社の公式エンジニアブログにも同様の内容で記事を書くことになっているので、こちらでは個人的なお話を。 Hackers Champloo これは沖…

施策の「レイヤー」とその規模に合わせて、データ分析の方向性を決める

これまで色々なデータ分析案件を自ら持ち(持たされ)、また色々な他所の現場のデータ分析の実態を聞いてきたわけですが、意外と未だに統一された共通認識が形成されてないのかなぁと思うのが「施策レイヤー&規模とデータ分析の方向性とのベストマッチ」。…