六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

香港・マカオに行ってきました

今年は遅い夏休みを9月に2回に分けて取ることにしておりまして、1回目は香港・マカオに行ってきました。実は香港には7年前にも行ったことがあるんですが、今回改めて訪港してみて色々と気付いたこと・ハマったことなどがあったので、今回もその辺の教訓など…

統計的因果推論(2): 傾向スコア(Propensity Score)の初歩をRで実践してみる

さて、統計的因果推論についてだらだらと独習していくこのシリーズですが、今回はDonald Rubinが考案したRubinの因果モデルで用いられる、傾向スコア(Propensity Score)を取り上げてみようと思います。「お前岩波DS3で事前に原稿読んで中身は知っているはず…

{rBayesianOptimization}パッケージによるベイズ最適化で機械学習パラメータチューニングをお手軽に

機械学習のパラメータチューニングというと大なり小なり大変な部分があって、今年のエイプリルフール記事に皆さん引っかかって下さったところを見るにパラメータチューニングを簡単に済ませたい!と願う人々は世の中多いようです(笑)。 少し前のMXnetを使…

統計的因果推論(1): 差分の差分法(Difference-in-Differences)をRで回してみる

世の中様々な介入効果・施策効果を検証するためのexperimentが行なわれていると思うんですが、意外とその効果検証というのは難しいものです。特にいわゆる統計的因果推論の立場から見れば、web上で接触する一般ユーザーに対する介入や施策といったものの検証…

Deep Learningで遊ぶ(2): オンラインニュース人気度+ベイズ最適化によるパラメータチューニング

追記(2016年8月22日) {rBayesianOptimization}の使い方を間違えていて、この記事の下部では実際にはテスト誤差ではなくトレーニング誤差を評価してしまっていますorz 実際にはScore返値にholdoutを入れるのが正解です。別に{rBayesianOptimization}単体で…

興味がない時には沢山見かけるがいざ欲しい時に限って見つからない:日本のデータサイエンティスト&機械学習エンジニアブーム

我らが業界の雄*1、てつろーさんが新たなweb連載記事を始められたようです。このタイトルが、流石は業界経験の長いお方だけあって非常に鋭いところを突いているなと個人的には感じています。で、完全に奇遇ながら実は6月8日に旧知の友人の依頼でプレイベート…

Deep Learningで遊ぶ(1): テニス四大大会データセット(追記あり: 正規化した場合の検証)

MXnet / Kerasが本格的に普及してきたことで、いよいよ「誰でも(割と)気軽にDeep Learningを実践できる」時代になってきましたね、という話を前回の記事では一通りやってみました。ということで、これからしばらく「気軽に実践できるようになったけど実際…

ブログタイトル変えました(2016年6月)

ご覧の通りです(笑)。ご愛読下さっている皆様、今後とも引き続きよろしくお願いいたします。

KerasをTensorFlowバックエンドで試してみた:「もっと多くの人に機械学習とDeep Learningを」という時代の幕開け

(左:Keras、右:MXnet)Kaggle Masterの間ではMXnetよりさらに人気なDeep Learningフレームワークというかラッパーが、@fchollet氏の手によるKeras。 Keras Documentation 結構苦心したのですが、ようやく手元のPython環境で走るようになったので、試して…

機械学習分類器ごとに汎化vs.過学習の様子を可視化してみる

以前12回まで続けた「サンプルデータで試す機械学習シリーズ」ですが*1。あれから色々分類器の手法やその実装もバリエーションが増えてきたということもあり、思い立って今回まとめてやり直してみようと思います。そうそう、12回シリーズの頃から愛用してい…

「人工知能」ブームに乗り遅れた!という方々に捧げる人工知能(機械学習)まとめ記事

(Photo credit: A Health Blog via Visual Hunt / CC BY-SA) 「人工知能」ブームが本格化してまだほんの数ヶ月だと思うんですが、気がついたらTV含む大手メディアが皆こぞって毎日のように「人工知能」を取り上げ、あまつさえ政府や与党の諮問会議でまで「人…

2012年春の転職活動について:研究者→民間企業

(Photo via Visualhunt.com) そう言えば、今度の6月で僕が研究者を辞めて民間企業に転じてからちょうど4年になるのでした。この4年の間に、博士やポスドクから企業に転じる人も増え、あまつさえ助教から企業に転じたり、トップジャーナル・カンファレンスに…

「闇雲にPDCAサイクルを高速に回す」と場合によっては過学習して逆に怖いかもというお話

3年前にこんな話を書いたわけですが、皆さんご記憶でしょうか。 この当時は「平均への回帰」という言葉にその不毛さを託したわけですが、前回の記事に着想を得てもう少し今時っぽく論じることが出来るんじゃないかと思ったので、ちょっと書いてみようかと思…

「そのモデルの精度、高過ぎませんか?」過学習・汎化性能・交差検証のはなし

今年の1月にこんな話題を取り上げたわけですが。この記事の最後にちょろっと書いた通り、実際にはこういう"too good to be true"即ち「そのモデルの精度いくら何でも高過ぎるんじゃないの?」→「実は汎化性能見てませんでした」みたいなケースって、想像より…

PTGH:機械学習パラメータチューニングをDeep LearningとMCMCで高速に最適化するフレームワーク

苦節2年、とうとう完成しました。機械学習のパラメータチューニングに悩める皆さんのために、コーディングも数学も大の苦手な僕が頑張って作りました。それがPTGH (Parameter Tuning by God's Hand)フレームワークです。RでもPythonでも動きます。中身として…

Deep Learningライブラリ{mxnet}のR版でConvolutional Neural Networkをサクッと試してみた(追記3件あり)

For non-native Japanese speakers: English version is below. ちょっと前から色々なところでちらほら名前を聞くなぁと思っていたMXnet。どうやらKagglerの間では急速に人気が高まっているようで、最近になってだいぶバグフィックスが進んだらしいというの…

クラウド機械学習の進歩で「プラモデルのように機械学習システムが作れる」時代が到来しつつある

こんなブログ・プレスリリースが出ていました。TensorFlowベースで実装されたクラウド機械学習アプリケーション、"Cloud Machine Learning"だそうです。以前から既に取り沙汰されていたCloud Vision APIに加えて、Cloud Speech APIさらにはCloud Translate A…

p値を計算したくなる検定の数々を試しにStanによるベイジアンモデリングで代替してみた

この記事は、やたらはてブを稼いでしまった前回の記事の続きです。ASAのプレスリリース及び声明の中には、確かに「p値に依拠しない新たなアプローチの例」として予測値を重視するアプローチ*5、ベイジアンモデリング、決定理論的アプローチ*6およびfalse dis…

「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明

以前から同様の指摘は様々な分野から様々な人々が様々な形で出してきていましたが、アメリカ統計学会が以下のような明示的な声明をこの3月7日(現地時間)に発表したということで注目を集めているようです。AMERICAN STATISTICAL ASSOCIATION RELEASES STATE…

ビジネス実務の現場で有用な統計学・機械学習・データマイニング及びその他のデータ分析手法10+2選(2016年版)

そう言えば3年前にこんなまとめ的エントリを書いたのでした。この内容はそのままかなりの部分が2年前に刊行した拙著の原案にもなったということで、色々思い出深いエントリです。なのですが。・・・この3年の間に統計学・機械学習・データマイニングの諸手法…

カイ二乗検定のメタアナリシスをやってみた(階層ベイズでも試してみた追記あり&タイトル変更済み)

記事タイトルに反して僕は実は統計的検定が大嫌いなんですが、皆さんいかがお過ごしでしょうか(笑)。ということで、今回はややマニアックなメタアナリシスの話題でもしてみようかと思います。「t-testのメタアナリシス」みたいな、いわゆるRosenthal's met…

UCI機械学習リポジトリのデータ(など)で遊ぶ(4):オンラインニュース記事の人気度

正直に白状するとめぼしいお題がなくて記事にするようなものは目下のところ何もないんですが(汗)、最近めっきり多変量データいじらなくなって腕が鈍っている気がしないでもないので、Rの機械学習系のコマンドを打つリハビリ()も兼ねて以前のシリーズの続…

「正答率100%」になってしまう機械学習モデルの例を挙げてみる

何か僕がシンガポールに出張している間に妙なニュースが流れていたようで。 京大ビッグデータ副作用論文。機械学習知らない私でも疑問なのは、@sz_drさんも指摘してるが y'=a1*SCORE+a2*ACT+a3*GeneID+b (1) という式で、GeneIDという定量的に性質を示す値で…

データ分析の「7つの進化のステップ」を今一度おさらいしてみる

2016年最初の記事ということで、もはや1月下旬に差し掛かりつつありますがこちらでは改めて、あけましておめでとうございます&本年もよろしくお願いいたします。 で、新年一発目のお題は。。。実は似たようなお題で過去にも記事を書いていますが(笑)、年…

まがい物のデータサイエンティストは滅びゆく:USのトップ5データサイエンティストたちが語る2016年の展望

(Photo via VisualHunt.com) 僕も会員になってるData Science Central*1に、こんな面白い論説が載っているのを見つけました。 Data science and statistical modeling will be further automated, with better black-box products Frontiers between data sc…

リクルートコミュニケーションズを退職しました

(Photo credit: Team Lane via Visual hunt / CC BY-ND) 私事ですが、本日をもって2年半勤めてきた株式会社リクルートコミュニケーションズ(RCO)を退職しました。また同時にリクルートグループからも離れることになりました*1。正式には12月31日大晦日が退職…

データサイエンティストを目指すというかデータ分析を生業にするなら読んでおきたい初級者向け5冊&中級者向け12冊(2015年冬版)

(Photo via VisualHunt) 追記2017年3月現在の最新書籍リストはこちらです。 最近になってまた色々とデータサイエンティストを目指す人向けのお薦め書籍リストとか資料リストとかが出てきてるんですが、個人的には何かと思うところがあるので僕も適当にまとめ…

"Gradient Boosted Feature Selection" (Xu et al., KDD 2014) メモランダム

本日の輪読会で僕が担当した論文のメモランダムということで、置いときます。 概要 Gradient Boosted Feature Selection (Xu, Huang, Weinberger and Zheng, KDD 2014)タイトルが示すように特徴量選択をやりたいというのが第一のモチベーションで、これをgra…

グラフ・ネットワーク分析で遊ぶ(5):何となくNIPS2015の共著者グラフを描いてみた

先日閉幕したNIPS2015ですが*1、そう言えばサイト上に全論文のタイトル&著者一覧があるなと思い出したのでした。 ということで、これまでの4回のグラフ・ネットワーク分析特集で学んだことをこの著者一覧に応用してみようかと思います。やったことはごくご…

グラフ・ネットワーク分析で遊ぶ(4):コミュニティ検出(クラスタリング)

ネットワーク全体指標はあまりビジネス的に扱うことが多くないので、代わりに今回はコミュニティ検出(要はグラフ構造内でのクラスタリング)について取り上げます。ただし前回まで参考にしていた『ネットワーク分析』はあまりコミュニティ検出についてそこ…