実務の現場においてモデリング（統計学的・機械学習的問わず）を行う上での注意点を挙げてみる

R 統計学機械学習統計的因果推論データ分析マーケティングビジネス

気が付いたら僕がデータ分析業界に身を置くようになってそろそろ5年近くになるんですね*1。この5年間の間に色々勉強したり業界内で見聞してきた経験をもとに、「実務の現場においてモデリングを行う上での注意点」についてだらだらと書いてみようと思います。…

2016-12-12

統計的因果推論(5): Platt's scalingで機械学習分類器による傾向スコアを調整してみる

R 統計学機械学習統計的因果推論

この記事は以下の記事の続きです。機械学習分類器で算出した傾向スコアを調整する話ですが、最後に課題として残ったのがprobability calibrationによる実践。探してみると前回の記事でもやったisotonic regressionとか色々出てくるんですが、もう一つ出てく…

2016-11-30

『コンピューターで「脳」がつくれるか』は人工知能に興味のある人なら知識ゼロからでも読める入門書

書評書籍機械学習

先日Japan.R 2016に大学時代の先輩*1を案内がてら参加したんですが、休憩時間に技術評論社のTさんがご恵贈くださったのがこちらの本。コンピューターで「脳」がつくれるか作者: 五木田和也,青木健太郎出版社/メーカー: 技術評論社発売日: 2016/09/27メディア…

2016-11-24

統計的因果推論(4): 機械学習分類器による傾向スコアを調整してみる

R 機械学習統計学統計的因果推論

この記事は以下の記事の続きです。ご覧の通り、機械学習分類器3種で傾向スコアを算出してみたらおかしな結果になったわけです。この点について、実は後日2点ほどコメントをいただきました。1つはブコメで、統計的因果推論(3): 傾向スコア算出を機械学習に置…

2016-11-08

Deep Learningで遊ぶ(3): LSTM-RNNで夏目漱石っぽい文章の生成にトライしてみる

R 機械学習 DeepLearning実践シリーズ Deep Learning

そう言えばこのシリーズ長らく放置してました（汗）。いよいよこのブログもネタ切れが著しくなってきたので、今更そんな古いネタやるのかよと怒られるのを承知で「単に自分がやってみたかったから」というだけの理由で今更感のあるネタをやることにします。…

2016-10-27

モデル選択とAICとcross validationの関係を大雑把に実験してみる

R 統計学機械学習

Stanの開発者でもある統計学界の重鎮、Andrew Gelmanがこんなブログ記事をupしていました。ちなみに@berobero11さんがこの件についてこんなコメントをされてました。AkiらのPSIS-LOOがWAICより良いとする論文が出た。https://t.co/BWYNALp88K渡辺先生の反論…

2016-10-05

統計的因果推論(3): 傾向スコア算出を機械学習に置き換えてみると

R 統計学統計的因果推論機械学習

この記事は以下の記事の続きです。前回の記事では普通にロジスティック回帰で傾向スコアを求めたのですが、傾向スコアというのは元はと言えば「共変量に基づいてそれぞれの群に割り付けられる確率値を求めたもの」なので、やろうと思えば機械学習分類器で代…

2016-09-30

バリ島に行ってきました

旅行記

前回の香港旅行の際にもちろっと書きましたが、2回に分けて取った夏休みの後半はバリ島旅行に行ってきたのでした。ただし香港とは異なり、バリ島の方は一部の例外を除いてほぼ統合型リゾートであるAYANA Resort & Spa BALIにこもりっきりみたいなものだった…

2016-09-21

データサイエンティスト（本物）は決して幻の職業などではない

データサイエンティスト人材書籍書評

かつて拙著出版の際に大変お世話になった技術評論社（技評）さんから、『データサイエンティスト養成読本』改定2版のPRとして以下の記事がリリースされていました。この記事がもう何と言いますか、「読めばそのままデータサイエンティスト（本物）もしくはグ…

2016-09-07

香港・マカオに行ってきました

旅行記

今年は遅い夏休みを9月に2回に分けて取ることにしておりまして、1回目は香港・マカオに行ってきました。実は香港には7年前にも行ったことがあるんですが、今回改めて訪港してみて色々と気付いたこと・ハマったことなどがあったので、今回もその辺の教訓など…

2016-08-29

統計的因果推論(2): 傾向スコア(Propensity Score)の初歩をRで実践してみる

R 統計学統計的因果推論

さて、統計的因果推論についてだらだらと独習していくこのシリーズですが、今回はDonald Rubinが考案したRubinの因果モデルで用いられる、傾向スコア(Propensity Score)を取り上げてみようと思います。「お前岩波DS3で事前に原稿読んで中身は知っているはず…

2016-08-17

{rBayesianOptimization}パッケージによるベイズ最適化で機械学習パラメータチューニングをお手軽に

R 機械学習 Deep Learning

機械学習のパラメータチューニングというと大なり小なり大変な部分があって、今年のエイプリルフール記事に皆さん引っかかって下さったところを見るにパラメータチューニングを簡単に済ませたい！と願う人々は世の中多いようです（笑）。少し前のMXnetを使…

2016-08-02

統計的因果推論(1): 差分の差分法(Difference-in-Differences)をRで回してみる

統計学 R MCMC BUGS/Stan 統計的因果推論

世の中様々な介入効果・施策効果を検証するためのexperimentが行なわれていると思うんですが、意外とその効果検証というのは難しいものです。特にいわゆる統計的因果推論の立場から見れば、web上で接触する一般ユーザーに対する介入や施策といったものの検証…

2016-07-21

Deep Learningで遊ぶ(2): オンラインニュース人気度＋ベイズ最適化によるパラメータチューニング

R 機械学習 DeepLearning実践シリーズ Deep Learning

追記（2016年8月22日） {rBayesianOptimization}の使い方を間違えていて、この記事の下部では実際にはテスト誤差ではなくトレーニング誤差を評価してしまっていますorz 実際にはScore返値にholdoutを入れるのが正解です。別に{rBayesianOptimization}単体で…

2016-07-08

興味がない時には沢山見かけるがいざ欲しい時に限って見つからない：日本のデータサイエンティスト＆機械学習エンジニアブーム

データサイエンティスト人材ビジネス機械学習エンジニア

我らが業界の雄*1、てつろーさんが新たなweb連載記事を始められたようです。このタイトルが、流石は業界経験の長いお方だけあって非常に鋭いところを突いているなと個人的には感じています。で、完全に奇遇ながら実は6月8日に旧知の友人の依頼でプレイベート…

2016-06-25

Deep Learningで遊ぶ(1): テニス四大大会データセット（追記あり: 正規化した場合の検証）

R 機械学習 DeepLearning実践シリーズ Deep Learning

MXnet / Kerasが本格的に普及してきたことで、いよいよ「誰でも（割と）気軽にDeep Learningを実践できる」時代になってきましたね、という話を前回の記事では一通りやってみました。ということで、これからしばらく「気軽に実践できるようになったけど実際…

2016-06-22

ブログタイトル変えました（2016年6月）

お知らせ

ご覧の通りです（笑）。ご愛読下さっている皆様、今後とも引き続きよろしくお願いいたします。

2016-06-09

KerasをTensorFlowバックエンドで試してみた：「もっと多くの人に機械学習とDeep Learningを」という時代の幕開け

Python 機械学習 Deep Learning

（左：Keras、右：MXnet）Kaggle Masterの間ではMXnetよりさらに人気なDeep Learningフレームワークというかラッパーが、@fchollet氏の手によるKeras。 Keras Documentation 結構苦心したのですが、ようやく手元のPython環境で走るようになったので、試して…

2016-06-01

機械学習分類器ごとに汎化vs.過学習の様子を可視化してみる

R 機械学習サンプルデータで試す機械学習シリーズ Deep Learning

以前12回まで続けた「サンプルデータで試す機械学習シリーズ」ですが*1。あれから色々分類器の手法やその実装もバリエーションが増えてきたということもあり、思い立って今回まとめてやり直してみようと思います。そうそう、12回シリーズの頃から愛用してい…

2016-05-15

「人工知能」ブームに乗り遅れた！という方々に捧げる人工知能（機械学習）まとめ記事

データ分析ビジネス機械学習書籍

(Photo credit: A Health Blog via Visual Hunt / CC BY-SA) 「人工知能」ブームが本格化してまだほんの数ヶ月だと思うんですが、気がついたらTV含む大手メディアが皆こぞって毎日のように「人工知能」を取り上げ、あまつさえ政府や与党の諮問会議でまで「人…

2016-05-13

2012年春の転職活動について：研究者→民間企業

回顧録人材

(Photo via Visualhunt.com) そう言えば、今度の6月で僕が研究者を辞めて民間企業に転じてからちょうど4年になるのでした。この4年の間に、博士やポスドクから企業に転じる人も増え、あまつさえ助教から企業に転じたり、トップジャーナル・カンファレンスに…

2016-05-02

「闇雲にPDCAサイクルを高速に回す」と場合によっては過学習して逆に怖いかもというお話

統計学機械学習ビジネス

3年前にこんな話を書いたわけですが、皆さんご記憶でしょうか。この当時は「平均への回帰」という言葉にその不毛さを託したわけですが、前回の記事に着想を得てもう少し今時っぽく論じることが出来るんじゃないかと思ったので、ちょっと書いてみようかと思…

2016-04-14

「そのモデルの精度、高過ぎませんか？」過学習・汎化性能・交差検証のはなし

統計学機械学習 R

今年の1月にこんな話題を取り上げたわけですが。この記事の最後にちょろっと書いた通り、実際にはこういう"too good to be true"即ち「そのモデルの精度いくら何でも高過ぎるんじゃないの？」→「実は汎化性能見てませんでした」みたいなケースって、想像より…

2016-04-01

PTGH：機械学習パラメータチューニングをDeep LearningとMCMCで高速に最適化するフレームワーク

機械学習 R Python エイプリルフール

苦節2年、とうとう完成しました。機械学習のパラメータチューニングに悩める皆さんのために、コーディングも数学も大の苦手な僕が頑張って作りました。それがPTGH (Parameter Tuning by God's Hand)フレームワークです。RでもPythonでも動きます。中身として…

2016-03-29

Deep Learningライブラリ{mxnet}のR版でConvolutional Neural Networkをサクッと試してみた（追記3件あり）

機械学習 R Deep Learning

For non-native Japanese speakers: English version is below. ちょっと前から色々なところでちらほら名前を聞くなぁと思っていたMXnet。どうやらKagglerの間では急速に人気が高まっているようで、最近になってだいぶバグフィックスが進んだらしいというの…

2016-03-24

クラウド機械学習の進歩で「プラモデルのように機械学習システムが作れる」時代が到来しつつある

機械学習ビジネス

こんなブログ・プレスリリースが出ていました。TensorFlowベースで実装されたクラウド機械学習アプリケーション、"Cloud Machine Learning"だそうです。以前から既に取り沙汰されていたCloud Vision APIに加えて、Cloud Speech APIさらにはCloud Translate A…