R
Stanの開発者でもある統計学界の重鎮、Andrew Gelmanがこんなブログ記事をupしていました。ちなみに@berobero11さんがこの件についてこんなコメントをされてました。AkiらのPSIS-LOOがWAICより良いとする論文が出た。https://t.co/BWYNALp88K渡辺先生の反論…
この記事は以下の記事の続きです。前回の記事では普通にロジスティック回帰で傾向スコアを求めたのですが、傾向スコアというのは元はと言えば「共変量に基づいてそれぞれの群に割り付けられる確率値を求めたもの」なので、やろうと思えば機械学習分類器で代…
さて、統計的因果推論についてだらだらと独習していくこのシリーズですが、今回はDonald Rubinが考案したRubinの因果モデルで用いられる、傾向スコア(Propensity Score)を取り上げてみようと思います。「お前岩波DS3で事前に原稿読んで中身は知っているはず…
機械学習のパラメータチューニングというと大なり小なり大変な部分があって、今年のエイプリルフール記事に皆さん引っかかって下さったところを見るにパラメータチューニングを簡単に済ませたい!と願う人々は世の中多いようです(笑)。 少し前のMXnetを使…
世の中様々な介入効果・施策効果を検証するためのexperimentが行なわれていると思うんですが、意外とその効果検証というのは難しいものです。特にいわゆる統計的因果推論の立場から見れば、web上で接触する一般ユーザーに対する介入や施策といったものの検証…
追記(2016年8月22日) {rBayesianOptimization}の使い方を間違えていて、この記事の下部では実際にはテスト誤差ではなくトレーニング誤差を評価してしまっていますorz 実際にはScore返値にholdoutを入れるのが正解です。別に{rBayesianOptimization}単体で…
MXnet / Kerasが本格的に普及してきたことで、いよいよ「誰でも(割と)気軽にDeep Learningを実践できる」時代になってきましたね、という話を前回の記事では一通りやってみました。ということで、これからしばらく「気軽に実践できるようになったけど実際…
以前12回まで続けた「サンプルデータで試す機械学習シリーズ」ですが*1。あれから色々分類器の手法やその実装もバリエーションが増えてきたということもあり、思い立って今回まとめてやり直してみようと思います。そうそう、12回シリーズの頃から愛用してい…
今年の1月にこんな話題を取り上げたわけですが。この記事の最後にちょろっと書いた通り、実際にはこういう"too good to be true"即ち「そのモデルの精度いくら何でも高過ぎるんじゃないの?」→「実は汎化性能見てませんでした」みたいなケースって、想像より…
苦節2年、とうとう完成しました。機械学習のパラメータチューニングに悩める皆さんのために、コーディングも数学も大の苦手な僕が頑張って作りました。それがPTGH (Parameter Tuning by God's Hand)フレームワークです。RでもPythonでも動きます。中身として…
For non-native Japanese speakers: English version is below. ちょっと前から色々なところでちらほら名前を聞くなぁと思っていたMXnet。どうやらKagglerの間では急速に人気が高まっているようで、最近になってだいぶバグフィックスが進んだらしいというの…
この記事は、やたらはてブを稼いでしまった前回の記事の続きです。ASAのプレスリリース及び声明の中には、確かに「p値に依拠しない新たなアプローチの例」として予測値を重視するアプローチ*5、ベイジアンモデリング、決定理論的アプローチ*6およびfalse dis…
そう言えば3年前にこんなまとめ的エントリを書いたのでした。この内容はそのままかなりの部分が2年前に刊行した拙著の原案にもなったということで、色々思い出深いエントリです。なのですが。・・・この3年の間に統計学・機械学習・データマイニングの諸手法…
記事タイトルに反して僕は実は統計的検定が大嫌いなんですが、皆さんいかがお過ごしでしょうか(笑)。ということで、今回はややマニアックなメタアナリシスの話題でもしてみようかと思います。「t-testのメタアナリシス」みたいな、いわゆるRosenthal's met…
正直に白状するとめぼしいお題がなくて記事にするようなものは目下のところ何もないんですが(汗)、最近めっきり多変量データいじらなくなって腕が鈍っている気がしないでもないので、Rの機械学習系のコマンドを打つリハビリ()も兼ねて以前のシリーズの続…
何か僕がシンガポールに出張している間に妙なニュースが流れていたようで。 京大ビッグデータ副作用論文。機械学習知らない私でも疑問なのは、@sz_drさんも指摘してるがy'=a1*SCORE+a2*ACT+a3*GeneID+b (1)という式で、GeneIDという定量的に性質を示す値でな…
ちょっと前に話題になってたんですが、何でもCRANに確率的勾配降下法(Stochastic Gradient Descent)を実装した{sgd}というパッケージが公開されているそうで。JSS掲載予定のVignetteもあるみたいです。 CRAN - Package sgd Stochastic gradient decent metho…
本日8月6日に駒場で開かれた日本生態学会関東地区会公開シンポジウム「非ガウス性/非線形性/非対称性からの因果推論手法:その使いどころ・原理・実装を学ぶ」通称因果フェスにて、Granger因果について話してきました。 ちなみに事前に林岳彦(id:takehiko-…
先日ask.fmでこんな質問をいただいたのでやってみました。 不均衡データの分類についてブログを拝見しました。 不躾な質問で恐縮ですが、正例の少ない不均衡データをRandomforestで2値分類を行う際に、ウェイトを使うのであれば、単純にProbで出力される「正…
みんなのR ?データ分析と統計解析の新しい教科書?作者: Jared P. Lander,Tokyo.R(協力),高柳慎一,牧山幸史,簑田高志出版社/メーカー: マイナビ発売日: 2015/06/30メディア: 単行本(ソフトカバー)この商品を含むブログ (2件) を見る ということで、訳者の…
このシリーズ、前回はUCIリポジトリではないデータセットを使ってしまって本義に悖る内容になってしまったので(笑)、今回はUCIのデータセットを使ってみることにします。そのデータがこちら。 Credit Approval Data Set Data set descriptionを見ると、こ…
今やKaggleやKDD cup以下名だたる機械学習コンペで絶大な人気を誇る分類器、Xgboost (eXtreme Gradient Boosting)。特にKaggleのHiggs Boson Machine Learning Challengeの優勝チームが駆使したことで有名になった感があるようで。 その実装ですが、C++ベー…
第2回にして既にUCIのデータセットではないんですが(笑)、ちょっと自分の練習も兼ねてご紹介。今回はグラフというかネットワークがお題です。ぶっちゃけ僕自身はグラフ理論&ネットワーク分析は全くもって真面目に勉強してないので、炎上ラーニングも兼ね…
基本的にロジスティック回帰は単純な線形識別関数としての分類器なので、一般には線形分離不可能パターンに対して適用すると全く分類できないという結果に終わります。実際、シンプルXORパターンと複雑XORパターンに対して、ロジスティック回帰で学習させて…
L1 / L2正則化と言えば機械学習まわりでは常識で、どんな本を見てもその数式による表現ぐらいは必ず載ってる*1わけですが、そう言えばあまり実務では真面目にL1 / L2正則化入れてないなと思ったのと、Rでやるなら普通どうするんだろう?と思ったので*2、もは…
今週はまともなデータ分析やら統計学やら機械学習やらの記事を書くのが面倒になったので*1、しばらくやってなかったお薦め書籍リストでも書こうかと思います。 今回まとめるリストは、ズバリ「Rでデータサイエンス・統計学・機械学習を学ぶための10冊」。Rと…
去る2月5日(木)にレバレジーズ様のお招きで渋谷でちょっとしたRハンズオンをやってきました。 手を動かしながら学ぶエンジニアのためのデータサイエンス! from leverages_event この中で利用したのが、UCI Machine Learning Repositoryのオープンデータセ…
何か月1回しか書かなくなりつつあるこのシリーズですが、中には@berobero11さんのようにツッコミ倒すのを楽しみにして下さっている方もおられるようなので、久しぶりに更新してみます。 もちろん参考文献は以下の2冊 + PDF book。お題はCommandeur本の第5章…
そういえばMNISTコンペが気が付いたらまた1年延長されたみたいですが。 Description - Digit Recognizer | Kaggle これ以上順位上げるのは面倒で仕方ないのでほっといて、もうちょっと自分の勉強しようかと思います。今気になってるのが、隠れ層における特徴…
もう松の内も明けてしまいましたが、遅ればせながら皆さん明けましておめでとうございます。今年もよろしくお願いいたします。 で、年明け早々にTwitterエンジニアブログに面白いネタが上がっていたのでした。 Introducing practical and robust anomaly det…