R
先日のことですが、Querie*1で以下のような質疑がありました。恐らくですが、これは僕が懇意にさせていただいているマクリン謙一郎さんがコメントしていた件に関連する話題だと思われます。たしかにこれではないからHARKingとはちょっと違うと思うんだけど、…
毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。 今回のバージョンでは、趣向をちょっと…
CausalImpactについては、過去にこのブログでも何度か話題にしてきたかと思います。端的に言えば、seasonalityによるバイアスを補正するための実験計画であるDID(Difference in Differences:差分の差分法)によって得られたtest/controlグループの時系列デ…
(Image by wal_172619 from Pixabay)去年で恒例の推薦書籍リストの更新は一旦終了したつもりだったんですが、記事を公開して以降に「これは新たにリスト入りさせないわけにはいかない!」という書籍が幾つも現れる事態になりましたので、前言撤回して今年も…
もう9年も前のことですが、沖本本をベースとした計量時系列分析のシリーズ記事を書いていたことがあります。その中で、密かに今でも自分が読み返すことがあるのがVAR(ベクトル自己回帰)モデル関連の記事です。 なのですが、仕事なり趣味なりでVARモデルを…
何だか不均衡データ補正の話題は毎回tmaeharaさんからネタを頂戴している気がしますが(笑)、今回も興味深いネタを拝見したので試してみようと思います。深層学習時代の class imbalance 対応が面白い。適当にバランシングしたデータセットで十分学習した後…
この記事は、別にちょっとした理由があってR版Kerasで自前のDNNモデルをfine-tuningしたいと思ったので、調べて得られた知識をただまとめただけの備忘録です。既にやり方をご存知の方や、興味がないという方はお読みにならなくても大丈夫です。ただし「この…
Kaggleはすっかりただの野次馬の一人になって久しいんですが、しばらく前に行われたPetFinder.my - Pawpularity Contestというコンペで優勝者がSVR(サポートベクター回帰)を使ったことが話題になっていたというのを聞いて、NN全盛のこのご時世に意外だなと…
少し前の話ですが、現在COVID-19の感染が拡大している地域で実施される「蔓延防止等重点措置(まん防)」に効果があったかどうかについて、計量経済学的な観点に基づいた政策評価レポートが公開されて話題になっていました。 追記本日午前中に元のレポート自…
今月はモデルナワクチンの2回目接種*1やら仕事でも負荷の高い分析業務やら、はたまた執筆*2やらでネタ切れなのもあってあまりブログ記事を書けていなかったので、最近話題になった件について簡単に論じてみようかと思います。元ネタはこちらです。 これはイ…
この記事は、以前『統計学のセンス』を読んだ時から気になっていたことを思い出したので、単にRで試してみたという備忘録です。非劣性検定(等価検定)の話題は、本書の最後にある8.3節「非劣性の検証とは?」であくまでも付録扱いとして登場します。ここで…
これはただの備忘録です。既知の話題ばかりが並べられているので、特に新鮮味のない内容である点予めご容赦ください。クラスタリング手法として広く知られるK-meansは、その簡便さから非常に広汎に使われていますが、一方で「クラスタ数を恣意的に決め打ちせ…
元はと言えばアホなエイプリルフールネタを作るために勉強し始めたことなのですが、折角だしということで毎日15時過ぎにやっている「本日の東京都のCOVID-19陽性報告数を踏まえた感染拡大状況把握のためのフィッティング」ネタをRパッケージにまとめて簡単に…
「新型コロナウイルス感染症における治療の進展(令和2年10月29日に開催された第13回新型コロナウイルス感染症対策分科会事務局提出資料を基に内閣官房・内閣府作成)」という資料が世間で物議を醸しているようです。ただ、これを見ていて僕が個人的に気にな…
これまで、RとPythonは両方使える人が少なくないながらも開発陣やコミュニティの思想が違うせいもあってか、「Rは統計学向け」「Pythonは機械学習向け」的な住み分けが年々進み、特に機械学習関連の重要なフレームワーク・ライブラリ類はPython向けのみがリ…
この記事の前段として、まず事前に昨年書いた機械学習モデルの解釈性についての記事をご覧ください。僕が知る限り、機械学習実践のデファクトスタンダードたるPython側ではLIMEやSHAPといった解釈手法については既に良く知られたOSS実装が出回っており、相応…
先日書いたこの記事ですが、「トイデータとは言え乱数シードを一つに決めて発生させたランダムウォークに対して実験をしているので、乱数シードを複数通りに変えてみたら結果は変わってくる(再現しない)のではないか?」という指摘を何人かの友人知人から…
COVID-19が世界中に感染拡大し、日本含め多くの国で外出や集会の制限(自粛)措置が取られて久しい昨今ですが、これに伴って多くのところでCOVID-19に関連したオープンデータが公開されるようになっており、データ分析を生業とする人間が実データを扱う良い…
追記再現性をチェックする実験を後日実施しています。併せてお読みください。 以前こんな記事を書きました。 この辺の話はとっくの昔に常識になっていると思っていたのですが、昨今様々な「モデル」が提唱されて公の場で喧伝されることが増えてきており、そ…
先日の記事でも書いたように、どうもここ最近RStan周りの環境が色々厳しくなっている気がしていて、仮にRStanが今後環境面での不具合やミスマッチなどで使えなくなったらベイジアンモデリングやれなくなって困るかも。。。という危惧を最近抱きつつあります…
このブログを普段からお読みになっている皆さんはご存知かと思いますが、僕は割と口を酸っぱくして「マーケティングに携わるならきちんと実験して効果検証せよ、その介入がピュアな施策だろうと機械学習システムによるものだろうと変わらない」ということを…
(MNIST database - Wikipedia) 僕は画像認識分野は門外漢なのですが、ここ最近初心者向けにCNNのトレーニングを行うことを企画していて、その目的に適した画像認識のオープンデータセットを探していたのでした。 というと誰しも思いつくのがMNISTではないか…
この記事は完全に備忘録です。必要最低限の情報しか記されていませんので悪しからずご了承ください。色々事情があってつい最近Rを3.6.1にアップデートして、いつも通りパッケージをインストールし直していたのですが、こういう時に毎回コケるのはRStanと相場…
この記事は、以下の@icoxfog417さんによる問題提起に合わせたちょっとした実験をまとめたものです。時系列予測の問題において、機械学習のモデルより既存の統計モデル(ARMAモデルなど)の方が予測精度において優良な結果が出るという研究。データへの適合=予…
実はこのネタは元々別のところでやり取りのあった話題だったりします。色々な都合があってここ最近{CausalImpact}に触れる機会が自分に限らず周囲でも増えているのですが、若い人たちから「そもそも{CausalImpact}って何をしているんですか?使う際は何に気…
ここ2ヶ月ぐらいに渡って多くの方々からご著書をご恵贈たまわっているのですが、そのうちの一冊がこちら。かつて計量時系列分析を学んでいた頃に僕も大変お世話になった、Logics of Blueブログの馬場さんの手による『RとStanではじめるベイズ統計モデリング…
この記事は以下の検証記事の続きです。 先日、Twitterでこんなお話を見かけました。分類問題で不均衡データを扱う際、ダウンサンプリングして学習すると予測確率にバイアスが生じるので、calibrationしようという話を書きましたhttps://t.co/qujK29crNY— 岸…
(Background image by Pixabay)最近また「データ分析をやるならRとPythonのどちらでやるべきか」という話題が出ていたようです。 言語仕様やその他の使い勝手という点では、大体この記事に書いてあることを参考にすれば良いと思います。その上で、人には当然…
以前よりGoogleではCloud AutoMLという"Learning to learn"フレームワークによる「人手完全不要の全自動機械学習モデリング&API作成」サービスを展開してきていましたが、それらは画像認識や商品推薦はたまた自然言語処理がメインで、最もオーソドックスな…
TensorFlow Probability (TFP)がリリースされてからしばらく経ちますが、最近になってこんなモジュールが公開されたと知りました。 Framework for Bayesian structural time series modelsと題されている通りで、ズバリTFPでベイズ構造時系列モデルを推定す…