VARモデル補遺（備忘録）

R 時系列分析

もう9年も前のことですが、沖本本をベースとした計量時系列分析のシリーズ記事を書いていたことがあります。その中で、密かに今でも自分が読み返すことがあるのがVAR（ベクトル自己回帰）モデル関連の記事です。なのですが、仕事なり趣味なりでVARモデルを…

2022-08-09

新型コロナウイルス感染症の「真の」感染拡大状況を検索トレンドから何となく推測してみた

データ分析時系列分析雑感

新型コロナウイルス感染症(COVID-19)のパンデミックに収まる気配が全く見られず、この記事を書いている2022年8月9日時点でも日本はオミクロン系統BA.5変異株を主体とする第七波に見舞われている有様です。東京でも毎日のように2万〜3万人という新規陽性者数…

2022-07-29

データサイエンティストは何を勉強すべきか：「教養」と「必須」と「差別化」と

データサイエンティスト統計学機械学習人材ビジネス

(Image by Wokandapix from Pixabay)個人的な観測範囲での話ですが、データサイエンティストという職業は「21世紀で最もセクシーな職業」として刹那的な注目を集めた第一次ブーム、人工知能ブームに煽られて火がついた第二次ブーム、そして「未経験から3ヶ月…

2022-07-06

再現性問題のはなし

統計学書籍書評雑感再現性問題

経済セミナー2022年6・7月号通巻726号【特集】経済学と再現性問題日本評論社Amazon最近は計量経済学・統計学方面の方々との交流が多いんですが、そのご縁で『経済セミナー』の2022年6・7月号が再現性問題を取り上げていたと知り、入手して読んでみました。…

2022-06-09

NN時代のモダンな不均衡データ補正：undersamplingしたデータから得られたモデルを全データでfine-tuningする（論文紹介・ただし再現に失敗）

論文機械学習 R DeepLearning実践シリーズ Deep Learning

何だか不均衡データ補正の話題は毎回tmaeharaさんからネタを頂戴している気がしますが（笑）、今回も興味深いネタを拝見したので試してみようと思います。深層学習時代の class imbalance 対応が面白い。適当にバランシングしたデータセットで十分学習した後…

2022-06-01

企業で働くデータサイエンティストになって10年が経ちました

回顧録雑感データサイエンティストキャリア

TL;DR 10年前の落ちこぼれポスドクが今は立派なデータサイエンティストになれたっぽいので、ポエムを書きました。業界事情の振り返りと、仕事の話、知名度が上がることの良し悪し、キャリアの話などを綴っています。時が経つのは早いもので、落ちこぼれポス…

2022-05-31

私論：メトリクスで評価される研究をむしろ「質的」に評価してみてはどうか

雑感研究

(Image by Arek Socha from Pixabay)江添さんがこんな記事を書かれていました。個人的な感想ですが、面白い観点だなと思った次第です。この記事では、江添さんが取り上げた論文についての直接の議論はあえて避けます*1。が、江添さんが提起した問題をより一…

2022-05-27

備忘録：R版Kerasで自前のモデルをfine-tuningする方法

機械学習 R DeepLearning実践シリーズ

この記事は、別にちょっとした理由があってR版Kerasで自前のDNNモデルをfine-tuningしたいと思ったので、調べて得られた知識をただまとめただけの備忘録です。既にやり方をご存知の方や、興味がないという方はお読みにならなくても大丈夫です。ただし「この…

2022-05-20

SVMは復権し得るか？

機械学習 R DeepLearning実践シリーズサンプルデータで試す機械学習シリーズ

Kaggleはすっかりただの野次馬の一人になって久しいんですが、しばらく前に行われたPetFinder.my - Pawpularity Contestというコンペで優勝者がSVR（サポートベクター回帰）を使ったことが話題になっていたというのを聞いて、NN全盛のこのご時世に意外だなと…

2022-05-16

深部静脈血栓症(DVT)に罹りました

私事雑感

(Image by MasterTux from Pixabay)あまりこういう私事はブログでは書いてこなかったのですが、今後の備忘録も兼ねて記事として書き留めておこうと思います。Twitterなどでは既に書いている話ですが、タイミング悪く実家の親父が危篤になった時期に並行して…

2022-04-30

依然として高まり続ける「データサイエンティスト」への関心と、それを追う「データエンジニア」と

データサイエンティスト人材ビジネス

今回の記事はいつものようにネタが見つからなくて困ったので窮余の一策としての与太話です。話題はこのブログで時々やっている「データサイエンティスト＆関連職に関するGoogle Trendsを用いた意識調査」です。ちなみに、某協会が学生向けのアンケートで意…

2022-04-01

分析結果が有意にならなくて困っている人々のためのハウツー本を書きました

統計学書籍エイプリルフール

近年様々な議論もあるようですが、依然として「統計的仮説検定」を初めとする統計分析においては「p そこで、そんな人々のためになるようなハウツー本的な書籍をこの度上梓しました。題して『今日からはじめる達人p値ハッキング』ということで、p-hacking及…

2022-03-28

『計量経済学』（末石本）はエコノメトリクスのエッセンスを「オールインクルーシブ」で簡潔にまとめた必読の一冊

書籍書評統計学

計量経済学ミクロデータ分析へのいざない作者:末石直也日本評論社Amazonデータ分析業界の友人から「読んでみたら物凄く良かった」と勧められて買ったのが、こちらの一冊。同名の書籍は沢山あるので、ここでは著者の末石先生のお名前を取って「末石本」と呼…

2022-03-16

蔓延防止等重点措置（まん防）の効果検証を「あえて」DID＋TSclustによる時系列クラスタリング＋CausalImpactでやってみた

統計学統計的因果推論時系列分析データ分析 R

少し前の話ですが、現在COVID-19の感染が拡大している地域で実施される「蔓延防止等重点措置（まん防）」に効果があったかどうかについて、計量経済学的な観点に基づいた政策評価レポートが公開されて話題になっていました。追記本日午前中に元のレポート自…

2022-02-25

データサイエンティスト（及び他のデータ関連職）のスキル要件（2022年版）

データサイエンティスト機械学習エンジニア統計学機械学習人材ビジネス

(Image by mohamed_hassan from Pixabay)この記事は毎年恒例のスキル要件記事の2022年版です。昨年版は以下のリンクからご覧ください。最初に正直に書いておくと、スキル要件自体は昨年版までとほぼ一緒で、大きなアップデートはありません。今回はまず最初…

2022-02-09

2022年版：実務の現場で働くデータサイエンティスト向け推薦書籍リスト（初級5冊＋中級8冊＋テーマ別14冊）

書籍書評統計学機械学習データサイエンティスト

(Image by ElasticComputeFarm from Pixabay)今年も恒例の推薦書籍リストの季節がやって参りました。……なのですが、相変わらず続くCOVID-19の影響*1でデータ分析業界及び隣接分野の新刊書を読む機会が減ったままにつき、例年とほぼ同じラインナップになって…

2022-01-25

羅生門効果：マーケティングモデルを蝕む本質的な「曖昧さ」

統計学機械学習論文

前回の記事でも触れましたが、ここ最近いわゆる需要予測系のマーケティングモデル（特にMedia Mix Modeling: MMM）を手掛けることが増えています。この手の統計モデルは経済学で言うところの「実証分析」に当たると思われ、一般には「予測」よりも「説明」に…

2022-01-14

生活者ターゲティングの時代は終わり、エコノメトリクスによるマーケティングが台頭する

データ分析マーケティング統計学

(Image by Mediamodifier from Pixabay)実はもう1年以上前のことなのですが、LinkedInで以下の記事を見かけて「おー、ようやくこういう意見が公の場に出てくるようになったんだな」と思ったのでした。原文は英語ですが、短い文章なので英語が不得手な方でも…

2021-12-27

犬は狼にはなれないが、狼は犬にもなれる

雑感データ分析統計的因果推論データサイエンティストビジネス人材年末回顧

(Image by qimono from Pixabay)年月が過ぎるのは早いもので、2021年もあっという間にわずかな日数を残すのみとなってしまいました。ということで、恒例の1年の振り返りとともにちょっとした年末の気付きをポエムにまとめてみようと思います。

2021-12-14

『ディープラーニング学習する機械』は一人称で語られる壮大な物語にして、「AIの過去・現在・未来」の解説書

書評書籍機械学習 Deep Learning

ディープラーニング学習する機械ヤン・ルカン、人工知能を語る (ＫＳ科学一般書)作者:ヤン・ルカン講談社Amazon11月に入って勤務先のオフィスが本格的に再開されてから、久しぶりに会社のメールルームを覗きに行ったところ、届いていた（つまりご恵贈いた…

2021-11-30

「実務者としてのデータサイエンティスト」になるということ

データサイエンティスト人材ビジネス機械学習エンジニア

(Image by katielwhite91 from Pixabay)先日のことですが、大変に面白い記事を読みました。この記事では「データサイエンティスト職のインターンに応募してくる若いエンジニアや学生向け」の話題として語られていますが、全体として読むとそもそも論としての…

2021-11-15

『「誤差」「大間違い」「ウソ」を見分ける統計学』は既に統計学を学んだ人がさらなる理解の深みと多様さを求めて読むべき「副読本」

統計学書評書籍

「誤差」「大間違い」「ウソ」を見分ける統計学作者:デイヴィッド・サルツブルグ共立出版Amazonしばらく前に共立出版様からご恵贈いただいたのがこちらの『「誤差」「大間違い」「ウソ」を見分ける統計学』。お気付きの方もいらっしゃるかもしれませんが、原…

2021-10-03

VIF (Variance Inflation Factor)を計算する関数を書いてみた（備忘録）

多重共線性(multicolinearity)の代表的指標として頻繁に用いられるVIF (Variance Inflation Factor)というと、Rでは普通に{car}とか{usdm}とかのパッケージに実装された関数があるのでそれらを利用すれば良いのですが、ちょっと訳あって自分で実装してみるこ…