渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

2023年版:実務データ分析を手掛けるデータサイエンティスト向け推薦書籍リスト(初級6冊+中級8冊+テーマ別15冊)

(Image by wal_172619 from Pixabay)去年で恒例の推薦書籍リストの更新は一旦終了したつもりだったんですが、記事を公開して以降に「これは新たにリスト入りさせないわけにはいかない!」という書籍が幾つも現れる事態になりましたので、前言撤回して今年も…

K-meansのクラスタ数を決めるのにエルボー法を使うのはやめよう、という論文

クラスタリングに用いられるK-meansのクラスタ数決定方法については長く議論されてきた歴史があり、このブログでも以前ちょろっと取り上げたことがあります。で、Twitterを眺めていたらタイムラインに面白い論文が流れてきました。それがこちらです。タイト…

難局を乗り越えた先に見えるもの

(Stable Diffusion 2.1でこの記事のタイトルをプロンプトとして与えて生成した画像)時が経つのは早いもので、あっという間に今年2022年も恒例の年末振り返り記事の時期が来てしまいました。ということで、例年通り何のオチも学びも技術的内容もない記事で…

「データ分析の民主化」の在り方を、「社員全員Excel経営」が「社員全員データサイエンス経営」へと進化していった事例に見る

以前こんな記事を書いたことがあります。「社員全員Excel経営」で名高い、ワークマン社のサクセスストーリーを論評したものです。2012年にCIOに就任した土屋哲雄常務のリーダーシップのもと、取引データの完全電子化を皮切りに「全社員がExcelを使いこなして…

『標準ベイズ統計学』はベイズ統計学をきちんと基礎から日本語で学びたいという人にとって必携の一冊

標準 ベイズ統計学朝倉書店Amazon発刊当時に話題になっていた『標準ベイズ統計学』。実は訳者のお一人、菅澤翔之助さんからオフィス宛てでご恵贈いただいていたのですが、親父の没後処理やら自分のDVTやら実家の片付けやらで全く手が回らずオフィスに置いた…

データサイエンティストという職業の10年間の変遷を振り返る

(Image by Gordon Johnson from Pixabay)TL;DR 今年の6月に僕自身がデータサイエンティストに転じて10年という節目の年を迎え、10月でDavenportの「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説から10周年になるのを機に、この10年間…

Lightweight MMM:NumPyroで実装されたベイジアンMMMフレームワーク

以前「Ads carryover & shape effects付きのMedia Mix Modeling」という記事で取り上げたベイジアンMMMのtechnical report (Jin et al., 2017)ですが、当時RStanで実装されていたものが4年の時を経て時代の趨勢に沿う形でPythonベースのOSSとしてリリースさ…

VARモデル補遺(備忘録)

もう9年も前のことですが、沖本本をベースとした計量時系列分析のシリーズ記事を書いていたことがあります。その中で、密かに今でも自分が読み返すことがあるのがVAR(ベクトル自己回帰)モデル関連の記事です。 なのですが、仕事なり趣味なりでVARモデルを…

新型コロナウイルス感染症の「真の」感染拡大状況を検索トレンドから何となく推測してみた

新型コロナウイルス感染症(COVID-19)のパンデミックに収まる気配が全く見られず、この記事を書いている2022年8月9日時点でも日本はオミクロン系統BA.5変異株を主体とする第七波に見舞われている有様です。東京でも毎日のように2万〜3万人という新規陽性者数…

データサイエンティストは何を勉強すべきか:「教養」と「必須」と「差別化」と

(Image by Wokandapix from Pixabay)個人的な観測範囲での話ですが、データサイエンティストという職業は「21世紀で最もセクシーな職業」として刹那的な注目を集めた第一次ブーム、人工知能ブームに煽られて火がついた第二次ブーム、そして「未経験から3ヶ月…

再現性問題のはなし

経済セミナー2022年6・7月号 通巻726号【特集】経済学と再現性問題日本評論社Amazon最近は計量経済学・統計学方面の方々との交流が多いんですが、そのご縁で『経済セミナー』の2022年6・7月号が再現性問題を取り上げていたと知り、入手して読んでみました。…

NN時代のモダンな不均衡データ補正:undersamplingしたデータから得られたモデルを全データでfine-tuningする(論文紹介・ただし再現に失敗)

何だか不均衡データ補正の話題は毎回tmaeharaさんからネタを頂戴している気がしますが(笑)、今回も興味深いネタを拝見したので試してみようと思います。深層学習時代の class imbalance 対応が面白い。適当にバランシングしたデータセットで十分学習した後…

企業で働くデータサイエンティストになって10年が経ちました

TL;DR 10年前の落ちこぼれポスドクが今は立派なデータサイエンティストになれたっぽいので、ポエムを書きました。業界事情の振り返りと、仕事の話、知名度が上がることの良し悪し、キャリアの話などを綴っています。 時が経つのは早いもので、落ちこぼれポス…

私論:メトリクスで評価される研究をむしろ「質的」に評価してみてはどうか

(Image by Arek Socha from Pixabay)江添さんがこんな記事を書かれていました。個人的な感想ですが、面白い観点だなと思った次第です。この記事では、江添さんが取り上げた論文についての直接の議論はあえて避けます*1。が、江添さんが提起した問題をより一…

備忘録:R版Kerasで自前のモデルをfine-tuningする方法

この記事は、別にちょっとした理由があってR版Kerasで自前のDNNモデルをfine-tuningしたいと思ったので、調べて得られた知識をただまとめただけの備忘録です。既にやり方をご存知の方や、興味がないという方はお読みにならなくても大丈夫です。ただし「この…

SVMは復権し得るか?

Kaggleはすっかりただの野次馬の一人になって久しいんですが、しばらく前に行われたPetFinder.my - Pawpularity Contestというコンペで優勝者がSVR(サポートベクター回帰)を使ったことが話題になっていたというのを聞いて、NN全盛のこのご時世に意外だなと…

深部静脈血栓症(DVT)に罹りました

(Image by MasterTux from Pixabay)あまりこういう私事はブログでは書いてこなかったのですが、今後の備忘録も兼ねて記事として書き留めておこうと思います。Twitterなどでは既に書いている話ですが、タイミング悪く実家の親父が危篤になった時期に並行して…

依然として高まり続ける「データサイエンティスト」への関心と、それを追う「データエンジニア」と

今回の記事はいつものようにネタが見つからなくて困ったので窮余の一策としての与太話です。話題はこのブログで時々やっている「データサイエンティスト&関連職に関するGoogle Trendsを用いた意識調査」です。 ちなみに、某協会が学生向けのアンケートで意…

分析結果が有意にならなくて困っている人々のためのハウツー本を書きました

近年様々な議論もあるようですが、依然として「統計的仮説検定」を初めとする統計分析においては「p そこで、そんな人々のためになるようなハウツー本的な書籍をこの度上梓しました。題して『今日からはじめる達人p値ハッキング』ということで、p-hacking及…

『計量経済学』(末石本)はエコノメトリクスのエッセンスを「オールインクルーシブ」で簡潔にまとめた必読の一冊

計量経済学 ミクロデータ分析へのいざない作者:末石 直也日本評論社Amazonデータ分析業界の友人から「読んでみたら物凄く良かった」と勧められて買ったのが、こちらの一冊。同名の書籍は沢山あるので、ここでは著者の末石先生のお名前を取って「末石本」と呼…

蔓延防止等重点措置(まん防)の効果検証を「あえて」DID+TSclustによる時系列クラスタリング+CausalImpactでやってみた

少し前の話ですが、現在COVID-19の感染が拡大している地域で実施される「蔓延防止等重点措置(まん防)」に効果があったかどうかについて、計量経済学的な観点に基づいた政策評価レポートが公開されて話題になっていました。 追記本日午前中に元のレポート自…

データサイエンティスト(及び他のデータ関連職)のスキル要件(2022年版)

(Image by mohamed_hassan from Pixabay)この記事は毎年恒例のスキル要件記事の2022年版です。昨年版は以下のリンクからご覧ください。最初に正直に書いておくと、スキル要件自体は昨年版までとほぼ一緒で、大きなアップデートはありません。今回はまず最初…

2022年版:実務の現場で働くデータサイエンティスト向け推薦書籍リスト(初級5冊+中級8冊+テーマ別14冊)

(Image by ElasticComputeFarm from Pixabay)今年も恒例の推薦書籍リストの季節がやって参りました。……なのですが、相変わらず続くCOVID-19の影響*1でデータ分析業界及び隣接分野の新刊書を読む機会が減ったままにつき、例年とほぼ同じラインナップになって…

羅生門効果:マーケティングモデルを蝕む本質的な「曖昧さ」

前回の記事でも触れましたが、ここ最近いわゆる需要予測系のマーケティングモデル(特にMedia Mix Modeling: MMM)を手掛けることが増えています。この手の統計モデルは経済学で言うところの「実証分析」に当たると思われ、一般には「予測」よりも「説明」に…

生活者ターゲティングの時代は終わり、エコノメトリクスによるマーケティングが台頭する

(Image by Mediamodifier from Pixabay)実はもう1年以上前のことなのですが、LinkedInで以下の記事を見かけて「おー、ようやくこういう意見が公の場に出てくるようになったんだな」と思ったのでした。原文は英語ですが、短い文章なので英語が不得手な方でも…

犬は狼にはなれないが、狼は犬にもなれる

(Image by qimono from Pixabay)年月が過ぎるのは早いもので、2021年もあっという間にわずかな日数を残すのみとなってしまいました。ということで、恒例の1年の振り返りとともにちょっとした年末の気付きをポエムにまとめてみようと思います。

『ディープラーニング 学習する機械』は一人称で語られる壮大な物語にして、「AIの過去・現在・未来」の解説書

ディープラーニング 学習する機械 ヤン・ルカン、人工知能を語る (KS科学一般書)作者:ヤン・ルカン講談社Amazon11月に入って勤務先のオフィスが本格的に再開されてから、久しぶりに会社のメールルームを覗きに行ったところ、届いていた(つまりご恵贈いた…

「実務者としてのデータサイエンティスト」になるということ

(Image by katielwhite91 from Pixabay)先日のことですが、大変に面白い記事を読みました。この記事では「データサイエンティスト職のインターンに応募してくる若いエンジニアや学生向け」の話題として語られていますが、全体として読むとそもそも論としての…

『「誤差」「大間違い」「ウソ」を見分ける統計学』は既に統計学を学んだ人がさらなる理解の深みと多様さを求めて読むべき「副読本」

「誤差」「大間違い」「ウソ」を見分ける統計学作者:デイヴィッド・サルツブルグ共立出版Amazonしばらく前に共立出版様からご恵贈いただいたのがこちらの『「誤差」「大間違い」「ウソ」を見分ける統計学』。お気付きの方もいらっしゃるかもしれませんが、原…

VIF (Variance Inflation Factor)を計算する関数を書いてみた(備忘録)

多重共線性(multicolinearity)の代表的指標として頻繁に用いられるVIF (Variance Inflation Factor)というと、Rでは普通に{car}とか{usdm}とかのパッケージに実装された関数があるのでそれらを利用すれば良いのですが、ちょっと訳あって自分で実装してみるこ…