渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

データサイエンティスト(及び他のデータ関連職)のスキル要件(2022年版)

f:id:TJO:20220131144907p:plain
(Image by mohamed_hassan from Pixabay)

この記事は毎年恒例のスキル要件記事の2022年版です。昨年版は以下のリンクからご覧ください。

最初に正直に書いておくと、スキル要件自体は昨年版までとほぼ一緒で、大きなアップデートはありません。今回はまず最初に3職種の定義とスキル要件を並べた上で、それに解説を付すという形にしようと思います。

続きを読む

2022年版:実務の現場で働くデータサイエンティスト向け推薦書籍リスト(初級5冊+中級8冊+テーマ別14冊)

f:id:TJO:20220128154405p:plain
(Image by ElasticComputeFarm from Pixabay)

今年も恒例の推薦書籍リストの季節がやって参りました。……なのですが、相変わらず続くCOVID-19の影響*1でデータ分析業界及び隣接分野の新刊書を読む機会が減ったままにつき、例年とほぼ同じラインナップになっている点、予めご容赦いただければと思います。

*1:オフィスに行ける時期もあれば行けない(行く気になれない)時期もあるので、特に献本の形でご恵贈いただいた各種書籍がオフィスのメールボックスに放置されているケースが依然として多くあります

続きを読む

羅生門効果:マーケティングモデルを蝕む本質的な「曖昧さ」

前回の記事でも触れましたが、ここ最近いわゆる需要予測系のマーケティングモデル(特にMedia Mix Modeling: MMM)を手掛けることが増えています。

この手の統計モデルは経済学で言うところの「実証分析」に当たると思われ、一般には「予測」よりも「説明」に用いられることが多いです。より具体的に言えば、回帰モデルを推定した上で個々の変数のパラメータを比較して、例えば「デジタル動画広告をもっと強化した方が良い」というようなマーケティング上の示唆を得る、というような目的で用いられます。


ところが、これまた前回の記事で触れた通りでそれらのモデルに基づく「説明」には、どうしても「羅生門効果」の問題が生じ得ます。即ち、同じデータセットに対して似たような性能を示す回帰モデルが複数並び立った場合、どのモデルの「説明」を優先すべきか?という問題です。これは純粋に統計的学習分野の問題として捉えればある程度シンプルなアプローチに帰着させられるのではないかと思うのですが、実際のビジネスシーンにおけるニーズを考えると意外と複雑な問題になってしまうという印象があります。


ということで、今現在僕自身が「マーケティングモデルの羅生門効果」について抱えている課題意識をもとに、考えたことや調べてみたことをこの記事では簡単にまとめてみようと思います。よって、ここに挙がった課題について「これこれの解決策があるよ」という案がおありの方は、是非コメントなりで僕にお知らせいただけると大変に有難いです。


また久しぶりに論文を読む回でもあるので、明らかにここの読み方や理解が間違っているとか前提がおかしいとか、お気付きの点がありましたら同様にコメントなりでご指摘くださいm(_ _)m

続きを読む