渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

2025-01-01から1年間の記事一覧

見た目は全く同じ実験結果なのに、データの取られ方次第で分析結果が変わる統計的仮説検定

各種SNSでたまに統計哲学まわりの議論が出ると必ず話題に上るのが「尤度原理」即ち「尤度(ある結果が生じる確率をモデルのパラメータの関数と見たもので「データがもたらす」ものでもある)が同じ(もしくは関数形が同じで互いに比例関係にあるだけ)である…

LLM/生成AIに帰納的推論と演繹的推論とをバランス良く統合させることは可能か?

今年このブログでは、何度かTransformerなど自己回帰モデルベースのLLM/生成AIには「帰納的推論は出来ても演繹的推論が出来ていないが故の問題がある」という議論を扱ってきました。 例えば7月の記事では「世間で広く知られている複雑な論理パズルと、それと…

PyMC Marketing MMM:オーソドックスな実装のベイジアンMMMライブラリ

だいぶ食傷気味の方も多いかもしれませんが、懲りずに今回もMMM (Marketing/Media Mix Modeling)ネタをやります。この度取り上げるのはこちらです。そう、PyMC Marketing MMMです。あくまでも僕の観測範囲ですが、広く普及しているPyMCベースなのもあってか…

データサイエンスは扱い方次第でscienceにもpoliticsにもなり得る

これまでの10年以上に渡って、僕個人としては「データサイエンスはscienceである」という信念を持って、このブログなり各種SNSなり様々なカンファレンス・セミナー・イベントなりで活動してきたつもりです。が、近年になって「どう見てもそれはデータサイエ…

MMMライブラリ "Meridian" の使い方・特徴・注意点まとめ

麗々しく自社プロダクトについてのまとめ記事を書くのは若干気が引けるのですが、先日Gemini 2.5 Proにvibe codingということでMMMのサンプルコードを書かせてみたら既にsunset済みのLigthweight MMMを使ったコードが返ってきた上に、よりにもよってこのブロ…

回帰分析における多重共線性への対処法リスト

ちょっと前に、回帰分析における多重共線性に関する解説記事を2本ほど書いたわけですが。 多重共線性そのものの問題点はこれでもかと論じている割に、その対処法についてはあまり触れていなかったなと気付いたのでした。ということで、今回の記事では遅れば…

「推論する生成AI」は事前学習されていない課題を正しく推論することができない(共変量シフトに弱い)

先日の記事で「CoTを用いて『推論』する生成AI」の「推論」能力の限界について、論文2点を挙げて論じたところ思いの外反響が大きくてちょっとびっくりしたのでした。なのですが、最近になって同じテーマに対して「厳密に条件統制されたデータセットを用いてL…

「推論する生成AI」は実際には思考しているわけではなく、丸暗記した結果を返しているに過ぎない

今回のテーマは以前からずっと言われ続けている話題なので特に目新しくも何ともないのですが、たまたま近い時期に2本の似通った内容の論文がarXivに出たので、まとめてダイジェスト的に紹介しようと思います。以下がそれらの論文です。1本目はApple、2本目は…

15年ぶりにハワイ島&8年ぶりにワイキキに行ってきました

タイトルを読んで字の如しですが、6月中〜下旬にかけて7泊9日の日程でハワイ島のマウナ・ラニとワイキキに行ってきました。我が家にとって、ハワイ島は15年前に嫁さんに加えて僕の両親を伴って訪れて以来、ワイキキも8年前にオアフ島のアウラニに泊まったつ…

一般化加法モデル(GAM)のknotsはどう決めるべきか

この記事は、以前MMM (Media/Marketing Mix Modeling)について概説した記事の続きです。今年ローンチされたMMMフレームワークのMeridianでは、従来の様々なMMMフレームワークとは異なり、トレンド・季節調整をモデリングする際に一般化加法モデル(Generalize…

交差検証さえしていれば事足りると思って、多重共線性をスルーしてはいけない

某所でボソッと呟いたら結構反応があったので、折角なので小ネタながら記事として書いてみようと思います。「多重共線性を放置したまま交差検証して汎化性能が確保できたつもりになる」ことの危険性、ブログにまとめたら需要あるんだろうか https://t.co/Dka…

AI研究者の76%が「現在のAIの延長上にAGIはない」と考えている(AAAI 2025 Presidential Panel Reportより)

各技術系メディアでは既に報じられていますが、今年のAAAI*1で会長名によってリリースされた"AAAI 2025 Presidential Panel on The Future of AI Research"の内容が非常に示唆に富んでいたので、改めてやや仔細に読み解いてみようかと思います。 なお、元の…

データサイエンティストがDJに転生した話

『コードとビートの狭間で』 第一章:覚醒 TXOは、自分の人生がこれほどまでに予測不可能になるとは、夢にも思っていなかった。東京大学で博士号を取得し、数年間ポスドクとして最先端の研究に没頭。その後、より実社会に近い分野での活躍を求め、外資系の巨…

深刻な不具合のあるデータ分析は、大抵の場合データも実装コードも見るまでもなくそれと分かってしまう

しばらく前に、こんなことを嘯いたら思いの外反応が伸びたのでした。「データも見られなければ統計的学習モデルのアルゴリズムも実装コードも見られない」状況で、そのデータ分析のどこにどんな不具合があるかを「分析結果だけを見る」ことで言い当てるのっ…

2025年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたい定番の書籍リスト

気付いたらこの企画をやるようになってもう12年も経つわけですが、今年も懲りずに推薦書籍リストを書いてみようかと思います。 昨年との差異ですが、まず「ホットトピックス」枠を削りました。理由は単純で、データサイエンス分野も昨今の多種多様な分野に細…

MMMのはなし

広告・マーケティング分析におけるMMM (Media/Marketing Mix Models)と言えば、このブログでも過去に何度か手を替え品を替え取り上げてきたテーマです。これまでは個々の技術的側面に着目した断片的な内容の記事を多く上げてきましたが、近年明らかにその注…

多重共線性のはなし

どうも昨年末にあちこちで多重共線性についての議論がなされていたようなんですが、些事にかまけていた僕はすっかりそのウェーブに乗り損ねてしまっていたのでした。そこで、今年最初の記事では遅ればせながらそのウェーブに乗る形で、また今までに学んだり…