渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

自己回帰型モデルによる事前学習スキームの限界と、ビジネス実務の場で見える現実と

早いもので、2024年も恒例の年末回顧記事を書く時期になりました。ということで、今回は一年を通じて話題に事欠かなかった生成AIに関する最近の論争と、一方でBtoBのビジネスの現場で感じている現実とを綴ることで、今年の振り返りといたします。

ビジネス実務で「正しいデータ分析」を行うということ

一般に、ビジネス実務におけるデータ分析というと、経営者や各種ビジネス部門の責任者といったステークホルダーたちが「ビジネス上の意思決定のためのエビデンス」を得る目的で、往々にして社内外のデータ分析の専門家たちに依頼して実施させるものであるこ…

LLMには"Super Weights"があるという話と、現実のヒトの脳との関連性を考えてみる

X (Twitter)を眺めていたら、面白そうな論文が流れてきました。それがこちらです。実際に流れてきたのはこちらの紹介記事なんですが、その要約を読んだ限りでもなかなかに興味深い現象であるように思われます。ということで、何番煎じかもはや分かりませんが…

ソウルに行ってきました

11月上旬にお隣韓国はソウルに行ってきました。ということで、今月は特に論じたいテーマも見当たらないのでこのブログに海外旅行に行ってきた時の定番の旅行記記事を書き綴っておくことにします。もっともお隣韓国は今や日本では定番のお手軽海外旅行先です…

欠損値処理に関する備忘録

最近某所で話題になっていたのが「欠損値処理はどうやるべきか」というテーマ。これは太古の昔から「荒れるテーマ」として有名で、今回も大いに荒れていて傍観している側としては面白かったんですが(笑)、古老ともあろう身がただ面白がっているだけでは自…

「見せかけの回帰」の復習

先日のことですが、Querie.meでこんな質疑がありました。これは非常にご尤もなご意見であり、実際この問題提起に近いシチュエーションを見かけたことは五本の指では数え切れないくらいあります。ということで、今回の記事では元々の問題意識ともいえる「見せ…

生成AIの推論が高度になればなるほど、使う人間の側にも高度な知識が求められる

先日こんなことを放言したら、思いの外結構伸びてしまったのでした。「生成AIが博士号レベルの高度な課題解決や推論が出来る」ようになったら、その出力が正しいかどうかを判定できるのは同レベルの専門人材だけなので、そういう人材の需要が逆に高まる気が…

AIや機械学習が持て囃されて、統計分析やデータ可視化がいまいち主流になれない理由

先日のことですが、こんなことを放言したら思いの外伸びてしまいました。データ可視化は一時期物凄く流行った割に今はパッとしない印象があるんだけど、それは結局のところデータ可視化が「見る人に『考えさせる』仕組み」だからだと思う。現実の世の中では…

『ベイズデータ解析』はベイズ統計学を用いる全ての実務家が座右に置くべき第一級の鈍器

ベイズデータ解析(第3版)森北出版Amazon先日のことですが、『ベイズデータ解析』を訳者のお一人菅澤さんからご恵贈いただきました。もう一目見ただけで「鈍器」以外の語が出てこないくらいの立派な鈍器で(笑)、原著のBDA3*1に負けないくらいの鈍器っぷりが…

実務において回帰分析を行うに当たっての注意点を改めて挙げてみる

先日のことですが、以下のニュースが統計的学習モデル界隈で話題になっていました。肝心の箇所が会員限定コンテンツなので簡潔にまとめると、従来モデルよりも説明変数に入れる海域の数を増やした上で、Lasso(L1正則化)回帰で多重共線性を抑えつつ汎化性能…

フィジー(デナラウ / ナンディ)に行ってきました

Bula!*1 コロナ禍もすっかり落ち着いてようやく元通り恒例化した我が家の(一足早い)夏休み海外旅行ですが、今年は夏至のフィジーに行ってきました。我々としては初めてのハワイ以外のポリネシア方面への旅になったのですが、事前の期待以上に素晴らしいと…

機械学習を使うデータサイエンスの仕事に比して、統計学を使うデータサイエンスの仕事が産業界に少ない理由

近年のデータサイエンティスト界隈では、僕が以前スキル要件記事でも提唱した通りの「ソフトウェアエンジニアの延長としての機械学習エンジニア」(機械学習メイン)と「アナリストの延長としてのデータサイエンティスト」(統計学メイン)とにキャリアもポ…

生成AIによる「慣用表現の『乗っ取り』」と、その根底にある別の問題と

かなり前から「ChatGPTに学術論文を(英語で)書かせると"delve"のような普段使わないような単語が多く使われるのでバレやすい」という話がSNS以下各所で頻繁に噂されていたんですが*1、最近になってこの件について面白いpreprintが発表されていたのを知りま…

過学習(過剰適合)のはなし

すっかりおじさんになってしまった身としては近年の日本のミュージックシーンに極めて疎くなって久しいのですが、最近になってAdoさん*1の楽曲に『過学習』というタイトルのものがあるということを知ったのでした。一体どこで「過学習」なんてマニアックなテ…

『因果推論』(金本拓:オーム社)は因果推論に留まらず現代的なマーケティング分析手法まで網羅したバイブル

因果推論: 基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ作者:金本 拓オーム社Amazon著者の金本さんからご指名でご恵贈いただいたのが、こちらの『因果推論 ―基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ―』…

「データサイエンティストがヒーローとなって世界を牛耳る闇の権力者集団と戦う」映画を自主制作しました

良い時代になったもので、映像制作とか娯楽作品の創作とかやったことがなかった僕でも生成AIを駆使すれば自主制作映画が作れるようになりました。ということで、以下にそのPRを並べておきます。こちらのYouTubeのリンクから見られます! タイトル Codebreake…

どのような場面で多重比較補正が必要なのか

先日のことですが、Querie*1で以下のような質疑がありました。恐らくですが、これは僕が懇意にさせていただいているマクリン謙一郎さんがコメントしていた件に関連する話題だと思われます。たしかにこれではないからHARKingとはちょっと違うと思うんだけど、…

ビジネスの実務で「因果」を推測するということ

統計的因果推論と言えばすっかり統計学分野ではお馴染みのアプローチになった感があり、また機械学習分野でも扱うテーマが複雑化するにつれて注目が高まり続けているトピックスという印象があります。 このブログでも2016年ぐらいから因果推論に関する記事を…

2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト

毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。 今回のバージョンでは、趣向をちょっと…

「入試に数学を課さないデータサイエンス学部」は是か非か

最近の話ですが、以下のようなニュースが話題になっているのを見かけました。 データサイエンス系の学部は文理融合の学びを掲げ、文系の受験生も集めるため、受験科目に「数学」を含まない入試方式を設ける大学も少なくない。河合塾によると、私立大のデータ…

ヒトだからこそ価値を出せる余地は、AIやデータサイエンスの「外側」の本質への関わり方にある

恒例の年末振り返り記事ですが、もうタイトルが示す通りです。例年通りであれば淡々と1年間の業界動向や個人的な学び、はたまたちょっとした私事などを綴るのですが、今年はたまたま良いお題がやってきたのでまず最初にその話を書こうと思います。

「仮説ドリブン」という名の甘い罠

今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプロ…

CausalImpactは実装によって中身に重大な差異がある

CausalImpactについては、過去にこのブログでも何度か話題にしてきたかと思います。端的に言えば、seasonalityによるバイアスを補正するための実験計画であるDID(Difference in Differences:差分の差分法)によって得られたtest/controlグループの時系列デ…

データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない

前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransformerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなも…

「機械学習で時系列予測はできるのか」論議がTransformerと共に帰ってきた

先日、こちらのポストをお見かけしました。AI技術開発部の高橋が社内勉強会の資料「時系列予測にTransformerを使うのは有効か?」を公開しました。論文Are Transformers Effective for Time Series Forecastingの紹介を中心に、時系列予測について解説してい…

ビジネスにサイエンスを持ち込むということ

先日、『しっかり学ぶ数理最適化 モデルからアルゴリズムまで (KS情報科学専門書)』の梅谷先生がこんなポスト(ツイート)をされているのを拝見したのでした*1。個人的には「学問的なものでビジネスのボトルネックを解消する」や「学問的なものでビジネス…

MMM (Media/Marketing Mix Modeling)を回すなら、まずGeorge E. P. Boxの格言を思い出そう

「最後の統計学界の大御所」の一人で、2013年に亡くなったGeorge E. P. Box*1が残した格言 "All models are wrong; but some are useful"(全てのモデルは間違っている、だが中には役立つものもある)ですが、このブログでは過去に何度も紹介しているのでお…

10年経ってもついに消えずに残った、データサイエンティストという職業

このブログでも何度か引用しているこちらの記事で、「データサイエンティストという職業は10年以内に消える」という趣旨の議論がされていたのがちょうど10年前の2013年でした。ちなみにこの記事はついているブックマーク数に比して当時は結構注目を集めたと…

NN研究における再現性にまつわるエトセトラ

先日、ふとしたきっかけでしましま先生*1がこちらの論文について触れられているのを見かけたのでした。これは推薦システム分野におけるNN研究の再現性について検証した2019年の論文で、近年のトップ会議*2に採択されたNN手法18個に対して再現を試みたところ…

エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選

(『IT Text 自然語処理の基礎』より)3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影…