2025-08-27

「推論する生成AI」は事前学習されていない課題を正しく推論することができない（共変量シフトに弱い）

先日の記事で「CoTを用いて『推論』する生成AI」の「推論」能力の限界について、論文2点を挙げて論じたところ思いの外反響が大きくてちょっとびっくりしたのでした。

なのですが、最近になって同じテーマに対して「厳密に条件統制されたデータセットを用いてLLMを実際に構築した上で実験した」という論文が出てきたとのことで、ちょっと読んでみました。それがこちらです。

実のところ、読んでみたらかなり技巧的かつ綿密に設計された内容の論文で当初一読した範囲では理解し切れない感じがありました。なのですが、非常に興味深い内容だったのと、その検証手法が斬新だったということもあり、このブログでは珍しいことですが2回連続で論文紹介をしてみようと思います*1。なおいつもながらですが、記事中に理解不足や認識の誤りなどの箇所がありましたら何なりとご指摘くだされば幸いです。

*1:主にGoogle TranslateとNotebookLMに頼りながらではありますが

2025-07-23

「推論する生成AI」は実際には思考しているわけではなく、丸暗記した結果を返しているに過ぎない

生成AI AI・人工知能機械学習

今回のテーマは以前からずっと言われ続けている話題なので特に目新しくも何ともないのですが、たまたま近い時期に2本の似通った内容の論文がarXivに出たので、まとめてダイジェスト的に紹介しようと思います。以下がそれらの論文です。1本目はApple、2本目はGoogle DeepMindによる研究です。

どちらもSNSや技術メディアでは既報の内容であり、ご存知の方も多いのではないでしょうか。これらの論文は本質的には「『推論する生成AI』は実際には思考しているわけではなく、丸暗記した結果を返しているに過ぎない」と各種の実験結果から指摘するものであり、今後の推論生成AIの研究開発を行う上で新たに考慮されるべき指針を提案しています。

2025-03-17

深刻な不具合のあるデータ分析は、大抵の場合データも実装コードも見るまでもなくそれと分かってしまう

データ分析ビジネス統計学機械学習

しばらく前に、こんなことを嘯いたら思いの外反応が伸びたのでした。

「データも見られなければ統計的学習モデルのアルゴリズムも実装コードも見られない」状況で、そのデータ分析のどこにどんな不具合があるかを「分析結果だけを見る」ことで言い当てるのってデータサイエンティスト的には最高に面白いゲームだと思うんだけど、同意してくれる人いますかね
— TJO (@TJO_datasci) 2025年2月7日

日本社会にデータサイエンスが本格的に普及するようになって10年強が経ち、空前のDXブームで猫も杓子もデータ活用を喧伝するようになって5年ほどが経ちますが、それでもなお「専門家から見れば中身を調べるまでもなく深刻な不具合のあるデータ分析」が行われていて、挙げ句の果てにその結果や成果物が大手を振って歩いているというケースはチラホラ散見されます。

そこで今回の記事では、ケーススタディ的にそういった「データも実装コードも見るまでもなく深刻な不具合のあるデータ分析だと分かってしまった」事例を幾つか取り上げてみようと思います。その上で、それらの根底に共通する課題を探ってみることとします。

渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

「推論する生成AI」は事前学習されていない課題を正しく推論することができない（共変量シフトに弱い）

「推論する生成AI」は実際には思考しているわけではなく、丸暗記した結果を返しているに過ぎない

深刻な不具合のあるデータ分析は、大抵の場合データも実装コードも見るまでもなくそれと分かってしまう