LLM chatbotが人類にもたらすのは、絶望なのか希望なのか - 渋谷駅前で働くデータサイエンティストのブログ

ちょっと前に以下のようなことを放言したら、思いの外反響が多くてちょっとびっくりしたのでした。それだけ、現代のLLM chatbot / generative AIの台頭に期待と不安を抱いている人が多いということの裏返しなのでしょう。

既に色々コメントが出ているけど、我々人類が「知的労働」だと思っていることの大半が実は「過去実績をなぞって適当にその場に合わせて組み立てているだけ」なんじゃないかと訝っているので、そういう「自称知的労働」は多分LLMで代替されると思う。新奇なものを生み出す仕事は相変わらず残る https://t.co/GGK41vSDcn
— TJO (@TJO_datasci) 2023年3月15日

昨年の年末振り返り記事でも話題にしたChatGPT（そして後続の各種LLM chatbot）ですが、今年に入ってからの話題の広がり方には想像を超えるものがあり、ついに朝の情報番組などでも取り上げられるなどあっという間にお茶の間にまで届くという有様になっています。

勿論当初はその「AIとは信じられない」ほどの流暢な受け答えと回答内容の的確さ、さらには各種プログラミング言語によるコード生成などの正確さなどから非常に高い評価を受けて大いに話題となったわけですが、人口に膾炙するにつれて「LLM chatbotが人類の全ての仕事に革命を起こす」という希望的観測に満ちた言説と「LLM chatbotが人類から多くの仕事を奪ってしまう」という絶望感に満ちた言説とが拮抗するレベルで世の中に溢れ、結構なカオスに至っているように見受けられます。

そこで、今回の記事ではChatGPTを初めとするLLM chatbotが人類にもたらすのは本当に絶望なのか、それとも希望なのか、という点について現段階でもある程度の自分なりの確信をもって言えそうなことをメインに、簡単に論じてみようと思います。なお、僕自身がLLMのここ3-4年の進歩については業界内傍観者以上の知識学識を持たないこと、そして立場上書けない事項があるということを、予めお断りしておきます。また事実や情報（特に学術・技術的な箇所）の誤りについては、是非識者の方々におかれましては忌憚なくご指摘いただけると幸いです。

そもそもLLMとは何か
LLMの驚異的な性能への期待の高さと、hallucination及び「不正確さの谷」という課題と
LLM chatbotは人類から仕事を奪うのか
データ分析職の今後の展望
現段階でのLLM chatbotの最適な使い方
最後に
余談

そもそもLLMとは何か

LLMとはLarge Language Models即ち大規模言語モデルのことで、2023年4月ではChatGPTのベースとなっているGPT-3.5/4やBardのベースとなっているPaLMがLLMの代表例として知られています。

GPTはGenerative Pre-trained Transformerの略で、その詳細については以前のバージョンであるGPT-2のWikipedia記事が詳しいです。文字通り訳すと「事前学習済み生成的Transformerモデル」といったところでしょうか。

Transformerについてはこちらの記事が分かりやすいと思います。技術的な詳細には踏み込めみませんが、基本的には「テキストの内容を多次元（例えば512次元など）の数値ベクトルに変換して入力と出力との間の依存関係を（主に語やフレーズの前後関係に基づいて）学習してモデリングする」仕組みのニューラルネットワーク(Neural Network: NN)です。「生成モデル」といった場合は、大雑把には何かしらの入力を与えることでそれを何らかの狙った形に加工して出力（生成）できるモデルのことを指します。

「事前学習済みモデル」というのはここ5-6年ぐらい隆盛を誇っているNNの一種で、事前にWikipedia記事コーパスやwebニュース記事コーパスといった莫大な量の自然言語の文書から成るデータセットを事前に読み込ませて学習させることで、様々な文章や単語に対応する内部表現ベクトルをあらかじめ作っておいてしまってあるモデルのことです。ちなみにNNのモデル構造を変えて、出力側に読み込ませるデータセットを画像や映像に変えれば、当然ですがテキストをもとに画像や映像を生成させることができます。例えばStable Diffusionなどの画像生成AIは概ねこの理屈に沿って作られています。GPTも4からはマルチモーダル（多感覚）ということで、テキストだけでなく画像データなども用いられています。

また、一般に機械学習モデルはパラメータ数を増やし続けると、学習データに対する過学習（過剰適合）という現象を起こしてしまい、未知データに対する予測性能がかえって悪化してしまいます。それ故、極端な大規模モデルはあまり性能を高くできないのではないかと以前は危惧されていました。ところが、GPTシリーズ・PaLMなどのLLMはパラメータ数を増やし続けているにもかかわらず、あるところから逆に非常に高い未知データに対する予測性能（汎化性能）を示すようになることが知られています。

これはgrokkingという用語で表現される現象で、やや情緒的な言い方をするとNNがデータを「理解」するようになることで、あるポイントを超すと過学習しなくなり逆に汎化性能が向上していくようだ、と指摘する研究が2022年に出ています。各種LLMが驚異的な自然言語処理性能を発揮する理由の一つに、このgrokkingが関わっている可能性は高そうです。

ところで、これまで話題にしてきたのはLLMそのものでした。これをchatbotにしたのが、今巷で話題のChatGPTを初めとするLLM chatbotたちです。素朴に考えれば、LLMに対して任意のテキスト入力を送ってその出力を表示するインタフェースさえあればLLM chatbotは実現可能なわけですが、ChatGPTに関しては事前に人間のテスターが質疑内容のチェックを行い、そこからのフィードバックによる強化学習などを用いてチューニングされている旨が既に公表されています。よって、今後現れるLLM chatbotも同じ手順をたどるであろうことが予想されます。

LLMの驚異的な性能への期待の高さと、hallucination及び「不正確さの谷」という課題と

ChatGPTは当初からその性能の高さが注目の的となっています。例えばGPT-3.5の時点でもアメリカの医師資格試験を解かせてみたら合格ラインに到達したという報告があり、ある意味これらのベンチマークの驚異的なスコアがLLM chatbotブームに火をつけたという側面があると思われます。

またGPT-4になってからは多くの資格試験類でGPT-3.5のスコアを上回って「人間並みの性能」を叩き出しており、これらのパフォーマンスを引いて「人類はChatGPTによって皆失業させられる」的な言説が大量に流布するようになっているのも皆様ご存知の通りかと思います。

これ以外にも、例えば「特定のプログラミング言語で特定のアルゴリズムを実装するコードを書かせる」とか「ちょっと凝った料理のレシピを出させる」といったユースケースも報告されていますし、面白いところだと「朝昼晩の食事の献立を曜日別に考えさせる」といった例もあったりします。そのいずれでも極めてクオリティの高いレスポンスを返している点もこれまでのchatbotにはなかった高い汎用性の顕れだとも言えるでしょう。

しかし、LLM chatbotに限らず例えば機械翻訳分野などでも用いられてきたニューラル言語モデル(NNLM)には古くから知られる問題があり、それは現在における各種LLMでも根本解決は出来ていません。それが"Hallunication"（幻覚）現象です。分かりやすく言うなら、LLM含むNNLMが堂々と流暢に嘘っぱちをアウトプットする、という現象です。これまた既に多くの報告と指摘があり、例えばChatGPTに関しても上掲したようにhallucinationの具体的な内容と問題点を指摘するメディア記事が出ていたりします。昨年末の振り返り記事でお見せした例でも、大河ドラマ「鎌倉殿の13人」主人公だった北条義時を「江戸時代に活躍した武将」と紹介した挙句全く無関係な土地で頓死したと解説してしまうなど、嘘っぱちというかデタラメが流暢に並べられていてもはや清々しいくらいです。

ちなみに、既にWikipedia英語版には独立した記事があるくらいで、英語圏では現時点でも結構深刻な課題として語られているようです。なお、以下はこのブログの概要をChatGPTに説明させた時のレスポンスですが、完全に嘘っぱちの著者名を答えている上に、それが誤りだと明確に指摘してもなお別の嘘っぱちの著者名を答えており、hallucinationが酷いとこうなるのかということが良く分かります。

では、このhallucinationは何故起こり、どうすれば防げるのでしょうか？　これらの点については実は上記のWikipedia記事でも触れられているように、未だ研究途上にあってどちらかというとまだはっきりとは分かっていないというのが現状のようです。

例えば、昨年公開された網羅的なサーベイ総説論文でもその傾向や現状での対策方法などは述べられているものの、決定的な原因究明や対策方法の提案はなされていません。

また、昨年公開された別の論文ではhallucinationを抑制するための仕組みを導入したにもかかわらず、却ってhallucinationが酷くなったという事例すら報告しています。

巷では「NNが確率的な出力を返すモデルだから」という説明がなされることもあるようですが、これについてはNNそのものやNNLMの専門家からは「NNは推論過程に揺らぎを与えるパラメータがないので確率的に振る舞っているわけではない」*1 *2と指摘されているようです。また、「LLMはテキストで表現される人間の知識のごく表面的な部分しか捉えていない」という指摘も見かけました*3。僕個人としては、どちらかというと「LLMなどの大規模モデルでは設定したネットワーク以外にも莫大な数のパラメータ同士で勝手に自らサブネットワークを作って勝手に異なる学習をしてしまう」という説*4の方がしっくり来る気がしているんですが、門外漢たる身としては何も分からない感の方が強いです。

ただ、個人的な感想を書いてしまうとhallucinationについては「そんなものはニューラル翻訳で散々ネタにされてきたはずでは」という思いの方が強いです。実際問題として、世にある各種のニューラル翻訳サービスはいずれもかなりhallucinationに悩まされた*5結果として、程度問題ながらもかなりのルールベースによる後処理をかけてhallucinationに由来する「誤訳」を避けるように工夫されています*6。この辺の話は先述のサーベイ総説論文でも触れられており、決して新しい問題ではないはずなのです。

にもかかわらず、ここに来て俄かにhallucinationがクローズアップされているのはやはりLLM chatbotに対する社会の関心と期待が過度に高いということの裏返しなのでしょう。ど素人の読みとしては「hallucinationの解決のためにはNNの理論解析研究が不可欠だ」と考えていて、そこに甘利俊一先生以来の日本の伝統的お家芸たる理論解析分野が貢献できる白地があるのではないかと期待しております。

そして、これは必ずしもLLMに限った話ではないのですが、僕が勝手に「不正確さの谷」と名付けた問題があります。読んで字の如くロボット開発における「不気味の谷」をもじった語ですが、要は「精度（例えばaccuracy）がどれくらいあれば実用に耐えるか」という話ですね。これについては上掲したばんくしさんの記事がズバリ的を射た意見だと感じていて、要は「従来のML/AI開発が80点ぐらいの出来だったところにLLMが90点を出してきたが、皆が本当に納得して『これはマジで使える』と感じるラインはその先の91点以上の世界」だったりするんじゃないか、ということです。

これには色々な意見があるかと思いますが、個人的には「知識や経験のある人間なら外さないポイントをLLMだと外してしまう」ケースがある、ということだと考えています。例えば僕の趣味の一つが自作インド料理なんですが、ChatGPTに南インド式チキンカレーのレシピを書かせてみるとマスタードシードやタマリンドといった南インド料理特有の材料はきちんと入れてくるくせに、物の見事にカレーリーフだけが抜け落ちるんですよね。これは南インドやスリランカの料理ではほぼ必須のハーブで、日本国内だとどうしてもこれの生の葉が欲しいということで自家栽培しているインド料理シェフが多いくらいの代物なのです*7。他にも、ChatGPTにMMM (Media Mix Model)のコードをRStanで書かせてみると、どれほど「季節調整やトレンドを考慮しろ」とコメントを追加しても毎回単なる線形回帰をStanで書いただけのコードを返してきたりします。どちらもGPT-3.5/4で使われているコーパスを考慮する限りでは学習データに正解の情報が含まれているはずなんですが、何故かうまくいってません。

ということで、ばんくしさんもご指摘のように「90点の出来で良い仕事ならLLMがやっても良い」という世間や業界の流れが今後強まってきそうだなと思う一方で、「91点以上の出来でないとLLMは使えない」という領域は結構な割合*8で残るのではないかと思っています。よって、その結構な割合に達する「91点以上を要求する」領域に対して、例えば「ラフな下作業はLLMで90点のレベルまでやって残り10点は熟練したヒトの専門家がやる」というような流れが生まれるかどうか、そして主流になるかどうか、によってLLMの普及速度は変わっていくのではないでしょうか。

LLM chatbotは人類から仕事を奪うのか

そもそものLLM chatbotのコンセプト（機械学習による生成モデルである・過去に存在した文書や会話などのデータを使っている・人間がその問答の妥当性を教示している）を考えれば、LLM chatbotが最も得意なのは「過去実績をなぞってその場のニーズに合わせて適当に組み立てる」作業であろうと簡単に予想がつきます。まさに冒頭で引用した放言の通りです。

よって、50年とか100年といった超長期的に見ればLLMそしてLLM chatbotが様々な「過去に公開された様々な情報や実績をなぞってその場のニーズに合わせて適当に組み立てる」系の仕事を代替するようになるのはほぼ間違いないと見て良いでしょう。これに当てはまる知的職業は実は結構多く、実際に医師・法曹・プログラマー・大学教員といった職業が槍玉に挙がることが多いようです。このブログの主題であるデータサイエンティストも良く槍玉に挙げられていますがこれについては後述します。中にはLLM chatbotの提供機関自身が発表する「LLMで消滅する職業一覧」なるものまであるようですが、流石にポジショントークの度が過ぎるのでここでは触れません。

ただ、中短期的には正直なところ「そんなにすぐLLM chatbotがヒトの仕事をガンガン奪っていく」というシチュエーションは発生しないのではないかと思っています。LLM chatbotの普及をジェームズ・ワットの蒸気機関発明によって引き起こされた産業革命になぞらえる動きは既に沢山見られますが、実際には例えばイギリスでの産業革命は1760年代から1830年代にかけて様々な周辺要素が加わりながら徐々に徐々に進んでいったとされています。そして、肝心のデータソースのLLMへの接続のような「周辺要素」の発展も必要なのは現代においても事情は変わりません*9。よって、例えば今後10年のうちに社会における多くの仕事がLLMに取って代わられて、大量の失業者で溢れる……ということは多分ないだろうと言って良いかと思います。

もっとも、あえてここでLLMに様々な仕事が代替されると仮定して、どんな仕事が超長期的には求められていくかを考えるのは面白いことだと思います。僕個人の考えでは、以下のようなポイントが大事になってくるのではないかと考えています。

オペレーション要員の必要性は下がっていく
ストラテジストの重要性が相対的に増す
「答え」をLLMが出すようになればなるほど「適切な問いを立てられること」の重要性が増す
Hallucinationそして「不正確さの谷」を潰す作業は依然としてヒトの仕事のまま
LLMの学習データに「まだ含まれない」ような新規性かつオリジナリティのある仕事を手掛ける

1は言うまでもないでしょう。「過去実績に基づくオペレーション」はLLM chatbotが最も得意な作業の一つなので、これは割と中短期的にもLLMによる侵食が進みやすい領域だと思います。よって、そのオペレーション多数を組み合わせて束ねて大きな動きにするという戦略を担う、いわばストラテジスト的な仕事をヒトが今以上に手掛ける必要が出てくるだろうというのが2です。一方で、LLMは「過去実績に基づく答え」を出すことに優れているので、その答えの価値を高めるためには「適切な問い」を立てることが重要になってきます。これが3なわけですが、マネジメントに関するビジネス書の類では言い古された言葉の割にこんなところで出てくるというのは面白いですよね。そして、4のhallucinationと「不正確さの谷」については前節でも書いた通りで、しばらくはLLMが出せるのは「90点前後の出来」のままであろうことを鑑みるに、「最後の10点を仕上げるヒトの専門家」の存在は重要なままではないかと思います。

後は冒頭の放言でも言及した5ですね。やはり何と言っても「LLMがまだ出来ないこと」を目指すというのは、ヒトならではのアドバンテージだと思います。問題は「それが本当にLLMの学習データにも含まれず、尚且つLLMがまだ生成できないものかどうか」というところでしょうか。もっともそれはこれまでのアートを初めとするクリエイティブな仕事で必ず求められてきた「過去になされてきた仕事を網羅した上で新奇なものを生み出す」という営みの厳しさを考えれば、それほど難しいことではないかもしれません。むしろクリエイティブな仕事をする人たちこそ、LLMの限界を知るために積極的にLLMを使ってみる必要があるという話になりそうです。

……で、こういう話をしていてそれっぽいなと思った喩えが「LLMは『駆け出しで時々ミスすることもあるが何でも出来る部下』であり、これを巧みな指示とマネジメントでうまく使いこなす『管理職』的な立場をヒトが担うべき」というものです。このように考えれば、全ての人類に「部下」を与えてくれるのがLLM chatbotだと見ることもできそうです。となれば、そんな「誰もが自由に使える部下にどう上手く仕事をさせるか」が問われる時代が今後やってくる、とも言えるのかもしれません。

データ分析職の今後の展望

ある意味僕にとっては昔から見慣れた光景ですが*10、「LLM chatbotの台頭でデータサイエンティストは失業する」という声が多く上がっているようです。が、これについては既に昨年の記事で書いた通りかなと考えています。

とりあえず「アナリストの延長としてのデータサイエンティスト」で、尚且つ機械学習を用いて何かを予測するタイプの業務ではなく、マクロデータに対する統計分析や市場実験で何かを説明するタイプの業務をメインに手掛けているのであれば、LLM chatbotに代替されるのは当面先の話になるのではないでしょうか。

というのも、戦略レベルのデータはいつまで経ってもなかなか一箇所に集約されなければ、戦略レベルの分析は自動化してまでやるほど高頻度に求められるものでもないわけです*11。しかも、最後のアウトプットからアクションに繋げるところには必ずヒト同士の緻密なコミュニケーションと、ヒト自身による意思決定が関わってきます。特に「因果推論を意識して適切な実験計画を立てて新たなデータセットを取ってくる」点は、そもそも論として「収集済みデータ」からしか学習ができないLLMにとっては守備範囲外にあるわけです。これらのヒトが行うステップを撤廃できない限りは、「アナリストの延長としてのデータサイエンティスト」の仕事はいつまでも残るでしょうし、やや刺激的なことを言えば「アナリスト的なデータサイエンティストは当面LLMでは失業させてもらえない」ということになると思われます。

一方で「エンジニアの延長としてのデータサイエンティスト」即ち機械学習エンジニアの立場から見た場合は、例えば「自前の汎用的な自然言語処理モデルを作っていきたい」という動きが萎んでいくであろうことは想像に難くないです。少なくとも自然言語処理と何かを結びつけるタイプの業務は、割と中短期的なスパンでLLMに代替されていく可能性があることは否定できません。しかしながら、各種LLMの台頭は「LLMが出来る範囲の汎用的なことは既に解がある」状態になるというだけであり、LLMの存在を前提とした機械学習システム開発のニーズはそうそう簡単には消えないのではないでしょうか。

そしてもう一点、優れたLLMはそのモデルの性質上優れたembeddingを提供する事前学習モデルでもあります。例えば元のLLMの性質を理解した上で、LLMが提供するembeddingをベースとした転移学習でより現場のニーズに合わせた（そして願わくばhallucinationも少なく「不正確さの谷」を乗り越えた）実用的な機械学習モデルを作っていくには、何よりも腕の立つ機械学習エンジニアが必要です。今後LLMのAPIが普及するにつれて、逆にますます多くの機械学習エンジニアが「各現場向けにカスタマイズされたLLMベースのMLプロダクト」を作るために求められる可能性すらある、と個人的には考えています。

現段階でのLLM chatbotの最適な使い方

LLM chatbotの具体的かつ効果的な使い方については既に多くのearly adopter層の人たちがこれでもかとユースケースを披露しているのをあちこちで見かけるので、僕がここで四の五の論うよりはそういった具体例をご覧いただいた方が手っ取り早いかもしれません（汗）。

My unwavering opinion on current (auto-regressive) LLMs
1. They are useful as writing aids.
2. They are "reactive" & don't plan nor reason.
3. They make stuff up or retrieve stuff approximately.
4. That can be mitigated but not fixed by human feedback.
5. Better systems will come
— Yann LeCun (@ylecun) 2023年2月13日

閑話休題。LLM chatbotの「最適な使い方」については、NNの三開祖の一人であるYann LeCunのコメントが参考になるかと思います。即ち「物書きのサポート役」として使うのが良いだろう、と。なお彼は「星座占いの結果を考えるのにちょうど良い」ともジョークを飛ばしていましたが、鋭いところを突いていると感じます。実際のところ、hallucinationと「不正確さの谷」を勘案すると、既に十分なスキルと見識のある人が「アシスタント」として用いるのが最も効果的だと考えられます。これはニューラル翻訳でも同じはずで、いきなり全文そのままコピペする人は少なく、原文（自分が書いた場合でも外から用意してきた場合でも）を翻訳した結果をまず見て、それから細かな用途に合わせて自分で手を入れるという人の方が多いのではないでしょうか。分かりやすく言えば、createさせるというよりrewriteさせるという方がLLMには向いていそうです。

その意味でいうと、既にユースケース記事で同様のものを複数見かけていますが「自分で沢山テキストを書いて試行錯誤する代わりに、LLM chatbotに適当なプロンプトを与えて何パターン・何十パターンとドラフトを作らせて、その中から一番良さそうなものだけを選んで最後に自分で仕上げる」というのが、現段階では最も効果的かつ効率的な使い方なのかなと思いました。何を隠そう、実はこのブログ記事も節見出しとその内容の一部だけを書いたドラフトの状態でChatGPTに読み込ませて残りを全部書かせようとしたんですが、流石に長大過ぎたのか大してrewriteしてくれませんでした（笑）。

最後に

最後に、ちょっとした蘊蓄を披露させてください。

シャンパンと言えば、誰もが知るフランス・シャンパーニュ地方が誇る世界に冠たる伝統的製法によるスパークリング・ワインですが、その製造工程の中に「ルミュアージュ（動瓶）」という工程があります。これは瓶内二次発酵でボトルの中に溜まっていく澱を毎日少しずつボトルを回すことで1箇所に澱を集めるという作業なのですが、以前は人手でやっていてそれはそれは大変に手間のかかる作業でした。しかし現代ではこの作業は機械化が進んでいて、人手の6倍のスピードでこなせるそうです*12。その上、人手で動瓶させたものと機械で動瓶させたものとをブラインドテイスティングで比べてみても、味に差が出ないことが分かっています。故に、現在大半のメゾン（蔵元）では機械で動瓶を行なっています。

ところが、ポル・ロジェ (Pol Roger)という古くからの有名メゾンでは、21世紀の現在でも動瓶を人手で行っているんですね。かの第二次大戦の英雄サー・ウィンストン・チャーチルも愛飲したということで名高いシャンパン・メゾンですが、「味が変わらないとしても人手『だけ』で丁寧に作られているという事実がシャンパンに価値を与える」ということで今も人手による動瓶にこだわっているそうです。ちなみに物の本によればスタンダードラインは機械で動瓶させているけれどもトップキュヴェは人手で動瓶させているというメゾンは他にも少なくないそうで、いかに「人手だけで作られている」ということがブランドに価値を与えるかが分かるエピソードだと思います。

……以上はあくまでも僕の個人的な趣味の話ですが、機械で動瓶させて作られるスタンダードラインのシャンパンと、手間暇かけて人手で動瓶させて作られるトップキュヴェのシャンパンとが市場に共存しているのを見る限りでは、LLMと人類が仕事を奪い合って皆が不幸になる未来は多分来ないのではないかと感じています。他の製品（例えば包丁や木桶のような工芸品など）でも機械生産品と手工業生産品とが共存しているケースは幾つもありますが、「品質に差がない」ことが明らかであるにもかかわらず共存しているケースは、僕が知る限りではシャンパンぐらいです。

この例に見られるように、ヒトが「何に価値を認めるか」を決める限りは、LLMと人類は案外超長期の将来に渡ってもうまく共存していけるのではないかと個人的には期待している次第です。また、そういう社会が到来するよう僕としても微力ながら何がしか貢献できればと願っております。

余談

上掲したYann LeCunのツイートですが、その後に「（Transformerのように語順やフレーズの前後関係をメインに学習する）自己回帰型のNNでは限界がある、もっと優れたLLMは違うタイプの機械学習システムから生まれるだろう」という趣旨のことを言っています*13。同様の指摘は彼の著書『ディープラーニング学習する機械』の中でも述べられており、僕も全くもって同感です。現状の自己回帰型NNによるLLMだと性能向上には限界があるかも？ということは頭の片隅に入れておいて損はないかと思います。

また、以前あるところで見かけたコメントとして「hallucinationは『作話』の症状に似ている」というものがありましたが、これも僕には大いに首肯できるものがありました。もしかしたら、ヒトの自然知能は例えば「知識ベースユニット」と「（自己回帰型NN的な）文脈記憶ベースユニット」とに分かれていて、これが各種認知機能障害によって前者が損なわれると作話が生じるのかなと。だとすると、自己回帰型LLMが作話を頻発させるのは当然で、これを解決するには知識ベースの何かを追加しなければならないのかもしれませんね。確かこれまた同様のことをLeCunは著書で述べていたはずです。

ところで、この記事を全部書き終わった後で改めて前出のばんくしさんの記事を読み返してみたら「ああこれはほぼ全く同じ話を違う口が言っているだけだな」という感想になりました（苦笑）。まぁ、同じ業界人同士考えることは似ていて当然ですね、ということでお後がよろしいようで……。

*1:例えばhttps://twitter.com/odashi_t/status/1638114021277851648など。またYann LeCunのツイートhttps://twitter.com/ylecun/status/1625127902890151943も参考になるかと

*2:追記：こちらのスレッドもご参照ください。幾つか補足説明がされていますhttps://twitter.com/odashi_t/status/1639678962539298817

*3:例えばhttps://twitter.com/ylecun/status/1625123045261344769など。プログラミングのコードが完璧に生成されるのに対して自然言語の受け答えだとhallucinationが多くなる理由もこれだと指摘している

*4:以前どこかで論文を見かけたんですが出典がどうしても思い出せないので、どなたかご教示下さいorz

*5:「実際の意味とは真逆の翻訳が返ってきた」みたいなネタはTwitterやRedditで散々ネタにされたはず

*6:例えばDeepLでは何故か元の文章の中から訳されずに省略されるという現象に遭遇したことのある人は多いはずです

*7:僕もベランダで自家栽培しています笑

*8:これは冗談ではなく5割を超えると思います

*9:紙ベースの発注・受注データの電子化＆DWH格納みたいなプロジェクトがいかに進んでいないかを思い出してみてください

*10:AutoML技術が普及した時は「AutoMLの台頭でデータサイエンティストは失業する」と言われたものです

*11:よってそれらのデータは異なる部門間や酷いと異なるベンダー間で分散してバラバラに保存されていたりする