AIハルシネーション: なぜモデルは正しく聞こえて間違うのか

60秒で分かる答え

AIハルシネーションとは、言語モデルが文法的に完璧で、トーンが自信に満ち、事実として誤った内容 — 捏造された引用、存在しない判決、架空の薬、捏造された統計、偽の言葉の引用 — を生成することです。モデルは嘘をついているのではありません。訓練された通りのことをしているのです。最ももっともらしく聞こえるテキストを生成しているのです。もっともらしさと真実は、ほとんどの場合一致します。それらが分岐するとき、あなたはハルシネーションを得ます。

ハルシネーションが危険なのは、まさに、モデルの出力の中で、この段落が間違っていて他は正しいということを示すものが何もないからです。トーンは均一です。したがってハルシネーションを捕らえることは、より注意深く読むことの問題ではありません。それには外部からのチェック — 異なる経路で同じ回答を生成する2番目の独立した推論者 — が必要です。経路が一致するとき、共同ハルシネーションの可能性は急激に下がります。経路が異なるとき、あなたはそれに基づいて行動する前に検証する価値のある何かがあるというフラグを得ます。

形式的な定義

技術文献において、AIハルシネーションとは根拠のない出力 — 訓練データに支持されず、入力から導出できず、現実世界に固定されていない — でありながら、十分に根拠のある出力と同じ流暢さと自信で生成されるものです。

これは、時として同じ言葉でまとめられる3つの失敗モードとは異なります。

誤りとは、モデルが明確に提起された質問に対して、入力の誤読から生じる間違った回答をすることです。モデルはデータを理解しました。ただ計算を間違えただけです。誤りは、より明確なプロンプトで再実行することで捕らえることができます。

知識のギャップとは、モデルが正直に知らないときです。例えば、訓練のカットオフ後のイベントについて尋ねられた場合などです。行儀のよい応答は「分かりません」です。キャリブレーションの悪い応答は推測することです。知識のギャップの下で推測することはハルシネーションのように見えるかもしれませんが、構造的に異なります。モデルは創作するよう求められたのです。

ユーザーとの不一致とは、モデルがユーザーが好まない真の回答を生成し、ユーザーがそれを「間違い」とラベル付けすることです。これは技術的な意味でのハルシネーションではありません。

本来のハルシネーションは、モデルが自分の言っていることに対して実際の認識論的根拠を持っていないにもかかわらず、他のすべてと同じ権威でそれを言うケースです。出力は内部的に一貫し、文法的に完璧で、根拠がないことを示す表面的なしるしを持っていません。それが定義的な性質です。

この用語自体は人間の知覚から借りられています。ハルシネーション(幻覚)とは、知覚者が鮮やかに体験するが対応する現実がないものです。類推は不完全です(モデルは「知覚」しません)が、直感は転移します。ユーザーは現実のように感じられて現実ではないものを読みます。

なぜ言語モデルはハルシネーションするのか

ハルシネーションをどう捕らえるかを理解するには、なぜそれが起こるのかを理解しなければなりません。メカニズムはバグではありません。それは、訓練が最適化したことを正確に行っているモデルです。

現代の大規模言語モデルは、ただ1つの主要目的 — 前に来たすべてが与えられたときに次の単語を予測する — で膨大なテキストコーパスで訓練されます。その目的はもっともらしさ — 訓練データのパターンに適合する出力 — を報酬とします。それは直接真実を報酬としません。訓練プロセスには、スケールで「この文は真である」「この文は偽である」とモデルに告げる神託がありません。代わりに持っているのは「この文のパターンはコーパスで一般的である」というものです。

ほとんどの質問では、もっともらしさと真実は揃います。訓練コーパスは大きく、答えはよく証明されており、モデルは正しく補間します。これが言語モデルが多くの場合に有用である理由です。興味深い失敗モードは、もっともらしさと真実が分岐するときに起こります。

この分岐は4つの条件下で最も顕著です。

第一はデータを超えた特異性です。モデルに具体的な判例引用、具体的な薬物相互作用、具体的な歴史的日付を求めてください。基礎となる知識が薄くても、モデルはもっともらしく聞こえる回答に手を伸ばすでしょう。訓練データには引用形式の文が何百万も含まれています。1つを生成するのは簡単です。実際の検証可能な引用を生成するには、モデルが常に持っているとは限らない異なる種類の固定が必要です。

第二は知識のロングテールです。一般的なトピックは訓練データに強く表現され、よく回答されます。希少なトピックは疎に表現され、浅い理解を覆い隠す表面的な自信で回答されます。小規模言語、ニッチな規制、最近の発展、少数派の文化的文脈 — すべてがこのロングテールでより遠くにあり、すべてがより高いハルシネーション率を引き寄せます。

第三は有用であろうとする圧力です。モデルは通常、「分かりません」のような応答を罰し、関与した実質的な回答を報酬とする報酬シグナルで訓練されます。これはほとんど望ましいことです。努力するモデルが欲しいのです。しかし、正直な不確実性が正しい出力であろうときに、推測の方向にバランスを傾けます。

第四は答えの存在を前提とするプロンプトの枠組みです。「Xについて判決を下した裁判所の名前は?」と尋ねると、モデルはそのような裁判所の存在を質問によって確立されたものとして扱い、もっともらしい名前を生成します。モデルは、たとえその仮定が誤りであっても、プロンプトに埋め込まれた仮定と協力しています。

要点は、現在のモデルが訓練が悪いということではありません。要点は、言語モデルのアーキテクチャと目的により、ゼロでないハルシネーション率が偶発的ではなく固有のものになっているということです。どれほどの微調整もそれを排除しません。減らすことはできます。議論で消すことはできません。

なぜ単一のモデルは自身のハルシネーションを確実に捕らえられないのか

自然な衝動は、モデルに自身をファクトチェックするよう求めることです。これは魅力的で、機能しません。

言語モデルがハルシネーションを起こした主張を生成するとき、その主張を生成したのと同じ統計的表面が、「確かですか?」と尋ねられたときに自信に満ちた自己肯定を生成する傾向があります。モデルには、十分に根拠のある主張ともっともらしく聞こえるだけの主張を区別する内部メカニズムがありません。確実性のシグナルは両方の種類の出力にわたって一貫しています。

したがって、同じモデルに自身を「検証する」よう求めることはほとんど演劇的です。「私の訓練データに基づくと」や「確立された情報源によれば」のようなフレーズが追加された、元の回答の磨き上げられた言い換えを得るでしょう。それらは、元の主張が健全であったかどうかに関係なく、信頼できそうな回答に関連していることをモデルが学習したフレーズです。

いくつかの具体的な技法は、自己チェックを控えめに改善します:

自己一貫性は、サンプリングでモデルに複数回プロンプトし、サンプル間の合意を見ます。これはいくつかのハルシネーションを捕らえます。間違っているがもっともらしい回答は、正しい回答よりもサンプル間で多く変動するからです。しかし、モデルの盲点を共有します。すべてのサンプルが均一に間違っているトピックは、一貫した合意のように見えます。

思考連鎖プロンプティングは、モデルにステップごとに推論するよう求めます。これは論理問題のパフォーマンスを向上させますが、事実のハルシネーションには対処しません。ステップ自体が結論と一緒にハルシネーションされる可能性があるからです。

検索拡張生成は、モデルを外部文書に固定します。これは、検索が正しい文書を見つけ、モデルがそれらが言っていることについて正直であるときに、真に効果的です。検索が外れる(モデルは訓練データのもっともらしさに頼り戻る)ときや、モデルが取得した文書を選択的に誤って引用するときには、はるかに効果的ではありません。

これらの技法はどれも、根本的な問題を解決しません。言語モデルの信頼の概念は、外部の真実ではなく流暢さに対してキャリブレーションされています。アーキテクチャは、単独では外部チェックを実行できません。

これが、ハルシネーションへの耐性が根本的にシステムの問題であり、モデルの問題ではない理由です。解決策はモデルの外から — 他のモデルとの比較、権威ある情報源との比較、または人間の専門家との比較から — 来ます。

マルチモデルコンセンサスはどのようにハルシネーションを捕らえるか

単一のモデルが自身のハルシネーションを確実に検出できないなら、問題は次のようになります。何ができるのか?

マルチモデルコンセンサスはスケールする最も実用的な答えです。原理は単純で、実装はより込み入っています。

原理: 異なる組織が異なる訓練データで生み出した異なるモデルは、異なるハルシネーションを起こします。ハルシネーションは、定義上、モデルがもっともらしさから創作した出力です。もっともらしさの表面はモデル間で異なります。それらの訓練表面が異なるからです。真に独立した2つのモデルが同時に同じ偽だがもっともらしい主張を創作する確率は、どちらか一方が単独でそれを創作する確率よりもはるかに低いです。

これが、コンセンサスがハルシネーションに対して効果的である構造そのものです。5つや6つの独立したモデルが同じ具体的な主張 — 同じ薬の名前、同じ判決、同じ統計 — に収束するとき、5つすべてが独立して同じようにハルシネーションした可能性は急激に下がります。それらが分岐するとき — モデルAがXと言い、モデルBがYと言い、モデルCが存在しないと言うとき — 元の主張があなたが行動する前にもっとチェックする価値があったというフラグを得ます。

実装は、効果を破壊する3つの罠について注意深くなければなりません。

罠その1: 偽の独立性。 同じファミリーのまたは実質的に重なるコーパスで訓練された2つのモデルは、ハルシネーションを共有します。それらの合意は証拠ではなく、相関した誤りです。意味のあるコンセンサスは、真に異なる系統のモデルを使用します。

罠その2: 表面的な比較。 コンセンサスシステムが回答の語彙的表面だけを比較すると、意味的合意(同じ主張、異なる単語)を見逃し、語彙的合意(同じ単語、異なる意味)を過剰にカウントします。比較は、各回答から抽出された主張のレベルでなければなりません。

罠その3: 隠された不一致。 不一致を要約して取り除くコンセンサスシステムは、自身の目的を打ち負かします。不一致こそが、ユーザーが見る必要のあるシグナルです。よく設計されたコンセンサス出力はそれを保持します。

3つの罠すべてが避けられたとき、マルチモデルコンセンサスは単一モデルのハルシネーションの有意な割合を捕らえます — 孤立して検出するのではなく、ユーザーがさらに調査できる不一致点として浮上させることによってです。

これが、「複数のAIに尋ねて比較する」がマーケティングのキャッチフレーズ以上である構造的な理由です。それは、外部システムが、モデルが集合的に知っていることと、そのうちの1つが現在創作していることの境界を示す唯一の実用的な方法です。

ハルシネーションが最も重要なとき

ハルシネーションは一様に危険ではありません。コストは、ユーザーが間違った回答で何をするかによります。

利害の低い使用 — カジュアルなメッセージを起草する、ブレインストーミングをする、個人使用のために長文書を要約する — では、ハルシネーションされた詳細はほとんど小さな迷惑です。ユーザーが唯一の利害関係者であり、検出されない誤りの結果は限定的です。

利害の高い使用では、ハルシネーションは複合します。

健康に関する質問については、ハルシネーションされた薬物相互作用、捏造された症状と疾患の関連、または発明された投与量が、誤ったセルフケアの決定や臨床医への誤った質問を引き起こす可能性があります。このドメインでのハルシネーションは、歴史的に文書化された害につながってきました。

法的な質問については、ハルシネーションの最も文書化された形態は捏造された判例引用 — 存在する裁判所名、存在する裁判官名だが存在しない事件 — です。これらを提出や契約での議論に頼るユーザーは、直接的な職業上の結果に直面する可能性があります。

金銭的な質問については、ハルシネーションは発明された統計 — 創作された歴史的リターン、架空の利回り、捏造された規制参照 — の形を取る傾向があります。これらは、形式がデータのように、権威あるように見えるため、特に危険です。

研究と学術作業では、ハルシネーションは最も頻繁に発明された参考文献 — 存在しない論文タイトル、共著したことのない著者、その論文を掲載したことのない雑誌 — として現れます。出力は実際の引用リストと構造的に同一であり、実際の文献に対する検証だけが、どのエントリーが架空であるかを明らかにします。

ジャーナリズムと事実調査については、ハルシネーションは実在の人物に帰属された捏造された引用、発明されたイベントの時系列、自信に満ちた誤った帰属を生み出す可能性があります。これらのいずれかを公開することのダメージは評判上のものであり、時に法的なものです。

共通の糸は、ハルシネーションが、ユーザーが出力を独立して検証する装備が最も少ないところで最もコストが高いということです。専門家はハルシネーションされた薬物相互作用を発見できます。素人はできません。実務弁護士は偽の引用を発見できます。一般の人はできません。モデルの自信に満ちた出力と読者がそれをチェックする能力との非対称性が中核的なリスクです。

実際にハルシネーションリスクを減らす方法

マルチモデルコンセンサスを使用する以上に、ユーザーはハルシネーションに基づいて行動する可能性を下げるいくつかの習慣を採用できます。

答えが重要なときは、毎回情報源を求めてください。 具体的な主張に対して情報源を挙げられない、または挙げないモデルは、その具体的な主張については信頼性が低いです。情報源が与えられたら、チェーンに頼る前に少なくとも1つを抽出チェックしてください。

具体的な数字を最高リスクのコンテンツとして扱ってください。 日付、パーセンテージ、法律番号、薬の用量、判例名 — 権威の質感を持つもの — はハルシネーションの最も一般的な表面です。一般的な枠組みよりも、具体的なものをより懐疑的に扱ってください。

異なる枠組みで再質問してください。 モデルが自信に満ちた主張をあなたに与えたなら、仮定を逆にして同じ質問をしてください。ハルシネーションされた回答は、同じトピックについて自身の以前のバージョンと静かに矛盾することがよくあります。

取り消さないであろう決定にはマルチモデルコンセンサスを使ってください。 これは最も影響力のある習慣です。健康、法的、金銭的、または評判の結果を伴うものはすべて、独立した推論者の比較から来るセカンドオピニオンに値します。

最後の1マイルのためにAI出力を人間の専門家に持っていってください。 特に規制されたドメインで。AIは準備作業 — 包括的、広範、速い — を行います。人間は認証 — 狭く、深く、責任ある — を行います。

よくある誤解

「現代のモデルはもうハルシネーションしない。」 一般的な質問では2年前よりもハルシネーションしません。ロングテールの質問、非常に具体的な事実の主張、答えの存在を前提とするプロンプトの枠組みの下では、依然としてハルシネーションします。率は下がっていますが、ゼロではありません。

「モデルが引用を含んでいれば、その引用は実在する。」 必ずしもそうではありません。ハルシネーションされた引用は最も一般的で最もよく文書化された失敗モードの1つです。モデルはもっともらしい雑誌名、もっともらしい著者リスト、もっともらしい年を生成します。実際の雑誌に対する検証だけが、引用が実在することを証明します。

「不確かなときはモデルが警告してくれる。」 モデルは均一に警告しません。一部は不確実性をフラグするように訓練されています。多くは実際の信頼度に関係なく自信に聞こえる回答を生成します。出力に断りがないことは、出力が固定されているという弱い証拠です。

「ハルシネーションは事実にのみ影響する。推論は大丈夫だ。」 推論もハルシネーションされる可能性があります。モデルは、もっともらしく聞こえる推論ステップの連鎖を生成し、それが間違った結論につながる可能性があります。推論レベルのハルシネーションを捕らえるのは、事実のハルシネーションを捕らえるよりも、簡単ではなく難しいです。表面がより有能に見えるからです。

「より大きなモデルはハルシネーションが少ない。」 より大きなモデルは平均して試みあたりのハルシネーションが少ないです。ゼロのハルシネーションはせず、ハルシネーションが最も重要なロングテールのトピックでは、より大きなモデルの改善は歴史的に一般的なトピックでの改善よりも小さかったです。

よくある質問

なぜ「ハルシネーション」という用語がこれに使われるのですか? 類推は、対応する現実のない鮮やかなものを人間が知覚することにあります。流暢で自信に満ちながら、根底にある認識論的根拠を持たないモデル出力は、同じ形に収まります。用語は不完全ですが、間違った回答の鮮やかさを捉えるため、定着しました。

ハルシネーションを完全に排除できますか? いいえ。言語モデルを有用にするメカニズム — 学習されたパターンからもっともらしいテキストを生成する — は、ロングテールでハルシネーションを生み出すのと同じメカニズムです。率はより良い訓練、検索固定、外部検証によって減らすことができます。ゼロには到達しません。

現在のモデルでハルシネーションはどれくらい一般的ですか? 率はモデル、トピック、質問の枠組みによって変動します。一般的な質問では、現代のフロンティアモデルはわずかな割合でハルシネーションします。具体的な事実のクエリ — 引用、統計、最近のイベント — では率が上がります。ロングテールのトピックでは、最良のモデルでも率が高くなる可能性があります。全体像を捉える単一の数字はありません。

コンセンサスで十分ですか? ほとんどの決定では、はい。単一モデルのハルシネーションの大半を不一致として浮上させることで捕らえます。職業的な重みのある決定 — 医療、法律、金融 — については、コンセンサスは出発点であり、人間の専門家が終点です。

特定の回答がハルシネーションされたかどうかをどうやって判断しますか? 最も信頼性の高い単一のテスト: 情報源を求め、情報源を直接検証する。モデルが情報源を生成できない場合、主張を未検証として扱ってください。生成した情報源が存在しない場合、主張はハルシネーションされている高いリスクがあります。