」私たちはもう看板を書きません。ループをデザインします。 – 2026 年 6 月の Anthropic の誰か
エージェント・ループ、自己批判は何もしないのと同じです。決定論的でソースベースの検証ツールにより、幻覚率はほぼ半分に減少しました。
このセリフは数週間前のもので、すでに真実のように聞こえます。私たちは完璧なプロンプトを調整することをやめ、複数のステップにわたって試行、動作確認、改善を行うシステムの構築を開始しました。一度答えて終わるモデルよりも、繰り返すことができるモデルの方が価値があります。 Rekhaはこれに関しては完全に正しいです。
これで残るのは請求書です。ループの検証は呼び出しよりもはるかに困難です。呼び出しでは出力をチェックしますが、ループ内のすべてのステップで誤った方向に進む可能性があり、反復ごとに誤った方向に進む可能性があります。難しいのは、生成を停止することです。これが検証となります。あるいは、必要に応じて、ループが適切に動作しているかどうかを知ることもできます。そして、デフォルトの検証方法 (モデルに作業内容をチェックさせる) は、チェーンの中で最も弱い部分であることが判明しました。
だから、それは戦いではない。」プロンプトではなくループを設計します。「これは、測定された、隠された罠です。私がその数字と方法を確信した実験ですので、ご自身で確認してください。
ステップごとに検証面が拡大します
あらゆる呼び出しが失敗する場所は 1 つだけです。それが答えです。 3 段階のループは、最初の草案、草案の批判、修正、修正の批判、中止の決定で構成されます。それらはそれぞれモデルの出力であり、確実に間違っている可能性があります。ループを追加して検証の問題を解決したわけではありません。それを倍増させたのです。
ループ 行為 あなたの決断によります。チェックが「良好」であれば、ループは閉じられて送信されます。チェックが間違っている場合、ループは間違いを送信します。さらに悪いことに、確実に読み取られるまで反復でその間違いを修正し続ける可能性があります。ループの信頼性は、ループが検証するものと同じくらいです。
最も弱い部分: 自分の作品を採点するモデル
最も一般的なバリデータはモデル自体です。原稿を書き終えた後、あなたは彼に「これでいいですか?」と尋ねます。安価で、追加のインフラストラクチャを必要とせず、反省しているように感じます。
問題は、モデルが何に対して最適化されるのかということです。 LLM が自分の出力を採点すると、その回答に報酬を与えます 音 正しい。自信を持って、流暢に、たとえ間違った答えでも正しいと感じます。したがって、自己批判は、あなたが最もしがみつきたい失敗を通して波紋を広げ、時にはそれ自体が唯一の正解を導き出すこともあります。ループ内には外部の真実は存在しません。エラーを生成したディストリビューションのみがエラーを検出するよう求められます。
測ってみたかったのです。
異なるタイプの調査: 決定論的かつソースアンカー型
代替手段は、モデルの意見をまったく尋ねないバリデータです。次の 2 つの関連するプロパティを考慮する必要があります。
- ソースアンカー。テストでは、回答が読みやすいかどうかではなく、回答が実際の情報源に基づいているかどうかを評価します。答えが原資料から逸脱している場合、検証者は散文がどれほど信頼できるように見えるかに関係なく、その答えをマークします。
- 決定論者。 毎回同じ入力、同じ決定。それを観察し、記録し、信頼することができます。
気が変わる確率論的な裁判官は、いかなるループも耐えられる基盤ではありません。
私が使用したバリデーターは幾何学的なものです。質問、回答候補、ソースをベクトル超球に埋め込んで読み取ります。 角度 彼らの間で。地に足のついた答えは、その源の近くにあります。幻覚を見ている人は、質問に向かって動き、その情報源から遠ざかります。セマンティック グラウンディング インデックス (SGI) は、そのような 2 つの角度の比率です。パートナー スコア (DGI) は、ホールドアウトされた接地ペアに基づいて校正される分散接地尺度です。どちらも固定エンコーダでの純粋なジオメトリであるため、構造的に決定的です。実装はオープンソース (GroundLens) です。この記事のポイントは数学ではなく、ループ内にそのようなチェックを入れると何が起こるかということです。
まず、幾何学は幻覚も識別するのでしょうか? HalluEval QA ベンチマークでは、幻覚を見た回答に基づいてスコアが付けられます。
| バリデータシグナル | オーロックス | 95% CI |
|---|---|---|
| SGI | 0.769 | [0.715, 0.821] |
| DGI | 0.939 | [0.911, 0.964] |
| SGI + DGI | 0.949 | [0.926, 0.971] |
表 1: n = 300 の回答ペアの検出。ブートストラップ信頼区間。
結合された信号は、接地された応答と幻覚的な応答を明確に区別します。これが前提条件です。 ここで問題となるのは、ループ内にこのような正確なチェックを配置することで、実際にループの最終的な答えが自己批判よりも優れたものになるかどうかです。
使用
この設計では、ループが何を検証するかという 1 つの変数を分離します (図 1)。

ジェネレーターが事実に関する質問に答えます 閉じた本 – 私自身の記憶によると、それ以前のソースはありません – そのため、頻繁に幻覚が現れ、バリデーターがそれを修正するための何かを持っています。各質問は 4 つのアームを通過し、 クロスモデル参照 それぞれの最終解答は採点されるため、スコアリングにおいてモデル自体が評価されることはありません。
- 開いた本のリファレンス – バスソースはジェネレーターに渡されます。調査はありません。こちらは屋根です。
- シングル(閉じた本) – 答えはひとつ、調査なし。ここが目的地です。
- 自己批判 – 閉じた本;モデルは独自の答えを評価し、満足するまで修正します (最大 3 回の反復)。
- ソースアンカー – 閉じた本;幾何検証器は答えをスコアリングし、フラグに応じてソースを挿入し、根拠のある書き換えを要求します (最大 3 回の反復)。
再現用のセットアップ: Generator Cloud Opus 4.8;参照 GPT-5.5 (モデル間グレーディング); Hellulevel ベンチマーク QA;エンコーダ all-MiniLM-L6-v2; temperature=0 (利用可能な場合); seed=0;ループのしきい値はモデル独自のクローズドブック トレーニング ドラフトに基づいて調整されます。 ループを通るアイテム。
非対称の 1 つは意図的なものです。そしてこれが要点です: ソースベースのブランチは検証者を通じて真実のソースにアクセスできますが、自己批判ブランチはアクセスできません。
検証対象の仮説は、「幾何学は同じ情報による自己批判を上回る」というものではありません。これにより、「ソースに固定されたバリデーターが、幻覚性のクローズドブックジェネレーターから接地されたジェネレーターに変わりますが、自己批判自体は発生しません。」開いた本と一本の腕により、上下にできることは限られています。
結果
| 手 | ソースを見ますか? | 幻覚率 | 95% CI(ウィルソン) | 平均反復 |
|---|---|---|---|---|
| 開いた本の参照 (天井) | はい | 5.8% | [2.9%, 11.6%] | 1.00 |
| 閉じた一冊の本(床) | いいえ | 40.0% | [31.7%, 48.9%] | 1.00 |
| 自己批判(雲→雲) | いいえ | 43.3% | [34.8%, 52.3%] | 1.62 |
| ソースアンカー検証者 (SGI/DGI) | スルーチェック | 19.2% | [13.1%, 27.1%] | 1.59 |
2 つの読み取り値と信頼区間の両方を決定します。
自己批判は役に立ちませんでした。 43.3% は、どちらかと言えば、下限の 40.0% よりわずかに悪く、その遅れは [34.8%, 52.3%] 床に重なる [31.7%, 48.9%] ほぼ完全に。さらに繰り返しても何も得られませんでした。自己チェックを行うモデルは、開始位置に戻るためにより多くの計算を費やしました。そして、小さな上向きのドリフトは、正しい答えを覆すことがある自己批判と一致しており、まさにループ内に外部の真実がないときに予想される失敗モードです。
ソースにアンカーされた検証により、エラー率がほぼ半分になりました。 これにより、自己批判ループで使用したのとほぼ同じ反復回数で下限が 40.0% から 19.2% に増加し、相対的に 52% 減少しました。これはノイズの範囲内ではありません。アンカー間隔の最高値は 27.1% で、その下にフロア間隔の 31.7% が始まります。この 2 つは重なりません。この改善は実際の兆候であり、幸運な動きではありません。

結果の本質は物語です。同じジェネレーター、同じループ バジェット、同じクローズドブック制約。唯一変わったのは ループは誰を信頼しましたか? – 独自の判断、またはソースに対する決定論的な測定。そのうちの一人が針を途中まで回してしまいました。もう片方は全く動かなかった。
嘘はつかない
直感は単純です。エージェントはフィードバックから学習するため、フィードバックに嘘をつくことはできません。自信のある間違った答えに報酬を与えるチェックは、まさにそれを行っています。つまり、真実ではなくフローに関連する報酬信号をループに供給します。ループは与えられた信号を忠実に最適化し、文章を洗練します。ソースアンカーチェックにより、接地と相関する報酬がループに与えられ、ループが最適化されます。 彼。
幾何学が真実を知っているとは言いません。検証者は、ソースが正しいかどうかや、絶対的な意味で答えが正しいかどうかではなく、回答がそのソースにリンクされているかどうかを測定します。根拠ではなく真実性をテストするように設計されたベンチマークでは、同じ信号が確率に近くなります。グラウンディングと真実は異なる目標であり、この方法は前者のみに対応します。勝利はわずかです: ソースにアンカーされたバリデーターの方が優れています ループの基礎 神託ではなく、自己批判によって。
境界線
どこで終わるのかを明らかにせずに、検証に関する結果を公開することはありません。
- 不平等は現実のものであり、望ましいものです。 固定された手は源に到達できます。支部は自己批判できません。この発見は、ループに外部の決定論的な基礎を与えることに関するものであり、同じ情報に対する自己批判によって幾何学を上回るパフォーマンスを示すものではありません。
- グラウンディングは真実ではありません。 SGI はソースエンゲージメントを測定します。精度ベンチマーク上の同じ信号はほぼ偶然です (AUROC ≈ 0.48)。失敗モードが根拠のない答えではなく、間違った原因である場合は役に立ちません。
- ジェネレーター、ベンチマーク、エンコーダー。 Cloud Opus 4.8 は、単一の文埋め込みモデルを使用した hellolevel QA で優れた結果をもたらしています。これがジェネレーターとドメインに適用されるかどうかは示していません。異なるジェネレーターと構成を使用した最初の実行では同じ利点が得られませんでした。そのため、脚注ではなく、ジェネレーター間のレプリケーションが次のステップとなるのです。
- クローズドブックはヘッドルーム設定です。 モデルにメモリから応答を生成させると、検証者が対処しなければならない基本エラー率が増加します。ソースがすでに参照されている一般的な RAG パイプラインでは、絶対数は小さくなりますが、これは接地プローブの追加が最も安価な配置でもあります。
- 単一シード点推定。 間隔はウィルソンです。シードを平均化すると、シードがより強くなります。
何を持って行こうか
「プロンプトではなくデザインループ」は正しいです。しかし、ループの安全性は、そのループが検証するものと同じくらい安全であり、便利なデフォルト (モデル自身の決定) が最も失敗する可能性が高い部分です。この実験では、自己検証は何もしない場合よりも優れたパフォーマンスはありませんでしたが、決定論的でソースに固定されたチェックでは、同じ予算でエラー率が半減しました。
エージェント ループを作成している場合、実際的な手順は、モデルの見解の外にあるもの、つまり実際のソースに対する決定論的で観察可能なチェックをループの検証者に向けることです。より効果的で信頼性の高いループが得られ、雰囲気の代わりに記録して再現できる決定が得られます。
ここで使用されているバリデーターはオープンソースであり、完全なノートブックは上記の各数値 (ジェネレーター、ref キー、単一の PROVIDER スイッチ): github.com/groundlens-dev/groundlens。意見の相違は歓迎します。これは決定的なものなので、自分で確認できます。
参照
- Huang, J.、Chen, X.、Mishra, S.、Zheng, H.S.、Yu, A.、Song, X.、および Zhou, D. (2024 年 5 月)。大規模な言語モデルはまだロジックを自己修正できません。で 学習の表現に関する国際会議 (2024 巻、32808 ~ 32824 頁)。
- 鴨井 隆、張 義、張 N.、漢 J.、張 隆 (2024)。 LLM が実際に間違いを修正できるのはいつですか? LLM の自己改善に関する重要な調査。 計算言語学協会のトランザクション、 121417年から1440年。
- マリン、J. (2025)。セマンティックグラウンディングインデックス: RAG システムにおけるコンテキスト関連付けの幾何学的境界。 arXiv プレプリント arXiv:2512.13771。
- ケンタッキー州チェン、FY スー、JH チェン (2026)。自己改善の誤謬: LLM は他者を改善しますが、自分自身を改善しません。 arXiv プレプリント arXiv:2606.05976。
- マリン、J. (2026)。 LLM における幻覚の幾何学的分類。 arXiv プレプリント arXiv:2602.13224。









Leave a Reply