」私たちはもう看板を書きません。ループをデザインします。 – 2026 年 6 月の Anthropic の誰か エージェント・ループ、自己批判は何もしないのと同じです。決定論的でソースベースの検証ツールにより、幻覚率はほぼ半分に減少しました。 このセリフは数週間前のもので、すでに真実のように聞こえます。私たちは完璧なプロンプトを調整することをやめ、複数のステップにわたって試行、動作確認、改善を行うシステムの構築を開始しました。一度答えて終わるモデルよりも、繰り返すことができるモデルの方が価値があります。 Rekhaはこれに関しては完全に正しいです。 これで残るのは請求書です。ループの検証は呼び出しよりもはるかに困難です。呼び出しでは出力をチェックしますが、ループ内のすべてのステップで誤った方向に進む可能性があり、反復ごとに誤った方向に進む可能性があります。難しいのは、生成を停止することです。これが検証となります。あるいは、必要に応じて、ループが適切に動作しているかどうかを知ることもできます。そして、デフォルトの検証方法 (モデルに作業内容をチェックさせる) は、チェーンの中で最も弱い部分であることが判明しました。 だから、それは戦いではない。」プロンプトではなくループを設計します。「これは、測定された、隠された罠です。私がその数字と方法を確信した実験ですので、ご自身で確認してください。 ステップごとに検証面が拡大します あらゆる呼び出しが失敗する場所は 1 つだけです。それが答えです。 3…
Read More


