プロンプトではなくループを設計する |データサイエンスに向けて

管理者

プロンプトではなくループを設計する |データサイエンスに向けて

管理者 Jul 2, 2026 0

」私たちはもう看板を書きません。ループをデザインします。 – 2026 年 6 月の Anthropic の誰かエージェント・ループ、自己批判は何もしないのと同じです。決定論的でソースベースの検証ツールにより、幻覚率はほぼ半分に減少しました。このセリフは数週間前のもので、すでに真実のように聞こえます。私たちは完璧なプロンプトを調整することをやめ、複数のステップにわたって試行、動作確認、改善を行うシステムの構築を開始しました。一度答えて終わるモデルよりも、繰り返すことができるモデルの方が価値があります。 Rekhaはこれに関しては完全に正しいです。これで残るのは請求書です。ループの検証は呼び出しよりもはるかに困難です。呼び出しでは出力をチェックしますが、ループ内のすべてのステップで誤った方向に進む可能性があり、反復ごとに誤った方向に進む可能性があります。難しいのは、生成を停止することです。これが検証となります。あるいは、必要に応じて、ループが適切に動作しているかどうかを知ることもできます。そして、デフォルトの検証方法 (モデルに作業内容をチェックさせる) は、チェーンの中で最も弱い部分であることが判明しました。だから、それは戦いではない。」プロンプトではなくループを設計します。「これは、測定された、隠された罠です。私がその数字と方法を確信した実験ですので、ご自身で確認してください。ステップごとに検証面が拡大しますあらゆる呼び出しが失敗する場所は 1 つだけです。それが答えです。 3…

管理者

ウォータークーラーのスモールトーク、Ep. 11: RAG 評価におけるオーバーフィッティング。データサイエンスに向けて

管理者 Jun 26, 2026 0

これは、オフィススペースのウォータークーラーの周りでよく見られる特別なタイプの世間話です。そこでは、従業員が社内のあらゆる種類のゴシップ、神話、伝説、不正確な科学的意見、軽率な個人的な逸話、またはあからさまな嘘を共有することがよくあります。何でもありです。私の Water Cooler Small Talk の投稿では、私や私の友人、知人が私のオフィスで聞いた、文字通り言葉を失った、奇妙で通常は科学的に無効な意見について議論しています。さて、今日の投稿に対するウォータークーラーの意見は次のとおりです。私たちは非常にうまくいっている RAG アプリを構築しました。現在は評価段階にあり、すべてのテストを通じて問題を特定し修正し続けているため、非常に順調に進んでいます。すでにスコアは 97% に達しています。さて、少し立ち止まって、この発言の何が間違っているのか考えてほしいのです。 🤔表面的には完全に理にかなっているからです。問題を見つけて修正することは、まさに優れた評価プロセスが行うべきことのように思えますよね。責任もある。それで、実際に何が起こっているのでしょうか？ここでの問題は微妙ですが根本的なものです。評価プロセスを使用して問題を特定し、それらの問題を修正し、同じ一連のテストで再評価している場合、残念ながら、実際には評価を行っていないことになります。評価セットには、これを非常に便利にする重要なプロパティが 1 つあります。それは、モデルがこれまで見たことがないものです。その結果に基づいて修正を行い、同じセットで再評価するたびに、その資産が少しずつ奪われていきます。言い換えれば、評価セットはひそかに開発プロセスの一部となり、現在ではトレーニングセットのようなものになっています。しかし、正しく行うことは言うは易く行うは難しです。実際には、評価プロセスを適切に実行するのは非常に骨の折れる作業です。特に、RAG アプリの継続的な評価について話す場合、つまり評価セットが履歴データセットではなく質問と回答のペアのセットであることを意味し、それを正しく行うことは非常に面倒で時間がかかる可能性があります。それにもかかわらず、評価を適切に実行できないと、非常によく知られた…

ニュース24 (Nyūsu 24)

プロンプトではなくループを設計する |データサイエンスに向けて

ウォータークーラーのスモールトーク、Ep. 11: RAG 評価におけるオーバーフィッティング。データサイエンスに向けて

YOU MAY HAVE MISSED

Jacob Fearnley adds to Scotland’s sporting woe

ジェシー・ネルソン、双子がSMAだと告げられ悲痛な瞬間に泣く

レッドブルドライバー、イギリスGPの希望について評決を下す

アーセナルは才能あるプレーメーカーを求めて厳しい競争に直面している：将来については？