これは、オフィススペースのウォータークーラーの周りでよく見られる特別なタイプの世間話です。そこでは、従業員が社内のあらゆる種類のゴシップ、神話、伝説、不正確な科学的意見、軽率な個人的な逸話、またはあからさまな嘘を共有することがよくあります。何でもありです。私の Water Cooler Small Talk の投稿では、私や私の友人、知人が私のオフィスで聞いた、文字通り言葉を失った、奇妙で通常は科学的に無効な意見について議論しています。 さて、今日の投稿に対するウォータークーラーの意見は次のとおりです。 私たちは非常にうまくいっている RAG アプリを構築しました。現在は評価段階にあり、すべてのテストを通じて問題を特定し修正し続けているため、非常に順調に進んでいます。すでにスコアは 97% に達しています。 さて、少し立ち止まって、この発言の何が間違っているのか考えてほしいのです。 🤔表面的には完全に理にかなっているからです。問題を見つけて修正することは、まさに優れた評価プロセスが行うべきことのように思えますよね。責任もある。それで、実際に何が起こっているのでしょうか? ここでの問題は微妙ですが根本的なものです。評価プロセスを使用して問題を特定し、それらの問題を修正し、同じ一連のテストで再評価している場合、残念ながら、実際には評価を行っていないことになります。評価セットには、これを非常に便利にする重要なプロパティが 1 つあります。それは、モデルがこれまで見たことがないものです。その結果に基づいて修正を行い、同じセットで再評価するたびに、その資産が少しずつ奪われていきます。言い換えれば、評価セットはひそかに開発プロセスの一部となり、現在ではトレーニング セットのようなものになっています。 しかし、正しく行うことは言うは易く行うは難しです。実際には、評価プロセスを適切に実行するのは非常に骨の折れる作業です。特に、RAG アプリの継続的な評価について話す場合、つまり評価セットが履歴データセットではなく質問と回答のペアのセットであることを意味し、それを正しく行うことは非常に面倒で時間がかかる可能性があります。それにもかかわらず、評価を適切に実行できないと、非常によく知られた…
Read More


