GitHub Copilot CLI で委任をより選択的にした方法

エージェントシステムでは、委任が多ければ多いほど良いとは限りません。 CoPilot CLI から簡単な変更を行うように求められたと想像してください。これを直接処理する代わりに、リポジトリを検索し、結果を待って停止するヘルパーエージェントを作成します。本来 1 歩かかるはずが 3 歩かかるようになりました。慣れないリポジトリの探索、コードの独立した領域のチェック、メインエージェントの実行中に長いコマンドを実行するなど、一部のタスクではエキスパートサブエージェントの恩恵が実際に受けられますが、委任は無料ではありません。ハンドオフのたびに、調整のオーバーヘッド、ツールの呼び出し、待機時間が追加されます。エージェントが仕事を熱心に割り当てすぎると、「支援」が摩擦的になる可能性があります。

最近、Smarter Subagent Delegation と呼ばれるエージェントハーネスの改良版をリリースしました。これにより、メインエージェントが支援され、Copilot CLI の選択性が高まります。

彼が自分で素早く動けるようになったら、集中力を維持しましょう。
専門家が実際の影響力を生み出すときは委任します。
タスクが完全に独立している場合は、タスクを並列化します。

よりスマートなサブエージェント委任が、Copilot CLI 運用トラフィックの 100% に達するようになりました。今すぐ始めたい場合は、GitHub Copilot CLI を実行して更新するだけです。 /update 端末でバージョン 1.0.42 以降を注文します。

実稼働 A/B テストでは、この改善によりセッションごとの機器の故障が減少しました。 23%これには、 27% 検索ツールの失敗が減少し、 18% 編集ツールの失敗の減少。これにより、ユーザーの合計待ち時間も改善されました 5% そしてP95に 3% P75では、 品質の低下はありません。ここで、P95 はセッションの最も遅い 5% 付近の待機時間を反映し、P75 は一般的なセッションの遅い終わりの待機時間を反映しています。これは、不必要なハンドオフが減り、繰り返しの検索が減り、失敗しやすいツールパスが減り、長時間実行されるコーディングタスク中の待ち時間が減ることを意味します。

この投稿では、Copilot CLI で不必要な委任をどのように特定したか、委任をより選択的にするためにどのような変更を加えたか、そしてそれらの変更をオフライン評価と運用 A/B テストを通じてどのように検証したかについて学びます。また、これらの変更により障害が減り、遅延が減少した理由と、Copilot CLI を日常的に使用している開発者にとってそれがどのようなものであるかについても説明します。

問題: 委任は強力ですが、無料ではありません

サブエージェントは、エージェント CLI の最も重要な機能の 1 つです。これらにより、副操縦士は複雑なタスクを分解し、調査を並行して実行し、主任エージェントは最終的な答えを調整することに集中できるようになります。大規模なコードベースや複数ステップのエンジニアリングタスクの場合、これが低速な線形ワークフローと効率的な並列ワークフローの違いとなる可能性があります。

ただし、委任には独自の障害モードが発生します。

リードエージェントが単独でより速く完了できる単純なタスクの冗長ハンドオフ。
ハンドオフにすでに十分なコンテキストが含まれている場合に、探索サブエージェントを過剰に使用する。
繰り返される、または重複するキーエージェントとサブエージェントを見つけます。
順次委任。リードエージェントは、委任を並行作業の機会として扱うのではなく、サブエージェントを待ちます。
失敗しやすいサブエージェントパス (古いファイルパス、移動されたファイル、不正な相対パス、ワークスペースの不一致など)。

GitHub Copilot CLI で委任をより選択的にした方法 — *図 1. 例: メインエージェントがアイドル状態の場合のサブエージェントによるツール呼び出しの失敗。*

私たちの目標は、開発者がレバレッジを生み出すときにサブエージェントを使用し、オーバーヘッドが追加されるときにサブエージェントを回避し、独立した実行によって真のメリットが得られるときに作業を並列化できるようにすることです。

問題のシグナルから修正の送信まで

問題を特定した方法が、それを解決する方法となります。エージェントの軌跡分析、製品の変更、評価、ロールアウトを個別のアクティビティとして扱うのではなく、フィードバックループとして使用しました。つまり、エージェントの動作を観察し、オーケストレーションのボトルネックを分離し、ターゲットを絞った変更を加え、オフラインで検証し、オンラインで測定し、エンドツーエンドのワークフローが改善した場合にのみ出荷します。

スマートサブエージェント委任改善ループのフロー図: テレメトリ、A/B 実験、人による並列レビュー、およびエージェントの比較評価からの初期信号を分析します。オフライン評価を作成します。製品に変更を加える。オフラインとオンラインを検証します。そして結果が良ければリリースします。破線の矢印は、悪い変更やオンラインでの意見の相違に対するフィードバックループを示しています。 — *図 2. エンドツーエンドの改善ループ: 分析、変更、検証、送信。*

1. 分析: LLM に委任のボトルネックを特定させます

エージェントセッションを手動で確認する代わりに、LLM を使用して完全な軌跡を分析し、オーケストレーションがどこに役立っているか、どこにオーバーヘッドが追加されているかを特定しました。その分析により、一貫したパターンが明らかになりました。サブエージェントは、ハンドオフですでに限定的、明確、または完全に記述されているタスクに対して呼び出される場合がありました。

このような場合、メインエージェントがタスクを直接実行するのに十分なコンテキストをすでに持っている場合でも、サブエージェントはリポジトリの再検出に時間を費やす可能性があります。これにより、改革の目標が明確になりました。単純な検索と編集のタスクをメインエージェントに残し、サブエージェントをより広範な横断的、または自然な並行作業のために確保するというものです。

2. 変更: オーケストレーションポリシーを改良する

ボトルネックを特定した後、LLM を使用して、その診断をより選択的なオーケストレーションポリシーに変換しました。

Copilot CLI は、焦点を当てたタスクを直接処理する必要があります。つまり、ファイルを検索し、読み取り、対象を絞った変更を加え、検証します。委任は、タスクに独立したコンテキスト、広範な探索、または並列実行が必要な場合にさらに便利です。

実際には、これは最も狭い効果的なパスから開始し、複雑さや不確実性が価値を生む場合には前進し、タスクの焦点が再設定された場合には後退することを意味します。サブエージェントは一時停止ボタンではなく、平等ツールとして扱われる必要があります。コパイロットがサブエージェントを起動すると、メインエージェントは単に結果を待つのではなく、独立したタスクを続行する必要があります。

サブエージェントを使用する場合、ハンドオフも具体的である必要があります。つまり、ユーザーが尋ねたこと、すでにわかっていること、サブエージェントが持っているもの、メインエージェントが必要とする結果の種類などです。

3. 検証: オフラインでテストし、オンラインで確認してから出荷します

広範囲に展開する前に、自動的に生成された回帰ケースと既存のベンチマークを使用して変更を検証しました。これは、新しい委任ガイダンスが、サブエージェントが実際に価値を付加するケースを壊すことなく、回避可能なオーバーヘッドを削減していることを確認するのに役立ちました。

最後に、従業員および公開 A/B テストを実施し、信頼性、応答性、サブエージェントのワークロード、品質に基づいて運用指標を分析しました。この利点は主に、個々の LLM 呼び出しを高速化することによってもたらされたものではありません。その代わりに、冗長なサブエージェントパスを回避し、ユーザーごとのサブエージェントのワークロードを削減することで、オーケストレーションのオーバーヘッドを削減しました。

このエンドツーエンドのプロセスにより、ユーザーエクスペリエンスを安定させながら、問題信号から送信される改善につながります。つまり、回避可能な引き継ぎが少なく、失敗しやすいツールパスが少なく、品質の低下がありません。

結果

改善されたサブエージェント委任を運用トラフィックに展開した後、信頼性と応答性が目に見えて改善されました (表 1)。

寸法	メトリック	デルタ
信頼性	セッションごとの機器の故障	23%減少
信頼性	検索ツールの失敗	27%減少
信頼性	編集ツールの失敗	18%減少
説明責任	P95 でのユーザーの合計待機時間	5%減
説明責任	P75 でのユーザーの合計待ち時間	3%減
品質	品質指標	回帰なし

表 1. 本番環境の A/B テストの結果

メトリック	デルタ vs コントロール	説明
未処理のサブエージェント検出呼び出しが失敗しました	15%削減	信頼性 – 障害が発生しにくいサブエージェント検索パス。
ユーザーごとの平均サブエージェント LLM 継続時間	12%減	応答性 – ユーザーごとのオーケストレーションのオーバーヘッドを削減します。
P95 ユーザーあたりのサブエージェント LLM の期間	18%減	応答性 – 最悪の場合のサブエージェントのオーバーヘッドが改善されました。

表 2. A/B テスト結果の背後にある方向性エージェントの軌跡分析

これらの結果は、目に見える機能表面が変わらない場合でも、オーケストレーションを改善することで開発者のエクスペリエンスを向上できることを示しています。 Copilot CLI にいつ委任すべきか、いつ委任すべきでないか、適切な作業を並列化する方法を教えることで、エージェントループ内の摩擦を軽減しました。

これがシステムとしての GitHub Copilot の能力です。エクスペリエンスが向上するのは、開発者に管理すべきスイッチが増えたからではなく、Copilot が舞台裏でモデル、ツール、サブエージェントをより適切に割り当てることができるからです。

今日の開発者にとってどのようなメリットがあるのか

Copilot CLI を使用する開発者にとって、Copilot CLI はシームレスな日常的なエクスペリエンスであるように感じられるはずです。単純なタスクはすぐに取り組む可能性が高く、複雑なタスクは価値を追加する際に引き続き専門家の助けが得られ、長時間実行されるセッションは不必要な待ち時間が少なくなり続けられます。実際に、Copilot CLI は、開発者に別の方法を要求することなく、より効率的になり、ノイズが少なくなります。

この変更は舞台裏で意図的に行われました。ワークフローは同じですが、CoPilot CLI は作業の調整に優れています。不必要なハンドオフが減り、繰り返される検索タスクが減り、失敗したツールパスが減り、長時間実行または複数ステップのタスクをより迅速に進めることができます。

次に何が起こるでしょうか

この作業は、Copilot CLI がワークフローに適したモデル、エージェント、ツールを選択する方法を改善するという大きな目標に向けた一歩です。より多くのエージェントとモデルを使用できるようになると、Copilot で実行できる機能が拡張されますが、開発者にとっての価値は、ファイルの読み取り、コマンドの実行、Issue からプルリクエストへの移行など、すでに行っている作業に Copilot がそれらをどの程度うまく適用できるかによって決まります。

タスクが複雑になるにつれて、組織の質がより重要になります。最良のシステムとは、最も多くの権限を委任するシステムではなく、いつ直接行動すべきか、いつ委任すべきか、摩擦なく作業を進める方法を知っているシステムです。

次のステップは、モデル、エージェント、スキル、ツール全体で Copilot CLI の適応性を高め、タスクに大規模なモデル、熟練したサブエージェント、または手順スキルが必要かどうかを開発者が判断する必要がないようにすることです。副操縦士は、タスク、在庫状況、ポリシー、および期待される結果に基づいてこの決定を下す必要があります。

Copilot CLI の計画の動作方法、サブエージェントの調整方法、およびエンドツーエンドの結果の測定方法を引き続き改善していきます。これには、メインエージェントとサブエージェントの動作の可視性の向上、障害原因の詳細な分析、オーケストレーション品質のための堅牢なプロキシメトリクスが含まれます。目標はシンプルです。待ち時間を減らし、回避可能な失敗を減らし、各エージェントセッションからの有益な進捗を増やすことです。

今すぐ始めてフィードバックを共有してください

実行して GitHub Copilot CLI を更新します /update 端末でバージョン 1.0.42 以降を注文します。

すでに試してみましたか?ぜひご意見をお聞かせください。フィードバックを共有する/feedbackCLI セッションで注文するか、パブリックリポジトリで問題をオープンします。

承認

スマートなサブエージェント委任は、Code|AI、Copilot CLI、実験、人間による評価、製品チームのコラボレーションによって可能になりました。問題の特定、プロセスの設計、結果の検証、生産性の向上にご協力いただいた皆様に感謝いたします。

によって書かれました

Microsoft コード担当主席応用科学者 |あい。私は、データ駆動型分析を通じて GitHub Copilot CLI エクスペリエンスを強化するために、製品に焦点を当てた AI 研究を推進する技術リーダーです。

Microsoft Code 担当プリンシパルアプライドサイエンスマネージャー |あい。私は、インテリジェントなコードモデルとコードエージェントを通じて AI を使用して開発者の生産性を向上させることに重点を置いた応用研究チームを率いています。また、私たちのチームは、研究から得たイノベーションを製品に取り入れることで、CoPilot エクスペリエンスを最適化します。