実際のカーソル セッションからのあいまいな複数ファイル タスクでエージェントを評価します。スコアが高いほど良いです。
CursorBench についての詳細
| サンプル | |||||
|---|---|---|---|---|---|
| 1 | ファンタジー5マックス | 72.9% | $2月18日 | 63,842 | 76 |
| 2 | フェイブル5エクストラハイ | 72.0% | $13.74 | 48,754 | 63 |
| 3 | 寓話5ハイ | 70.6% | $10.81 | 37,173 | 54 |
| 4 | イマジナリー5ミディアム | 69.8% | $8.27 | 28,507 | 47 |
| 5 | オーパス 4.7 マックス | 64.8% | $11.02 | 62,989 | 96 |
| 6 | GPT-5.5 エクストラハイ | 64.3% | $4.37 | 17,905 | 46 |
| 7 | 虚数 5 ロー | 64.2% | $5.70 | 18,882 | 36 |
| 8 | オーパス 4.8 マックス | 63.8% | $7.59 | 77,370 | 60 |
| 9 | 作曲家 2.5 | 63.2% | $0.55 | 15,152 | 37 |
| 10 | GPT-5.5高 | 62.6% | $3.59 | 13,329 | 40 |
| 11 | 作品4.8 エクストラハイ | 62.1% | $6.14 | 55,622 | 54 |
| 12 | 作品4.7 エクストラハイ | 61.6% | $7.11 | 43,942 | 72 |
| 13 | ソネット 5 最大 | 61.2% | $6.87 | 93,485 | 93 |
| 14 | 作品 4.7 高 | 59.4% | $5.01 | 32,227 | 59 |
| 15 | GPT-5.5中 | 59.2% | $2.22 | 9,065 | 35 |
| 16 | 作品 4.8 高 | 58.4% | $4.41 | 36,788 | 45 |
| 17 | ソネット 5 エクストラ ハイ | 58.4% | $5.23 | 58,228 | 86 |
| 18 | ソネット5ハイ | 57.0% | $3.74 | 41,735 | 66 |
| 19 | 作品 4.8 中 | 56.6% | $3.83 | 31,684 | 41 |
| 20 | ソネット 5 中 | 54.9% | $2.57 | 27,469 | 53 |
| 21 | glm 5.2 最大 | 54.6% | $3.11 | 51,312 | 83 |
| 22 | 作品 4.8 低 | 54.3% | $2.93 | 22,726 | 36 |
| 23 | 作品 4.7 中 | 52.7% | $2.93 | 19,193 | 41 |
| 24 | km K2.7コード | 52.7% | $1.92 | 32,902 | 70 |
| 25 | ミュージシャン2 | 52.2% | $0.56 | 14,163 | 40 |
| 26 | glm 5.2高 | 50.7% | $2.46 | 30,621 | 76 |
| 27 | ジェミニ 3.5 フラッシュ | 49.8% | $1.94 | 35,105 | 79 |
| 28 | ソネット4.6最大 | 49.0% | $3.09 | 40,280 | 55 |
| 29 | gpt-5.5 が低い | 48.8% | $1.19 | 4,923 | 24 |
| 30 | ソネット4.6高 | 48.8% | $3.06 | 37,352 | 57 |
| 31 | 作品 4.7 低 | 48.3% | $1.87 | 13,164 | 29 |
| 32 | ソネット5を取る | 47.7% | $1.46 | 17,028 | 37 |
| 33 | 2.6km | 47.6% | $1.27 | 24,783 | 56 |
| 34 | ソネット 4.6 中 | 46.0% | $2.64 | 31,360 | 50 |
| 35 | ソネット 4.6 低 | 41.5% | $1.89 | 21,211 | 50 |
| 36 | 2.5km | 31.9% | $0.87 | 9,446 | 30 |
変化の
カーソルベンチ 3.1
- コードベースの理解、バグ発見、計画、コードレビューに焦点を当てた問題を紹介します。
- 一部の編集タスクの採点基準が改善されました。
カーソルベンチ 3.0
- 最初の一連のタスクは、問題の編集、リファクタリング、バグ修正に焦点を当てていました。
平均コスト/作業量は、公開されている各モデルを適用して計算されます。 100 万トークンあたりの価格 各 CursorBench 3.1 タスクで使用されるトークン (入力、キャッシュ読み取り、キャッシュ書き込み、出力) を計算し、すべてのタスクの平均を計算します。結果は変動する可能性があります。スコアの小さな差は統計的に意味がない可能性があります。










Leave a Reply