カーソル カーソルベンチ

実際のカーソルセッションからのあいまいな複数ファイルタスクでエージェントを評価します。スコアが高いほど良いです。

CursorBench についての詳細

	サンプル
1	ファンタジー5マックス	72.9%	$2月18日	63,842	76
2	フェイブル5エクストラハイ	72.0%	$13.74	48,754	63
3	寓話5ハイ	70.6%	$10.81	37,173	54
4	イマジナリー5ミディアム	69.8%	$8.27	28,507	47
5	オーパス 4.7 マックス	64.8%	$11.02	62,989	96
6	GPT-5.5 エクストラハイ	64.3%	$4.37	17,905	46
7	虚数 5 ロー	64.2%	$5.70	18,882	36
8	オーパス 4.8 マックス	63.8%	$7.59	77,370	60
9	作曲家 2.5	63.2%	$0.55	15,152	37
10	GPT-5.5高	62.6%	$3.59	13,329	40
11	作品4.8 エクストラハイ	62.1%	$6.14	55,622	54
12	作品4.7 エクストラハイ	61.6%	$7.11	43,942	72
13	ソネット 5 最大	61.2%	$6.87	93,485	93
14	作品 4.7 高	59.4%	$5.01	32,227	59
15	GPT-5.5中	59.2%	$2.22	9,065	35
16	作品 4.8 高	58.4%	$4.41	36,788	45
17	ソネット 5 エクストラハイ	58.4%	$5.23	58,228	86
18	ソネット5ハイ	57.0%	$3.74	41,735	66
19	作品 4.8 中	56.6%	$3.83	31,684	41
20	ソネット 5 中	54.9%	$2.57	27,469	53
21	glm 5.2 最大	54.6%	$3.11	51,312	83
22	作品 4.8 低	54.3%	$2.93	22,726	36
23	作品 4.7 中	52.7%	$2.93	19,193	41
24	km K2.7コード	52.7%	$1.92	32,902	70
25	ミュージシャン2	52.2%	$0.56	14,163	40
26	glm 5.2高	50.7%	$2.46	30,621	76
27	ジェミニ 3.5 フラッシュ	49.8%	$1.94	35,105	79
28	ソネット4.6最大	49.0%	$3.09	40,280	55
29	gpt-5.5 が低い	48.8%	$1.19	4,923	24
30	ソネット4.6高	48.8%	$3.06	37,352	57
31	作品 4.7 低	48.3%	$1.87	13,164	29
32	ソネット5を取る	47.7%	$1.46	17,028	37
33	2.6km	47.6%	$1.27	24,783	56
34	ソネット 4.6 中	46.0%	$2.64	31,360	50
35	ソネット 4.6 低	41.5%	$1.89	21,211	50
36	2.5km	31.9%	$0.87	9,446	30

変化の

カーソルベンチ 3.1

コードベースの理解、バグ発見、計画、コードレビューに焦点を当てた問題を紹介します。
一部の編集タスクの採点基準が改善されました。

カーソルベンチ 3.0

最初の一連のタスクは、問題の編集、リファクタリング、バグ修正に焦点を当てていました。

平均コスト/作業量は、公開されている各モデルを適用して計算されます。 100 万トークンあたりの価格各 CursorBench 3.1 タスクで使用されるトークン (入力、キャッシュ読み取り、キャッシュ書き込み、出力) を計算し、すべてのタスクの平均を計算します。結果は変動する可能性があります。スコアの小さな差は統計的に意味がない可能性があります。