クロード・ソネットの紹介 5

Claude Sonet 5 は、これまでで最も強力な Sonet モデルとなるように設計されています。計画を作成し、ブラウザや端末などのツールを使用し、ほんの数か月前にはより大型で高価なモデルが必要だったレベルで自律的に実行できます。

多くの開発者にとって、エージェント AI 時代は Sonnet クラスのモデルから始まりました。Cloud Sonnet 3.5、3.6、および 3.7 は、コーディングとツールの使用において優れたスキルを示した最初のモデルでした。ただし、最近、エージェント機能が最も顕著に向上したのは、Opus クラスのモデルです。

Sonnet 5 はそのギャップを埋めます。その性能は Opus 4.8 に近いですが、価格は低くなります。これは、推論、ツールの使用、コーディング、知識タスクなど、エージェントのパフォーマンスの重要な側面において、前世代の Sonnet 4.6 に比べて大幅に改善されています。

Cloud Sonnet 5 ベンチマークテーブル — Sonnet 4.6 および Opus 4.8 (参照用のより一般的に機能的なモデル) と比較した、さまざまな評価における Sonnet 5 のスコア。 Cloud Sonnet 5 は、システムカードの包括的な評価を詳細にレポートします。

弊社のセキュリティ評価では、Sonnet 5 は Sonnet 4.6 よりも望ましくない動作の全体的な割合が低く、エージェントのコンテキストで使用しても一般に安全であることがわかりました。この評価では、既存の Opus モデルよりもサイバーセキュリティ機能がはるかに少ないことも示されています。

本日より、Cloud Sonnet 5 がすべてのプランで利用可能になります。これは Free プランと Pro プランのデフォルトモデルであり、Max、Team、Enterprise ユーザーが利用できます。 Cloud Code と Cloud Platform でも利用可能で、開始価格は 2026 年 8 月 31 日まで入力トークン 100 万あたり 2 ドル、出力トークン 100 万あたり 10 ドルで開始され、その後は入力トークン 100 万あたり 3 ドル、出力トークン 100 万あたり 15 ドルになります。開発者が使用できる claude-sonnet-5 クラウドAPI経由。

Cloud Sonnet 5 の使用

以下のグラフは、エージェント検索評価 BrowseComp およびコンピュータ使用率評価 OSWorld-Verified における、さまざまな作業レベルでの Sonnet 5 と Sonnet 4.6 および Opus 4.8 のパフォーマンスを比較しています。 SONNET 5 (オレンジ色の線) は、SONNET 4.6 (灰色の線) に比べて大幅に改善されています。 Opus 4.8 (黄色の線) は、これらのタスクで高精度を実現するために依然として最適なモデルですが、Sonnet 5 は、以前よりもはるかに高品質で低価格のオプションを開発者に提供します。 Sonnet 5 と Opus 4.8 の間で、ユーザーは作業レベルを調整して、コストとパフォーマンスの適切なバランスを見つけることができます。

早期アクセスパートナーからのフィードバックは一貫しており、Sonnet 5 は以前のバージョンよりもはるかにエージェント的です。テスターは、以前の Sonnet モデルでは不十分だった複雑なタスクをどのように実行するか、明示的に要求せずに自身の出力をチェックする方法、およびこれらすべてのエージェント作業を魅力的な価格帯でどのように実行するかを説明しました。

Cloud Sonnet 5 は、エージェントに複数ステップのソフトウェアエンジニアリング作業のための堅牢な実行レイヤーを提供します。複雑な技術的コンテキストでの継続的なコーディング、ツールの使用、デバッグを適切に処理し、フォロースルーと技術的な基礎が重要なワークフローに特に役立ちます。

私たちは Cloud Sonnet 5 に、Salesforce アカウントレベルの更新、企業の連絡先への発売通知の送信という 2 つの部分からなるタスクを課し、最初から最後までそれを完了しました。彼は途中で立ち止まってしまうだろう。日常的な自動化は簡単な作業ではありません

Cloud Sonnet 5 は、少ない労力でより多くのことを実現します。同じ出力品質で、そこに到達するまでの手順が少なくなります。また、安全でないリクエストは明確かつ一貫して拒否します。 Lovable では、何百万ものビルダーの手に強力なツールを提供しています。いつノーと言うべきかを知っているモデルは、構築方法を知っているモデルと同じくらい重要です。

私たちは、数十の最も困難な実際のプルリクエストに対して Cloud Sonnet 5 を実行しました。その結果、それぞれのプルリクエストが自動的にテストされ、検証された結果が得られました。これにより、エンジニアは意思決定、意思決定、最終的な承認に集中できるようになりました。

Cloud Sonnet 5 にバグの調査を依頼しました。プロンプトを表示せずに、再現性テストを作成し、修正を適用してから非表示にして、バグが変更なく再発することを確認しました。すべてを一度に。

Cloud Sonnet 5 を使用すると、エージェントは計画を忠実に守り、伝統に従い、効率的なコストでクリーンな複数ステップの変更を送信します。

Claude Sonnett 5 はブラウンフィールドコード (競合状態、隠れたテスト、誰も触れたくない部分) において最高です。障害の本当の根本原因を見つけ出し、単に症状を解決するのではなく、永続的な解決策を提供します。

クロード・ソネット 5 は、イブの原告法機能のパレート辺境に位置しています。法的な調査と分析では、価格対パフォーマンスの比率において明らかな利点があることがわかり、譲渡の選択が容易になります。

ClickHouse エージェントはライブデータを調査し、即座に洞察を生成するため、新しいモデルをテストする場合は洞察を得るまでの時間が重要です。クロード・ソネットは 5 つの理由を厳密な手順で示し、ユーザーに非常に迅速に答えを提供します。そのスピードが、お客様が感じる違いです。

Pace では、コンピュータを使用する代理店が保険のワークフロー (保険申請受付、FNOL、損失実行) を運用チームがすでに使用しているシステム上で実行しています。クロードソネット 5 は常に正しい行動を取り、それを迅速に実行します。これが実際の保険業務に求められることです。

セキュリティ評価

導入前のセキュリティ評価では、全体的に Sonnet 5 が Sonnet 4.6 よりも優れていることがわかりました。エージェントセキュリティの観点からは、このモデルは悪意のあるリクエストを拒否し、初期のインジェクション攻撃におけるハイジャックの試みに抵抗する点で優れています。このモデルは、Sonnet 4.6 よりも幻覚や媚びる率が低いことを示しています。虐待や欺瞞への協力など、幅広い不適応行動をテストする自動行動監査では、Sonnet 5 は全体的に低いスコア (つまり、安全) でした。ただし、この評価では、より高性能な Opus 4.8 や Cloud Mythos Preview と比較して、不発率が若干低いことが示されました。

クラウドモデルにおける不整合動作の割合 — 自動動作監査での不正確な動作の割合。複数の状況やコンテキストにおける非常に広範囲の望ましくない動作をテストします (特定の動作ごとの完全なリストと結果については、Sonnet 5 システムカードのセクション 6.4 を参照してください)。 Sonnet 5 では、Sonnet 4.6 よりも全体的に不整合な動作の割合が低くなりますが、Mythos Preview や Opus 4.8 よりは割合が高くなります。

私たちは意図的に Sonnet 5 にサイバーセキュリティのタスクを訓練しませんでした。日常的な無害なサイバータスクは実行できますが、ソフトウェアエクスプロイトの開発など、潜在的に危険なサイバースキルをテストすると、Opus 4.8 や Mythos 5 などのモデルよりも大幅に悪いパフォーマンスが示されます。Firefox ブラウザーの脆弱性に対するエクスプロイトを開発するモデルの能力をテストした評価のスコアを以下のグラフに示します。 Sonnet 5 は完全に機能するエクスプロイトを開発できませんでしたが、わずかに高い率を示しています 部分的 Sonnet 4.6 よりも成功しています。この後者の変化は、特定の訓練ではなく一般的な知性の向上によるものと考えられます。

Firefox 147 におけるソフトウェア脆弱性の進化を軽減するクラウドモデルの成功を測定するスコア — Firefox 147 のソフトウェア脆弱性のエクスプロイト開発におけるモデルの成功を測定するスコア (この評価は Mozilla と協力して開発されました。すべての脆弱性は Firefox 148 でパッチされています)。各モデルの左側のバーは、そのモデルが機能するエクスプロイト (セキュリティ対策なし) を開発した回数を示します。右側のバーは、モデルが部分的に成功した回数を示します。 Sonnet モデルはいずれも、実用的なエクスプロイトの開発に成功しませんでした (スコアは両方とも 0.0%)。 SONNET 5 は、SONNET 4.6 よりもわずかに高い部分成功率を示しました。どちらの Sonnet モデルも、Opus 4.8 および Mythos 5 よりもサイバー機能が大幅に劣っています。詳細については、Sonnet 5 システムカードのセクション 3.2.4 を参照してください。

Sonnet 5 はこれらの機能が前世代よりも若干強化されているため、デフォルトでサイバーセキュリティ対策を有効にしてリリースしました。危険なサイバー利用をリアルタイムで検出して防止するこれらのセキュリティ対策は、Cloud Opus 4.7 および 4.8 に存在するものと同じです (Sonnet 5 によるサイバーセキュリティリスクの全体的なレベルが低いと推定されたため、セキュリティ対策は Fable 5 で開始されたセキュリティ対策よりも厳しくなく、より広範なサイバーセキュリティアクションを防止します)。¹

複数のセキュリティと機能の評価にわたる Sonnet 5 の完全な評価は、Cloud Sonnet 5 System Card に詳しく記載されています。

在庫状況と価格

Cloud Sonnet 5 は、本日から 2026 年 8 月 31 日までどこでも、入力トークン 100 万あたり 2 ドル、出力トークン 100 万あたり 10 ドルの導入価格で利用できます。その後、入力トークン 100 万あたり 3 ドル、出力トークン 100 万あたり 15 ドルの標準価格に移行します。² Chat、Cowork、Cloud Code、Cloud Platform のレート制限を引き上げました³ より高い労力レベルでのより高いトークンの使用に対応するため。ユーザーは、特定のプロジェクトに適したレベルを選択できます。