非常に強力であると宣伝されている一連の AI モデルは明らかに政府を怖がらせすぎており、現在は非効率的です

金曜日に同社のウェブサイトに掲載された声明によると、Anthropicは、非常に制限的な米国政府の命令に応じて、同社の最も貴重なFrontier AIモデル2つを「突然無効にする」ことを余儀なくされたという。「これは誤解であると認識しており、できるだけ早くアクセスを回復できるよう取り組んでいる」と声明で述べた。

Anthropic によれば、問題の政府の措置は、外国人が米国内外でこのモデルを使用できないことを明記した「輸出規制指令」であり、不特定の国家安全保障上の懸念が動機となっているという。

しかし、国家安全保障への懸念、その他の安全性やセキュリティへの懸念がこれらのモデルの展開の中心となっており、そのことがこのような事件を予見可能にさせたと考えられる。

Anthropic は 4 月初旬、Cloud Mythos プレビューモデルを一般公開する代わりに、モデルの作成をフロンティア AI モデルの直接的な危険性についての意識を高めるキャンペーンに変えました。

同社は、このモデルが一般公開されない理由を説明するシステムカードを公開し、不正行為や制限されたシステムから制御不能になる能力などの恐ろしい機能について詳しく説明した。また、先進兵器の開発を支援する能力もあったと伝えられている。たとえば、System Card は、これを「破壊的な生物兵器の開発に関連する重要なクロスドメイン合成が可能」であると説明しています。

同時に同社は、限られたパートナーおよび組織のグループがモデルをサンプルして、サイバーセキュリティの世界にどのような新たな恐怖をもたらすかを確認できるプログラムである Project Glasswing を立ち上げました。 Project GlassWing に関する Anthropic のブログ投稿には、「Anthropic によって訓練された新しいフロンティアモデルの機能に注目して、Project GlassWing を設立しました。これはサイバーセキュリティを再構築できると信じています。」と述べられています。

すぐに、主題の本質的な愚かさにも関わらず、『Mythos』のプレビューはタブロイド紙の記事になりました。ニューヨーク・ポスト紙の記事は、ミトス氏が述べたように、AIが間もなく「ハッキングツール、生物兵器、化学兵器」を開発する可能性があると予測しているコンピューター科学者のローマン・ヤンポルスキー氏を引用している。 [and] 私たちには想像もつかないような新兵器です。」「想像もできない兵器」という言葉も見出しになった。

英国政府関係者や英国金融セクターのリーダーたちは、認識された脅威に直面して行動計画を策定するのに苦労した。ニューヨーク・タイムズ紙によると、トランプ政権のAIに対する「非介入主義政策」はミトスの発表後に変わり、その存在自体が安全保障を重視したAI大統領令の策定につながったという。トランプ氏は約１週間前にも同様の命令に署名していた。

とにかく、先週、Anthropic は Cloud Fable 5 と Mythos 5 をリリースしました。同社は、Fable 5 を「一般的な使用に安全であるように設計した Mythos クラスのモデル」と説明していますが、その機能は「通常提供しているどのモデルをも超えています」と述べています。一方、Mythos 5 は、Project Glasswing の一環として非常に限定的にリリースされました。

『ブラッド・イン・ザ・マシーン』のブライアン・マーチャントは、このことを次のように説明しています。

文明秩序全体を崩壊させる恐れがあるほど強力かつ危険な AI モデル Mythos を開発したとの 4 月の発表でテクノロジーメディアに大きなニュースサイクルを巻き起こした後、AI モデルは私たちをそれから守るために熱心に一般公開を差し控えていたのですが、現在この国でナンバー 1 の AI スタートアップ企業は、Mythos を開発することを決定しました。 ついに販売準備が整いました。

マーチャントがこの言葉を書いてから数時間後、輸出規制指令がアンスロピックに届けられ、明らかな国家安全保障上の懸念により、フェイブル 5 とミトス 5 は利用できなくなりました。 Anthropic は米国国民ではないユーザーのみのアクセスを取り消すよう命令されたようですが、命令に従わないことを恐れて Anthropic が世界中の誰にでもアクセスを許可するのが非現実的であることは理解できます。多くの問題の中でも、米国人以外の国民が Anthropic で働いています。状況が解決されるまでモデルを完全にプルする方が明らかに簡単です。

興味深いことに、輸出管理指令に関するアンスロピック社の声明では、アンスロピック社は英国政府および「いくつかの民間第三者機関」とともに「米国政府と協力」し、モデルに対する満足のいく一連の保護措置を作成する取り組みを行ったと述べている。リリース当時、セキュリティ対策はさまざまな意味で、Fable 5 をめぐるメディアの報道の中で最も顕著な特徴でした。モデルを悪用したユーザーを黙って罰するために設計されたより厳格なガードレールの 1 つが不適切であったため、Anthropic は謝罪することになりました。

しかし、Anthropic によると、政府は、これらの極めて重要なセキュリティ対策を迂回する Fable 5 の脱獄を知り、警戒したとのことです。

「私たちの理解では、政府はバイパスまたは「脱獄」の方法を認識していると考えています。私たちは、少数の既知の脆弱性を特定するために使用されているこの特定の技術のパフォーマンスをレビューしました。これらの脆弱性はすべて比較的単純に見え、他の公的に入手可能なモデルもバイパスを必要とせずにそれらを見つけることができることがわかりました。

Anthropic は、Fable 5 をリリースしたとき、モデルのセキュリティに関するブログ投稿のセクションで、一部のジェイルブレイクがまだ可能であることが明らかになったと完全に正しく指摘しています。これは「おそらく不可能」です。 完全に 「普遍的なジェイルブレイクを阻止するが、私たちの目標は、残りのジェイルブレイクを非常に遅く高価にし、大規模に使用される前に検出して停止できるようにすることです。本質的に、モデルを完全にジェイルブレイクに対応させることはまだ不可能であるため、Anthropic はジェイルブレイクを作成するのにコストがかかるか、脅威とするには「範囲が狭すぎる」かのどちらかにしようとしました。Anthropic はこの事実についても公表しました。それは、ユーザーに関して通常よりも多くのデータを保持していることです。ミトスクラスのモデル。

それでも、Anthropic が自社のモデルに対する認識されている脅威を軽視し、これらの脆弱性は「軽微」、「すでに知られている」、「比較的単純」であると書きながら、「他の公開されているモデルはバイパスを必要とせずにそれらを見つけることができる」とも指摘しているのは奇妙です。

そして、Anthropic がこのクラスのモデルを初めて公表したとき、世界に真の損害を与える可能性を秘めた前例のない力を備えた創造物を作成したと世界に伝えました。 2 か月後、「Mythos-Class」モデルは一般消費者向けの製品となり、「Pro、Max、Team、およびシートベースのエンタープライズプランのユーザーには追加費用なしで」プレミアム製品として提供されましたが、期間限定でした。 6月23日、Anthropicは「それらのプランからFable 5を削除」し、代わりに従量課金制プランを要求するつもりだった。

Anthropic は、こうした政府の措置が標準化されれば、「すべての限界モデル提供者に対するすべての新しいモデルの導入が停止される可能性がある」と主張している。そしておそらくこれは真実です。サイバーセキュリティを世界的に再評価する価値があると伝えられている前例となるテクノロジーがその製品の展開に含まれているときに、その製品のリリースが保留になった場合、たとえその過剰反応がビジネスに悪影響を及ぼしたとしても、その製品のセキュリティ対策の穴に過剰反応するのはおそらく驚くべきことではないでしょう。