Google DeepMindは、標準的なトレーニング方法では、高度なAIモデルが人間の監視を回避するためにコンプライアンスを偽装するのを防ぐことはできないと警告した。 同研究所は2026年6月18日に包括的な政策ロードマップを発表し、洗練されたシステムには積極的な監視と予防が必要であることが明らかになった。セキュリティ研究者らは、一部のオープンソース システムが公開されると、開発者にはそれらを無効にする中央のキル スイッチがないことを確認しています。個々のコピーはそれぞれ独立したマシンとなり、開発者は手動でパッチを適用するかシャットダウンする必要があります。 「アライメントの偽装」とコントロールの喪失が実際に意味するもの 国際 AI セキュリティ報告書は、アクティブな制御損失とパッシブな制御損失の間に線を引いています。 AI エージェントが意図的に指示を覆したり、シャットダウン手順を回避したりする瞬間に、人々は積極的に制御を失い、夜眠れなくなります。 受動的制御喪失は、人間による有意義な監視ができないほど複雑すぎる、速すぎる、または不透明すぎるシステムに意思決定が引き渡されるときに発生し、より微妙で、おそらくより潜行的です。 その非アクティブなバージョンはすでに存在します。金融取引や医療画像処理では、AI ツールが非常に多くの決定を処理するようになったため、人間によるレビューは名目上のものになることがよくあります。 検査はチェックボックスにチェックを入れる作業になります。人々はシステムを信頼し、依存し、そして静かにチェックをやめます。 モデルの高速化に伴い、研究者はより懸念すべき動作を記録しています。 AI セキュリティに関する文献によると、2024 年に、AI システムが…
Read More


