OpenAI 制定新的安全框架，專家評價：在安全集成方面仍落後於 Anthropic

巴比特_东寻397天前

12 月 19 日，OpenAI 在官網公布了“準備框架”測試版，旨在監控和管理日益強大的人工智能模型的潛在危險。

圖片來源：由無界 AI生成

近期，OpenAI 因內鬥事件飽受爭議，也引發了人們對其治理和問責制的質疑。與此同時，在確保人工智能模型安全性方面，OpenAI 的應對措施也越來越受到人們的關注。

10 月底，OpenAI 宣布成立一個“準備團隊”（Preparedness team），旨在監測和評估前沿模型的技術和風險，並制定和維護風險知情發展政策（RDP）。

在這一基礎上，OpenAI 今日又公布了一份名為“準備框架”（Preparedness Framework）的文檔，概述了 OpenAI 將如何“追蹤、評估、預測和防範災難性風險”，旨在確保前沿人工智能模型的安全，並嘗試解決一些問題。

數據驅動的人工智能安全方法

OpenAI“準備框架”的核心機制之一是，對所有前沿人工智能模型使用風險“記分卡”。它可以評估和跟蹤潛在風險的各種指標，例如模型的功能、漏洞和影響。

據介紹，記分卡會對所有模型進行反覆評估和定期更新，並在達到特定風險閾值時觸發審查和干預措施。

對於觸發基準安全措施的風險閾值，OpenAI 將感知風險評級分為四個等級：“低”、“中”、“高”和“嚴重”，並列舉了 4 類可能帶來災難性後果的風險領域：網絡安全、CBRN（化學、生物、輻射、核威脅）、勸說以及模型的自主性。

OpenAI 強調，只有在緩解后得分在“中”或以下的模型才能部署，只有緩解后得分在“高”或以下的模型才能進一步開發，並且將針對具有高風險或嚴重風險（緩解前）風險的模型實施額外的安全措施。

此外，OpenAI 還將成立一個跨職能的“安全諮詢小組”（Safety Advisory Group）來監督技術工作，並建立一個安全決策的運作架構。

首先，準備團隊將推動技術工作，檢查和評估前沿模型，並定期向內部安全諮詢小組發送報告。隨後，安全諮詢小組會審查所有報告，再將報告同時提交領導層和董事會。

值得注意的是，OpenAI 指出，雖然領導層是決策者，但董事會擁有撤銷決定的權利。

除了上述措施，準備框架還有一個關鍵要素，就是允許來自 OpenAI 之外的“合格的獨立第三方”測試其技術並接收反饋，同時 OpenAI 將與外部各方以及安全系統等內部團隊密切合作，以追蹤現實世界中的濫用情況。這一舉措有助於 AI 模型的安全性得到更廣泛的審查和驗證。

目前，該安全框架仍處於測試階段。OpenAI 也表示，準備框架並不是一個靜態文檔，而是一個動態且不斷髮展的文檔，他們將根據新數據、反饋和研究不斷完善和更新框架，並將與人工智能社區分享其研究成果和最佳實踐。

那麼對於這一框架，行業人士如何看待？

在 OpenAI 宣布這一消息之前，其主要競爭對手 Anthropic 已經發布了幾份關於人工智能安全的重要聲明。

Anthropic 由前 OpenAI 研究人員創立，也是領先的人工智能實驗室。它於今年 9 月發布了“負責任的擴展政策”（Responsible Scaling Policy），旨在採用一系列技術和組織協議，以幫助管理功能日益增強的 AI 系統的風險。

在文件中，Anthropic 定義了一個名為 AI 安全級別（ASL）的框架，用於解決災難性風險。該框架大致仿照美國政府處理危險生物材料的生物安全分級（BSL）標準。該框架的基本想法是，要求與模型潛在的災難性風險相適應的安全、保障和操作標準，更高的 ASL 安全級別需要更嚴格的安全演示。

根據 ASL 框架，分為以下四個等級：

ASL-1 指的是不構成有意義的災難性風險的系統，例如 2018 LLM 或只會下棋的人工智能系統。
ASL-2 是指显示出危險能力早期跡象的系統，例如能夠發出有關如何製造生物武器的指示，但由於可靠性不足或未提供諸如搜索引擎做不到的信息。目前的 LLMs（包括 Claude）似乎屬於 ASL-2。
ASL-3 是指與非 AI 基線（例如搜索引擎或教科書）相比，顯着增加災難性誤用風險或显示低級自主能力的系統。
ASL-4 及更高版本（ASL-5+）尚未定義，因為它與目前的系統相差太遠，但可能會涉及災難性誤用潛力和自主性方面出現質的升級。

可以看到，兩個框架在結構和方法上存在顯着差異。Anthropic 的政策更加正式和規範，直接將安全措施與模型能力相關聯，如果無法證明安全性，則暫停開發。

相較之下，OpenAI 的框架則更靈活、更具有適應性，它設置了觸發審查的一般風險閾值，但不是預定義的級別。

對此，專家認為，這兩種框架各有優劣，但 Anthropic 的方法可能在激勵和執行安全標準方面更勝一籌。

他們分析稱，Anthropic 的政策傾向於將安全性主動融入開發流程，而非被動應對，這類嚴格的方法有助於在 AI 模型部署時降低潛在風險。而 OpenAI 的準備框架更為寬鬆，自由裁量權更大，為人類判斷和錯誤留下了更多空間，也可能因為缺乏具體的安全分級而引發爭議。

當然，任何事物都有兩面性。Anthropic 的政策在嚴格規定安全標準的同時，也可能會缺乏一定的靈活性，導致對某些創新造成一定程度的限制。

儘管如此，一些觀察人士仍認為，OpenAI 正在安全協議方面迎頭趕上。雖然存在差異，但這兩個框架都代表了人工智能安全領域向前邁出的重要一步，而這一領域往往被對人工智能能力的追求所掩蓋。

隨着 AI 模型變得更加強大和普遍，領先的實驗室和利益相關者之間在安全技術方面的協作和協調，對於確保人工智能對人類的有益和合乎道德的使用至關重要。

參考資料：

https://openai.com/safety/preparedness

https://venturebeat.com/ai/openai-announces-preparedness-framework-to-track-and-mitigate-ai-risks/

https://www.anthropic.com/index/anthropics-responsible-scaling-policy

免責聲明：本文版權歸屬原作所有，僅代表作者本人觀點，不代表YouToCoin的觀點或立場，文章內容僅供參考，不構成投資建議。投資者據此操作，風險自擔；如有關於內容、版權等問題，請與我們聯繫。