所有語言
分享
12 月 19 日,OpenAI 在官網公布了“準備框架”測試版,旨在監控和管理日益強大的人工智能模型的潛在危險。
圖片來源:由無界 AI生成
近期,OpenAI 因內鬥事件飽受爭議,也引發了人們對其治理和問責制的質疑。與此同時,在確保人工智能模型安全性方面,OpenAI 的應對措施也越來越受到人們的關注。
10 月底,OpenAI 宣布成立一個“準備團隊”(Preparedness team),旨在監測和評估前沿模型的技術和風險,並制定和維護風險知情發展政策(RDP)。
在這一基礎上,OpenAI 今日又公布了一份名為“準備框架”(Preparedness Framework)的文檔,概述了 OpenAI 將如何“追蹤、評估、預測和防範災難性風險”,旨在確保前沿人工智能模型的安全,並嘗試解決一些問題。
OpenAI“準備框架”的核心機制之一是,對所有前沿人工智能模型使用風險“記分卡”。它可以評估和跟蹤潛在風險的各種指標,例如模型的功能、漏洞和影響。
據介紹,記分卡會對所有模型進行反覆評估和定期更新,並在達到特定風險閾值時觸發審查和干預措施。
對於觸發基準安全措施的風險閾值,OpenAI 將感知風險評級分為四個等級:“低”、“中”、“高”和“嚴重”,並列舉了 4 類可能帶來災難性後果的風險領域:網絡安全、CBRN(化學、生物、輻射、核威脅)、勸說以及模型的自主性。
OpenAI 強調,只有在緩解后得分在“中”或以下的模型才能部署,只有緩解后得分在“高”或以下的模型才能進一步開發,並且將針對具有高風險或嚴重風險(緩解前)風險的模型實施額外的安全措施。
此外,OpenAI 還將成立一個跨職能的“安全諮詢小組”(Safety Advisory Group)來監督技術工作,並建立一個安全決策的運作架構。
首先,準備團隊將推動技術工作,檢查和評估前沿模型,並定期向內部安全諮詢小組發送報告。隨後,安全諮詢小組會審查所有報告,再將報告同時提交領導層和董事會。
值得注意的是,OpenAI 指出,雖然領導層是決策者,但董事會擁有撤銷決定的權利。
除了上述措施,準備框架還有一個關鍵要素,就是允許來自 OpenAI 之外的“合格的獨立第三方”測試其技術並接收反饋,同時 OpenAI 將與外部各方以及安全系統等內部團隊密切合作,以追蹤現實世界中的濫用情況。這一舉措有助於 AI 模型的安全性得到更廣泛的審查和驗證。
目前,該安全框架仍處於測試階段。OpenAI 也表示,準備框架並不是一個靜態文檔,而是一個動態且不斷髮展的文檔,他們將根據新數據、反饋和研究不斷完善和更新框架,並將與人工智能社區分享其研究成果和最佳實踐。
那麼對於這一框架,行業人士如何看待?
在 OpenAI 宣布這一消息之前,其主要競爭對手 Anthropic 已經發布了幾份關於人工智能安全的重要聲明。
Anthropic 由前 OpenAI 研究人員創立,也是領先的人工智能實驗室。它於今年 9 月發布了“負責任的擴展政策”(Responsible Scaling Policy),旨在採用一系列技術和組織協議,以幫助管理功能日益增強的 AI 系統的風險。
在文件中,Anthropic 定義了一個名為 AI 安全級別(ASL)的框架,用於解決災難性風險。該框架大致仿照美國政府處理危險生物材料的生物安全分級(BSL)標準。該框架的基本想法是,要求與模型潛在的災難性風險相適應的安全、保障和操作標準,更高的 ASL 安全級別需要更嚴格的安全演示。
根據 ASL 框架,分為以下四個等級:
可以看到,兩個框架在結構和方法上存在顯着差異。Anthropic 的政策更加正式和規範,直接將安全措施與模型能力相關聯,如果無法證明安全性,則暫停開發。
相較之下,OpenAI 的框架則更靈活、更具有適應性,它設置了觸發審查的一般風險閾值,但不是預定義的級別。
對此,專家認為,這兩種框架各有優劣,但 Anthropic 的方法可能在激勵和執行安全標準方面更勝一籌。
他們分析稱,Anthropic 的政策傾向於將安全性主動融入開發流程,而非被動應對,這類嚴格的方法有助於在 AI 模型部署時降低潛在風險。而 OpenAI 的準備框架更為寬鬆,自由裁量權更大,為人類判斷和錯誤留下了更多空間,也可能因為缺乏具體的安全分級而引發爭議。
當然,任何事物都有兩面性。Anthropic 的政策在嚴格規定安全標準的同時,也可能會缺乏一定的靈活性,導致對某些創新造成一定程度的限制。
儘管如此,一些觀察人士仍認為,OpenAI 正在安全協議方面迎頭趕上。雖然存在差異,但這兩個框架都代表了人工智能安全領域向前邁出的重要一步,而這一領域往往被對人工智能能力的追求所掩蓋。
隨着 AI 模型變得更加強大和普遍,領先的實驗室和利益相關者之間在安全技術方面的協作和協調,對於確保人工智能對人類的有益和合乎道德的使用至關重要。
參考資料:
https://openai.com/safety/preparedness
https://venturebeat.com/ai/openai-announces-preparedness-framework-to-track-and-mitigate-ai-risks/
https://www.anthropic.com/index/anthropics-responsible-scaling-policy