所有語言
分享
原文來源:雷科技
圖片來源:由無界 AI生成
AI大模型的本質,就是用大量的數據進行訓練,使其能夠了解並掌握各種數據,你所看到的文字回答、圖畫、視頻、音樂,其實都是由一個個數據子集根據模型算法所構造的結果。
實際上,我們的大腦在回答問題時,也是類似的方式,只不過我們有着更強大的模糊運算能力,甚至可以跳出原有知識的束縛,從一個新的角度對問題進行解析,換言之就是無中生有。
但是,我們也往往會因為一些錯誤的認知、失真的記憶等因素,而得出一些完全錯誤或是與真相背道而馳的答案,那麼AI呢?他們同樣如此,甚至當他們的數據庫中出現污染時,他們會“信誓旦旦”地給出完全錯誤的回答,並且認為這就是正確的。
隨着AI大模型的數據版權問題愈演愈烈,如今網上正在湧現出不少針對AI大模型設置的陷阱,他們的做法是通過插入特殊數據,破壞AI的數據庫,使其產生完全錯誤的回答。最終迫使開發者回滾相關數據版本,並主動避開產生錯誤數據的網站,以達到保護自身數據版權不受侵害的目的。
對於這種行為,有個十分貼切的形容——毒丸。
關注AI大模型領域的朋友,應該都還記得前段時間,國內某科技公司的市值一天內蒸发上百億,而造成這個後果的原因就是該企業的AI大模型遭到污染,進而讓AI生成了一篇有違主流價值觀的文章,該文章被一位家長發現后發到了網上,引起了廣泛關注。
值得注意的是,也有聲音稱文章並非由AI生成,而是AI在抓取網絡資源時無意將其納入數據庫中,並在後續同步到了應用里,導致該文章得到了曝光。不管是什麼原因,一個顯而易見的事實都擺在我們面前,AI在分辨事物好壞的能力上,依然有着明顯的欠缺。
早在AI大模型受到關注的初期,就有聲音發出質疑:“如果我們給AI投喂一些有害的數據,是否就可以讓AI成為一個壞人?”,答案無疑是肯定的。有人將AI部署到匿名網絡論壇4chan中,學習論壇中各個用戶之間的交流,在一段時間的訓練后,開發者獲得了一個“五毒俱全”的AI,它支持納粹、支持種族歧視、支持種族清洗,並且擅長用各種惡毒的語言辱罵對話者。
這個結果甚至讓開發者都感到震驚,同時也說明如果對AI的訓練數據不加以甄別,就會導致AI的認知及回答都出現嚴重的錯誤。所以,主流AI大模型都會加入了多重糾錯和屏蔽措施,避免數據庫遭受有害信息的污染。
但是,相較於比較容易甄別及防範的文字數據,繪畫等數據的“毒丸”則更加隱蔽且高效。此前,有黑客團隊就為此專門開發了一套“投毒”工具,這套工具可以在看似正常的畫作中加入特殊的特徵碼,使得AI將其誤認為是另一個數據子集的作品,然後通過重複地污染數據池,來達到徹底破壞AI認知的目的。
被污染的AI在面對畫圖需求時,就會給出完全錯誤的回答,比如你讓AI畫一隻狗,在短暫等待后,出現在你面前的卻是一隻貓或者一頭牛,或者其他隨便什麼東西,反正擺在你面前的肯定不是“一條狗”。
圖源:technologyreview
隨着污染數據的增多,AI生成的圖畫也會越發抽象,到最後變成一堆無意義的線條時,這個AI的數據庫基本上就算是玩完了,想要讓他恢復正常,只能選擇版本回歸,讓其回到出現問題之前的狀態。
但是,如何確定數據污染時間點也是一項費時費力的工作,而且會直接讓這段時間的訓練數據打水漂,增加訓練成本又降低訓練效率,畫師們正是通過這種方式來保護自己的版權不受侵害,並逼迫AI公司主動繞開掛上了禁止抓取標識的作品。
如果說毒丸只用在備註了禁止抓取的畫作上,那麼這隻能算是一次版權糾紛,而且多數網友或許也會選擇站在畫師一邊。但是,開發者很快就發現有大量並未標識禁止抓取的作品也內置了毒丸,並且開始持續性地污染AI數據庫,想要從浩瀚的訓練數據中找出毒丸,難度卻極大,可以說直接影響了AI繪畫模型的訓練速度。
如何防範毒丸的污染,已經成為各個AI大模型需要慎重對待的問題。
如何避免AI被污染?對此,開發者想了很多辦法,比如加入更嚴苛的數據審核制度,寧願降低訓練效率也要將疑似有問題的數據剔除出去。但是,這個方法的效果並不算好,隨着審核力度加強的還有毒丸的隱蔽性。
通過特殊的算法,黑客團隊也在不停地迭代更新投毒工具,讓毒丸可以被盡可能地偽裝成正常數據,進而騙過AI的安全機制,進入到核心數據區。或許10個毒丸只有1個可以安全過關,但是毒丸的生成速度極快,而摧毀一個數據庫所需要的毒丸數量,其實只需幾十個,一旦毒丸數量達到數百個,那麼AI對某個事物的認知就會完全帶歪。
此外,AI的學習能力也可以成為對抗毒丸的手段之一,將偽裝后的毒丸進行數據標識,然後反覆投餵給AI,讓AI認識到帶有此類特徵的數據都是“有毒”的,進而讓AI能夠舉一反三,從浩瀚的數據中分辨出有害數據。
當然,有些隱蔽的非公開投毒工具就無法使用這種方法進行對抗,此時就需要開發者進行定期的安全審查,核實並清除惡意數據,同時根據惡意數據的特徵提高模型對惡意數據的應對能力。
不過這些方法都不夠高效,需要開發者時刻關注並更新模型,那麼是否有別的辦法能夠更好地解決這個問題呢?當然是有的,只不過需要付出更多的精力和成本,比如AI融合模型。
簡單來說,就是將多個AI模型融合成一個模型矩陣,在輸出數據前各個模型間先交換一輪數據,對輸出內容進行審核,在交叉認證確認數據無誤后再進行輸出,考慮到一次性多個AI都被污染的概率很低,這種方法的效果和效率也是最高的。
但是,多個AI模型的混合十分考慮開發者的技術,會顯著增加系統的複雜度和計算成本,對於許多尚未盈利的AI團隊或是中小型開發團隊而言,有點難以承擔。所以這種方法大多被用在大型企業的AI模型矩陣中,為了確保輸出數據的正確性(至少看起來不能有明顯錯誤),這點成本可以說不值一提。
可以說,如今的AI模型訓練已經不再是簡單地比拼數據規模和算法架構,糾錯及抗干擾能力也成為一個重要指標。隨着AI大模型的應用越發廣泛且用戶群體日益壯大,如何保證AI在回答問題時不出錯已經成為關鍵,考慮到如今草木皆兵,神經高度敏感的投資市場風氣,一個小失誤就損失百億並非玩笑。