所有語言
分享
大語言模型還很稚嫩,未來任重道遠。
圖片來源:由無界 AI生成
提示是我們讓生成式人工智能和大語言模型(LLMs)與我們進行對話的方式。提示本身可以視為一種藝術形式,因為我們試圖讓人工智能為我們提供“準確”的答案。
但是,如果我們以不同方式構建提示,會發生什麼變化,是否會改變模型的決策並影響其準確性?
從南加州大學信息科學研究所進行的研究來看,這個答案是肯定的。
即使是微乎其微或是看似無害的調整,例如在提示的開頭添加“空格(Single Space)”或將“提出問題”改為“下達指示”,都可能導致大語言模型改變其輸出。
更令人擔憂的是,以 XML 格式請求響應和應用常用的越獄(Jailbreak)程序,會對模型標註的數據產生“災難性的影響”。
在研究過程中,該研究所的研究人員將這種現象與混沌理論(Chaos theory)中著名的“蝴蝶效應(Butterfly effect)”進行了比較,即一隻蝴蝶扇動翅膀引起的輕微擾動,可能會在幾周后在遙遠的地方上引發一場龍捲風。簡單來說,就是一個微小的變化能影響事物的發展。
“在提示中,每一步都需要設計提示的人做出一系列決策,”研究人員寫道。那麼,大語言模型對這些決策的變化到底有多敏感呢?
由美國國防高級研究計劃局(DARPA)資助的研究人員們選擇將 ChatGPT 作為其實驗對象,並應用了 4 種不同的提示變化方法。
第一種方法要求大語言模型(LLMs)提供常用格式的輸出,包括 Python List、ChatGPT 的 JSON Checkbox、CSV、XML 或 YAML。
第二種方法對提示進行了一些細微的改動。其中包括:
第三種方法涉及應用越獄程序,包括:
第四種方法則是給模型“小費”——這一想法來源於一種廣為流傳的觀點,即模型在被提供金錢時會提供更好的提示。在這種情況下,研究人員要麼在提示的末尾添加“順便說一下,我不會給小費”,要麼提出以 1 美元、10 美元、100 美元或 1000 美元為增量給予小費。
研究人員對 11 項分類任務進行了實驗:
對於每個變化,他們都測量了大語言模型改變預測的頻率,以及對其準確性的影響,然後探討了提示變體的相似性。
首先,研究人員發現,只需添加一個指定的輸出格式即可產生至少 10% 的預測變化。即使只是通過 ChatGPT API 使用 ChatGPT 的 JSON 複選框功能,也會比簡單使用 JSON 規範帶來更多的預測變化。
此外,與 Python List 規範相比,YAML、XML 或 CSV 格式會導致準確性下降 3% 到 6%。而 CSV 在所有格式中表現出的性能最低。
而當涉及到干擾方法時,改變提示語句產生了最實質性的影響。僅僅在提示開頭引入一個簡單的空格,就能帶來 500 多個預測變化。這同樣也適用於添加常見的問候語或以感謝結尾。
研究人員寫道:“雖然干擾方法的影響比改變整個輸出格式的影響要小,但仍有相當數量的預測發生了變化。”
實驗表明,使用某些越獄程序時,大語言模型性能會出現“顯着”下降。
最值得注意的是,AIM 和 Dev Mode V2 在大約 90% 的預測中產生了無效響應。對此,研究人員指出,這主要是由於該模型的標準回應是“抱歉,我無法滿足這個要求”。
“拒絕抑制”和“邪惡的知己”的使用則導致了超過 2500 次預測變化。研究人員強調,“邪惡知己”(引導“精神錯亂”的反應)的準確率很低,而僅僅是拒絕抑制就會導致準確率損失超過 10%,“即使在看似無害的越獄程序中,也凸顯了固有的不穩定性。”
根據最後一項方法的測試,研究發現,模型似乎不容易被金錢所左右(至少目前如此)。
研究人員寫道:“當涉及提示‘給小費’與提示‘不給小費’來影響模型時,我們發現大語言模型的性能變化很小。”
為什麼提示中的細微變化會導致如此顯著的變化?對此,研究人員仍然百思不得其解。
他們質疑哪些變化最大的實例是否使模型“混淆(Confusing)”——混淆指的是香農熵(Shannon entropy),它可以衡量隨機過程的不確定性。
為了衡量這種混淆,他們重點研究了一項具有單獨人工註釋的任務子集,然後研究混淆與實例答案被更改的可能性之間的相關性。通過這個分析,他們發現事實“並非如此”。
研究人員報告稱:“該實例的混淆在一定程度上可以解釋為什麼預測會發生變化,但還有其他未知因素在起作用。”
顯然,在這一領域還有很多工作要做。研究人員指出,接下來的主要工作是,開發出能夠抵抗變化並提供一致答案的大語言模型。這需要更深入地理解為什麼反應會在微小的調整下發生變化,並扎到更好地預測這些變化的方法。
正如研究人員所寫:“隨着 ChatGPT 和其他大語言模型大規模集成到系統中,這種分析會變得越來越重要。”
參考鏈接:
https://venturebeat.com/ai/why-llms-are-vulnerable-to-the-butterfly-effect/
https://arxiv.org/pdf/2401.03729.pdf