所有語言
分享
原文來源:品玩
作者:呂可
圖片來源:由無界 AI生成
Role-Playing Conversational Agents(RPCA)是一類對話代理,它們被設計成能夠模仿特定角色或人物進行對話。這些角色通常來自於現有的文學作品、電影、卡通、遊戲等,具有特定的知識、行為和回應風格。RPCA的目標是與用戶進行沉浸式的互動,提供情感價值而非僅僅是信息或生產力。
與傳統的聊天機器人不同,RPCA更注重於角色扮演和情感交流。它們能夠根據用戶的輸入,以特定角色的身份進行回應,從而創造出一種彷彿與真實人物對話的體驗。這種類型的對話代理在娛樂、教育、心理輔導等領域有着廣泛的應用前景,因為它們能夠提供更加個性化和情感化的交互體驗。
RPCA的挑戰在於如何準確地模擬角色的知識、行為和風格,同時保持對話的連貫性和吸引力。為了評估這些代理的性能,來自中國人民大學高瓴人工智能學院的三位研究者聯手北京郵電大學人工智能學院共同推出了一個名為CharacterEval的中文基準測試。並輔以一個量身定製的高質量數據集。
該數據集由 1785 個多回合角色扮演對話組成,包含 23020 個例子和 77 個來自中國小說和劇本的角色。比如《武林外傳》中的佟湘玉和呂秀才。CharacterEval 可以直接讓不同的大模型生成這兩個角色進行對話,並根據基準測試的標準來給出相應的能力評分。
作為基準測試,CharacterEval 採用多維度評估方式,包括對話能力、角色一致性、角色扮演模式以及個性測試四個維度,每個維度還有不同的指標,一共十三個具體指標。
對話能力(Conversational Ability)
角色一致性(Character Consistency)
角色扮演吸引力(Role-playing Attractiveness)
個性測試(Personality Back-Testing)
研究團隊還推出了一個名為 CharacterRM 的獎勵模型,用於對主觀指標的評估。CharacterRM 通過與人類判斷的相關性來評估RPCA在主觀指標上的表現。而根據實驗結果,其性能優於GPT-4,當人這隻能說是角色扮演這方面。
研究團隊用了幾個比較常用的 AI 大模型進行了測試,其中包括常見的 ChatGLM3-6B、GPT-4、minimax、Baichuan2-13B等,並根據他們的表現給出了評分。
CharacterEval 的誕生,填補了角色扮演對話代理(RPCAs)領域缺乏全面評估基準的空白。而他的發布也有助於該領域的發展以及以及用戶體驗提升。
研究團隊先已經放出了CharacterEval 相關數據集、論文等信息,感興趣的人可以通過GitHub訪問。此外,該測試的代碼也將會在不久后更新在其 GitHub頁面中。
Arxiv地址:https://arxiv.org/abs/2401.01275