所有語言
分享
原文來源:騰訊科技
圖片來源:由無界 AI 生成
2023年6月28日,第一起具有代表性的ChatGPT版權侵權之訴,終於出現在了公眾視野。兩名作家在美國加州北區法院,對Open AI公司發起了版權集體訴訟,指控後者未經授權利用自身享有版權的圖書訓練ChatGPT,謀取商業利益。
原告Paul Tremblay和Mona Awad居住於馬薩諸塞州,分別享有涉案作品《The Cabin at the End of the World》和《13 Ways of Looking at a Fat Girl and Bunny》的版權;被告Open AI創建和運營了生成式人工智能產品ChatGPT,目前主要由GPT-3.5和GPT-4兩個底層大語言模型驅動。
起訴狀指出,雖然原告沒有授權Open AI使用自身享有版權的圖書進行模型訓練,但ChatGPT卻能夠根據prompts指令輸出圖書的摘要,而這隻有在被告將涉案圖書納入語料庫加以訓練才可能發生。
原告表示,Open AI訓練數據集中收錄的大量內容屬於版權保護的作品,這其中便包括原告享有版權的圖書。但Open AI既沒有經過原告的同意,也沒有標明內容來源、支付必要的費用。而原告出版的圖書具有明確的版權管理信息,包括出版號、版權號、版權人姓名以及使用條款等。
原告從既有的事實和信息可以推斷,ChatGPT之所以可以準確生成特定圖書的摘要,唯一可解釋的原因便是Open AI獲取、複製了涉案圖書,並用於旗下大語言模型(GPT3.5 或GPT4)的訓練。
原告測試發現,當通過prompts的方式要求ChatGPT總結兩部涉案圖書時,ChatGPT可以生成較為準確的摘要(雖然也存在少量的錯誤內容)。這表明ChatGPT保存了被訓練數據集中特定作品的內容,並能夠輸出對應的文本。與此同時,ChatGPT通過對大語言模型內容生成原理的設計,輸出內容並不會包含原有的版權管理信息。
本案有意思之處在於,原告證明Open AI侵權的過程中,對於ChatGPT基本原理的介紹,是建立在同ChatGPT對話,讓其“進行自我介紹”的基礎之上。具體內容總結如下。
Open AI至今已經公開了一系列的大語言模型,包括GPT-1(2018·6)、GPT-2(2019·2)、GPT-3(2020·5)、GPT-3.5(2022·3)以及最新的GPT-4(2023·3)。通常來講,人工智能軟件旨在藉助統計學方法,通過算法模擬人類的邏輯和推理。大語言模型則是一類專門的人工智能軟件,用來解析和輸出自然語言。
一方面,Open AI以每個月20美元的價格將ChatGPT通過網絡頁面的方式提供給用戶。使用者可以選擇兩個版本的ChatGPT,GPT-3.5模型或者更新后的GPT-4模型。另一方面,ChatGPT也以API的方式提供給軟件開發者。API接口允許開發者撰寫程序用於和ChatGPT進行數據交換,在此情況下則是按照使用量來計費。
不管是以頁面還是API方式提供服務,ChatGPT都會积極響應用戶的prompts請求。如果用戶向ChatGPT提問,它會給出答案;如果用戶向ChatGPT下指令,ChatGPT會執行;如果用戶要求ChatGPT總結一本圖書的摘要,ChatGPT依然會照做。
原告着重論證的觀點是,不同於傳統軟件是由工程師撰寫代碼而成,大語言模型則是通過“訓練”的方式研發——收集不同來源的海量內容語料並“投喂”給模型,這些語料被稱為訓練數據集(training dataset)。
大語言模型會不斷調整自身的輸出,盡可能的接近被訓練作品中的文字組合順序。值得關注的是,雖然很多內容都被用來訓練大語言模型,但圖書一直是訓練數據集中核心的語料素材,因為其提供了高質量長篇寫作的最佳範例。
在2018年6月發表的企業論文《通過生成式預訓練提升語言理解力》中,Open AI披露GPT-1的訓練依賴於“BookCorpus”的數據集。“BookCorpus”包含7000本涉及探險、奇幻、浪漫等不同領域的圖書。Open AI指出,之所以圖書作為訓練語料尤為重要,是因為其包含了長篇幅的連續文本,這可以讓生成式模型學習如何處理長文本信息的能力。
包括Open AI、谷歌、亞馬遜等在內的眾多人工智能研發企業,都利用“BookCorpus”進行模型訓練。2015年,一個人工智能研究團隊創建了該數據集,其包含的圖書來源於Smashwords.com網站,但“BookCorpus”在收錄這些圖書時未獲得版權人授權。
通過公開檢索Open AI主動披露信息(企業論文)的方式,原告希望論證GPT系列模型的訓練建立在,未經授權侵權利用海量圖書內容的基礎之上。在2020年7月發表的企業論文《語言模型是小樣本學習者》中,Open AI披露GPT-3訓練數據集中15%的內容,來源於兩個名為“Books1”“Books2”的电子圖書語料庫。
雖然Open AI沒有說明“Books1”和“Books2”內容的具體情況,但可以通過相關線索推斷:第一,兩個語料庫均來自於網絡;第二,兩個語料庫的規模均明顯大於“BookCorpus”。根據Open AI的披露,“Books1”的規模是BookCorpus的9倍(約6.3萬本書),Books2是42倍(約29.4萬本書)。現實中,只有極少數的數據庫能夠提供如此規模的圖書語料。一方面,“Books1”大概率來源於“古登堡項目”或“古登堡語料庫標準化項目”。“古登堡項目”(Project Gutenberg)是一個彙集“超過版權保護期限”的在線电子書庫。2020年9月,古登堡項目宣布已經收錄超過6萬本書。因為不受版權保護,古登堡項目一直被廣泛用作人工智能模型訓練。2018年,一個人工智能研究團隊在“古登堡項目”的基礎上,創建了超過5萬本圖書的“古登堡語料庫標準化項目”(Standardized Project Gutenberg Corpus)。另一方面,“Books2”極大可能來源於網絡上的“影子圖書館”。“Books2”數據集大約含有2.94萬本書,只有飽受詬病的“影子圖書館”(shadow library),能夠提供如此規模的圖書語料。例如Library Genesis、Z-Library、Sci-Hub和Bibliotik等。“影子圖書館”一詞由美國社會科學研究理事會,在2011年發表的《新興經濟體中的媒體盜版問題》文章中創造,指代侵權收錄大量書籍並向公眾免費開放的網站。2023年3月,Open AI發布GPT-4企業論文,但表示“出於行業競爭形勢和產品應用安全角度考量,不再對訓練數據集的結構和內容進行相關披露。”
原告針對Open AI一共發起了六項指控,前三項涉及版權侵權,第四項涉及不正當競爭,第五和第六項涉及兩類基本民事責任——注意義務和不當得利。
第一、版權直接侵權。原告沒有授權Open AI對其圖書進行複製、製作演繹作品,也沒有授權Open AI公開展示、分发上述複製品或演繹作品。
此外,原告強調,因為Open AI大語言模型需要從原告圖書中提取和保存表達性信息才能夠運行,所以在缺乏原告授權的情況下,大語言模型本身構成侵權演繹作品。
第二、版權替代侵權。原告強調,在缺乏授權的情況下,大模型每次輸出的內容都構成侵權演繹作品。因為有權利和能力控制大語言模型的內容輸出,並從中獲得了經濟利益,所以Open AI構成版權替代侵權。
在美國判例法體系下,“替代侵權”和“幫助侵權”“教唆侵權”共同構成了版權間接侵權的完整體系。間接侵權與直接侵權相對,意指侵權人雖然沒有直接從事版權專有權利規制的行為(即版權直接侵權),但卻為版權直接侵權提供了一定的助成條件。
第三、違反DMCA中版權管理信息的規定。從產品設計機制來看,ChatGPT輸出的內容不會保留作品的“版權管理信息”(CMI),所以被告故意移除原告作品版權管理信息的行為,違反《数字千年版權法》(DMCA)的規定。此外,在未獲授權的情況下,被告分發了不含有版權管理信息的侵權演繹作品,也違反了DMCA。
“版權管理信息”是一種能夠識別有關作品權利人、權利歸屬和使用條件的相關信息。不管是在美國是我國,刪除或改變版權管理信息,或向公眾提供被刪除或改變版權管理信息的作品,都構成違法。
第四、不正當競爭。Open AI未經授權使用原告受版權保護的作品進行模型訓練,這一行為違反了《加利福尼亞州商業和職業條例》,因為其具有不正當性、不道德性、強迫性並損害了消費者利益。
被告有意設計了ChatGPT,可以在不標明內容出處的情況下,輸出原告作品的片段和摘要。ChatGPT通過隱瞞作者、複製被侵權作品內容和觀點的方式,研發商業產品獲取不公平的利益和名聲。
第五、過失侵權即違反注意義務。Open AI需要承擔《加州民法典》規定的注意義務——所有人對於他人應當採取一種合理的行為方式。這一義務建立在行業慣例、商業實踐、被告掌握的信息以及基於信息所擁有的控制能力基礎之上。
被告一旦為了訓練GPT模型而收集原告享有版權的作品,那麼便需要負有一定的注意義務:當預見到未經授權將作品進行模型訓練會對原告造成損害時,便不應再侵權利用這些作品。
第六、不當得利。原告為創作涉案圖書付出了實質性的時間和精力。因為自身作品被未經授權的用來訓練GPT模型,原告被剝奪了從作品中原本可以獲利的權利。通過使用原告作品訓練GPT模型獲得商業利益,佔據這些利益對於被告而言是不公平的。除非加以禁止或限制,被告的行為將會給原告造成難以彌補的損害。
寫在最後:本案待探討的三個問題。
作為ChatGPT版權侵權的首例代表性訴訟,加州北區法院做出正式判決仍將經歷一個漫長的過程。但在此之前,針對原告起訴狀中的具體內容,仍然有一些問題值得關注和思考。
關注一:發現模型侵權不容易。
大語言模型的訓練本質上是一種機器內部的、非外顯性作品利用行為,版權人存在發現自身作品被侵權的現實難題。一般來說,只能通過比對模型生成內容和自身作品存在實質性相似,倒推出模型訓練階段存在未經授權的作品利用行為。本案中,原告之所以能夠指控自身圖書被Open AI旗下的大語言模型侵權訓練,便是從發現ChatGPT輸出了自身作品的摘要,倒推而來。
但這一主張是否成立仍有待探討。若ChatGPT輸出的作品摘要,僅是建立自身在收集網絡上原告圖書公開介紹資料的基礎上,而非直接對原告圖書進行複製和訓練,那麼該侵權指控的正當性便會受到動搖。原告也承認ChatGPT輸出的自身圖書摘要存在少部分事實錯誤,一定程度也表明大模型可能並未完整的學習涉案圖書。
關注二:侵犯何種權利待論證。
目前來看,雖然“作品數據的儲存行為”形式上可以落入版權法“複製權”的規制範疇,但核心的“作品數據的訓練行為”,是否侵權以及侵犯何種版權法上的權利尚未有一致結論。本案,原告強調大語言模型的正常運行和內容輸出,建立在對作品語料的訓練基礎之上,所以大模型訓練便構成版權侵權,大模型本身也構成侵權演繹作品。
這一主張亦仍有待探討。除了少數類似於本案“以prompts方式要求概括、總結、翻譯特定版權作品”這類特殊內容生成需求之外,絕大多數情況下大模型接收開放式內容生成指令(不限定特定作品、特定作家風格),基本不會輸出特定作品甚至說特定作品的片段,也就不構成版權法上的侵權。
關注三:上下游責任需明確。
在大模型版權領域,模型研發者對於大模型本身享有相關權利,所以承擔模型訓練涉及的版權責任;而對於大模型輸出的內容,從目前行業實踐來看,通行做法是通過合同方式,明確權利和責任均屬於使用者。在2023年7月10日,網信辦發布的《生成式人工智能服務管理暫行辦法》也明確認可,“提供者應當與使用者簽訂服務協議,明確雙方權利義務。”
值得關注,從原告訴訟請求看,亦遵循了模型訓練和內容輸出兩個階段,權利責任二分的思路。原告對於版權直接侵權的主張,聚焦於Open AI模型訓練階段:一是,未經原告授權在模型訓練過程中製作了圖書的複製品;二是在缺乏原告授權的情況下,大語言模型本身構成侵權演繹作品。原告對於ChatGPT輸出內容侵權的指控,僅是主張Open AI構成版權間接侵權(替代侵權)。這也意味着對於大模型輸出的內容,是由使用者承擔版權直接侵權責任,因為其享有對應的權利。