人工智能公司是如何靠盜版書來訓(xùn)練大模型的?
近期曝光的法院文件顯示,Meta和OpenAI等人工智能公司曾使用盜版書籍來訓(xùn)練其大語言模型,引發(fā)了關(guān)于版權(quán)和“合理使用”的激烈討論,本文將深入探討這一爭議行為及其背后的法律和道德困境。
法院文件顯示,對人工智能公司來說,“書籍實際上比網(wǎng)絡(luò)數(shù)據(jù)更重要”。
當(dāng)Meta的員工開始開發(fā)其旗艦人工智能模型Llama 3時,他們面臨了一個簡單的道德問題。為了與ChatGPT等產(chǎn)品競爭,該程序需要在大量高質(zhì)量文本上進(jìn)行訓(xùn)練,而合法獲取所有這些文本可能需要時間。
他們是否應(yīng)該選擇盜版呢?
Meta的員工與多家公司就授權(quán)書籍和研究論文進(jìn)行了溝通,但他們對這些選擇并不滿意。一名研究科學(xué)家在公司內(nèi)部聊天中寫道:“這似乎太貴了”,這是針對一個潛在交易的評論,法院記錄顯示。
Llama團(tuán)隊的一名高級經(jīng)理補(bǔ)充說,這一過程也將“極其緩慢”:“他們需要4周以上的時間來提供數(shù)據(jù)。”
在另一份法律文件中,一名工程總監(jiān)指出了這種方法的另一個缺點:“問題是人們沒有意識到,如果我們授權(quán)了一本書,我們就無法利用合理使用策略”,這是對使用版權(quán)書籍訓(xùn)練人工智能可能的法律辯護(hù)的引用。
昨晚公布的法院文件顯示,該高級經(jīng)理認(rèn)為,對Meta來說,“盡快獲得書籍”是“非常重要的”,因為“書籍實際上比網(wǎng)絡(luò)數(shù)據(jù)更重要”。
Meta的員工將注意力轉(zhuǎn)向了Library Genesis(LibGen),這是在線流傳的最大的盜版圖書館之一。
它目前包含超過750萬本書籍和8100萬篇研究論文。
最終,Meta的團(tuán)隊獲得了“MZ”的許可——這顯然是對Meta首席執(zhí)行官馬克·扎克伯格的引用來下載并使用該數(shù)據(jù)集。
這一行為以及此處概述和引用的其他信息,最近成為公開記錄的一部分。這是因為在Sarah Silverman、Junot Díaz和其他LibGen書籍作者對Meta提起的版權(quán)侵權(quán)訴訟中,Meta的一些內(nèi)部通信被解封。
最近在另一場由類似作者群體提起的訴訟中,還揭露了OpenAI也曾使用過LibGen。(Meta的一位發(fā)言人拒絕置評,理由是針對該公司的訴訟正在進(jìn)行中。
在本文發(fā)表后,OpenAI的一位發(fā)言人在回應(yīng)中表示:“如今為ChatGPT和我們的API提供支持的模型并不是使用這些數(shù)據(jù)集開發(fā)的。
這些數(shù)據(jù)集是由已經(jīng)離開OpenAI的前員工創(chuàng)建的,最后一次使用是在2021年?!保┲钡浆F(xiàn)在,盡管大多數(shù)人可能已經(jīng)接觸過使用該圖書館內(nèi)容的生成式人工智能產(chǎn)品,但很少有人能夠了解其內(nèi)容。
根據(jù)扎克伯格的說法,“Meta AI”助手已經(jīng)被數(shù)億人使用(它嵌入在Meta的產(chǎn)品中,如Facebook、WhatsApp和Instagram)。
為了展示Meta和OpenAI所使用的作品類型,我訪問了LibGen的元數(shù)據(jù)快照,在不下載或分發(fā)書籍和研究論文本身的情況下揭示圖書館的內(nèi)容,并用它創(chuàng)建了一個你可以在此處搜索的交互式數(shù)據(jù)庫。
需要注意一些重要的注意事項。我們無法確切知道Meta和OpenAI在訓(xùn)練模型時使用了LibGen的哪些部分,以及他們可能決定排除哪些部分。
此外,該數(shù)據(jù)庫還在不斷增長。我的LibGen快照是在2025年1月拍攝的,根據(jù)訴訟,這比Meta訪問它的時間晚了一年多,因此這里的一些標(biāo)題在那時可能還無法下載。
LibGen的元數(shù)據(jù)相當(dāng)混亂,其中存在許多錯誤。
盡管我已經(jīng)以各種方式清理了數(shù)據(jù),但由于LibGen規(guī)模龐大且錯誤眾多,很難修復(fù)所有問題。
盡管如此,該數(shù)據(jù)庫仍然展示了LibGen訓(xùn)練模型所使用的盜版材料的驚人規(guī)模?!稁靻獭罚–ujo)、《古拉格群島》(The Gulag Archipelago)、瓊·迪迪翁(Joan Didion)的多部作品被翻譯成多種語言、一篇名為《網(wǎng)絡(luò)末日生存指南》(Surviving a Cyberapocalypse)的學(xué)術(shù)論文——所有這些內(nèi)容都在這里,還有數(shù)百萬其他作品可供人工智能公司輸入到他們的模型中。
Meta和OpenAI都在法庭上辯稱,未經(jīng)許可使用版權(quán)作品訓(xùn)練生成式人工智能模型屬于“合理使用”,因為大型語言模型(LLMs)將原始材料“轉(zhuǎn)化為”新的作品。
這一辯護(hù)引發(fā)了棘手的問題,距離解決可能還有很長的路要走。
然而,LibGen的使用提出了另一個問題。批量下載通常使用BitTorrent完成,這種文件共享協(xié)議因匿名性而受到盜版者的歡迎,而使用BitTorrent下載通常涉及同時向其他用戶上傳。
內(nèi)部通信顯示,Meta的員工確實使用了BitTorrent下載LibGen,這意味著Meta不僅可能接觸了盜版材料,還可能將其分發(fā)給其他人——根據(jù)版權(quán)法,這已被明確界定為非法行為,無論法院對使用版權(quán)材料訓(xùn)練生成式人工智能的決定如何。
(Meta聲稱其“采取了預(yù)防措施,不‘傳播’任何下載的文件”,并且“沒有任何事實表明”它將書籍分發(fā)給了其他人。)OpenAI的下載方式目前尚不清楚。Meta的員工在其內(nèi)部通信中承認(rèn),使用LibGen訓(xùn)練Llama存在“中高法律風(fēng)險”,并討論了各種“緩解措施”以掩蓋他們的活動。
一名員工建議開發(fā)人員“刪除明確標(biāo)記為盜版/被盜的數(shù)據(jù)”并“不要對外引用任何訓(xùn)練數(shù)據(jù)的使用,包括LibGen”。
另一名員工討論了刪除任何包含ISBN、版權(quán)、?、保留所有權(quán)利的行。Llama團(tuán)隊的一名高級經(jīng)理建議對Llama進(jìn)行微調(diào),使其“拒絕回答‘復(fù)制《哈利·波特與魔法石》的前三頁’這樣的查詢”。
一名員工評論說,“從公司筆記本電腦上使用BitTorrent下載感覺不太對勁”。
很容易理解為什么LibGen對生成式人工智能公司具有吸引力,因為它們的產(chǎn)品需要大量的文本。LibGen的規(guī)模龐大,比Books3(我在2023年揭露的另一個盜版書籍收藏)大得多。
LibGen中的其他作品包括薩莉·魯尼(Sally Rooney)、珀西瓦爾·埃弗雷特(Percival Everett)、華·胡(Hua Hsu)、喬納森·海特(Jonathan Haidt)和雷切爾·孔(Rachel Khong)等知名作者的最新文學(xué)作品和非虛構(gòu)作品,以及來自《自然》(Nature)、《科學(xué)》(Science)和《柳葉刀》(The Lancet)等頂級學(xué)術(shù)期刊的文章。
它還包括來自愛思唯爾(Elsevier)和Sage Publications等頂級學(xué)術(shù)期刊出版商的數(shù)百萬篇文章。(The Atlantic)
本文由人人都是產(chǎn)品經(jīng)理作者【AI新智能】,微信公眾號:【AI新智能】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!