久久大香伊蕉在人线观看热vr,日韩人妻无码免费精品一区二区,中文字幕亚洲无线码高清

人工智能公司是如何靠盜版書來訓(xùn)練大模型的？

2025-03-25

0 評論 373 瀏覽 0 收藏

近期曝光的法院文件顯示，Meta和OpenAI等人工智能公司曾使用盜版書籍來訓(xùn)練其大語言模型，引發(fā)了關(guān)于版權(quán)和“合理使用”的激烈討論，本文將深入探討這一爭議行為及其背后的法律和道德困境。

法院文件顯示，對人工智能公司來說，“書籍實際上比網(wǎng)絡(luò)數(shù)據(jù)更重要”。

當(dāng)Meta的員工開始開發(fā)其旗艦人工智能模型Llama 3時，他們面臨了一個簡單的道德問題。為了與ChatGPT等產(chǎn)品競爭，該程序需要在大量高質(zhì)量文本上進(jìn)行訓(xùn)練，而合法獲取所有這些文本可能需要時間。

他們是否應(yīng)該選擇盜版呢？

Meta的員工與多家公司就授權(quán)書籍和研究論文進(jìn)行了溝通，但他們對這些選擇并不滿意。一名研究科學(xué)家在公司內(nèi)部聊天中寫道：“這似乎太貴了”，這是針對一個潛在交易的評論，法院記錄顯示。

Llama團(tuán)隊的一名高級經(jīng)理補(bǔ)充說，這一過程也將“極其緩慢”：“他們需要4周以上的時間來提供數(shù)據(jù)。”

在另一份法律文件中，一名工程總監(jiān)指出了這種方法的另一個缺點：“問題是人們沒有意識到，如果我們授權(quán)了一本書，我們就無法利用合理使用策略”，這是對使用版權(quán)書籍訓(xùn)練人工智能可能的法律辯護(hù)的引用。

做交互设计10年，我为何转岗到产品经理？

真正转岗之后，我发现很多工作还是超出了自己的想象。产品经理的工作确实比较杂。理论上，产品经理的工作包括了产品的方方面面，从市场研究、用户调研、数据分析...

查看详情 >

昨晚公布的法院文件顯示，該高級經(jīng)理認(rèn)為，對Meta來說，“盡快獲得書籍”是“非常重要的”，因為“書籍實際上比網(wǎng)絡(luò)數(shù)據(jù)更重要”。

Meta的員工將注意力轉(zhuǎn)向了Library Genesis（LibGen），這是在線流傳的最大的盜版圖書館之一。

它目前包含超過750萬本書籍和8100萬篇研究論文。

最終，Meta的團(tuán)隊獲得了“MZ”的許可——這顯然是對Meta首席執(zhí)行官馬克·扎克伯格的引用來下載并使用該數(shù)據(jù)集。

這一行為以及此處概述和引用的其他信息，最近成為公開記錄的一部分。這是因為在Sarah Silverman、Junot Díaz和其他LibGen書籍作者對Meta提起的版權(quán)侵權(quán)訴訟中，Meta的一些內(nèi)部通信被解封。

最近在另一場由類似作者群體提起的訴訟中，還揭露了OpenAI也曾使用過LibGen。（Meta的一位發(fā)言人拒絕置評，理由是針對該公司的訴訟正在進(jìn)行中。

在本文發(fā)表后，OpenAI的一位發(fā)言人在回應(yīng)中表示：“如今為ChatGPT和我們的API提供支持的模型并不是使用這些數(shù)據(jù)集開發(fā)的。

這些數(shù)據(jù)集是由已經(jīng)離開OpenAI的前員工創(chuàng)建的，最后一次使用是在2021年?！保┲钡浆F(xiàn)在，盡管大多數(shù)人可能已經(jīng)接觸過使用該圖書館內(nèi)容的生成式人工智能產(chǎn)品，但很少有人能夠了解其內(nèi)容。

根據(jù)扎克伯格的說法，“Meta AI”助手已經(jīng)被數(shù)億人使用（它嵌入在Meta的產(chǎn)品中，如Facebook、WhatsApp和Instagram）。

為了展示Meta和OpenAI所使用的作品類型，我訪問了LibGen的元數(shù)據(jù)快照，在不下載或分發(fā)書籍和研究論文本身的情況下揭示圖書館的內(nèi)容，并用它創(chuàng)建了一個你可以在此處搜索的交互式數(shù)據(jù)庫。

需要注意一些重要的注意事項。我們無法確切知道Meta和OpenAI在訓(xùn)練模型時使用了LibGen的哪些部分，以及他們可能決定排除哪些部分。

此外，該數(shù)據(jù)庫還在不斷增長。我的LibGen快照是在2025年1月拍攝的，根據(jù)訴訟，這比Meta訪問它的時間晚了一年多，因此這里的一些標(biāo)題在那時可能還無法下載。

LibGen的元數(shù)據(jù)相當(dāng)混亂，其中存在許多錯誤。

盡管我已經(jīng)以各種方式清理了數(shù)據(jù)，但由于LibGen規(guī)模龐大且錯誤眾多，很難修復(fù)所有問題。

盡管如此，該數(shù)據(jù)庫仍然展示了LibGen訓(xùn)練模型所使用的盜版材料的驚人規(guī)模?！稁靻獭罚–ujo）、《古拉格群島》（The Gulag Archipelago）、瓊·迪迪翁（Joan Didion）的多部作品被翻譯成多種語言、一篇名為《網(wǎng)絡(luò)末日生存指南》（Surviving a Cyberapocalypse）的學(xué)術(shù)論文——所有這些內(nèi)容都在這里，還有數(shù)百萬其他作品可供人工智能公司輸入到他們的模型中。

Meta和OpenAI都在法庭上辯稱，未經(jīng)許可使用版權(quán)作品訓(xùn)練生成式人工智能模型屬于“合理使用”，因為大型語言模型（LLMs）將原始材料“轉(zhuǎn)化為”新的作品。

這一辯護(hù)引發(fā)了棘手的問題，距離解決可能還有很長的路要走。

然而，LibGen的使用提出了另一個問題。批量下載通常使用BitTorrent完成，這種文件共享協(xié)議因匿名性而受到盜版者的歡迎，而使用BitTorrent下載通常涉及同時向其他用戶上傳。

內(nèi)部通信顯示，Meta的員工確實使用了BitTorrent下載LibGen，這意味著Meta不僅可能接觸了盜版材料，還可能將其分發(fā)給其他人——根據(jù)版權(quán)法，這已被明確界定為非法行為，無論法院對使用版權(quán)材料訓(xùn)練生成式人工智能的決定如何。

（Meta聲稱其“采取了預(yù)防措施，不‘傳播’任何下載的文件”，并且“沒有任何事實表明”它將書籍分發(fā)給了其他人。）OpenAI的下載方式目前尚不清楚。Meta的員工在其內(nèi)部通信中承認(rèn)，使用LibGen訓(xùn)練Llama存在“中高法律風(fēng)險”，并討論了各種“緩解措施”以掩蓋他們的活動。

一名員工建議開發(fā)人員“刪除明確標(biāo)記為盜版/被盜的數(shù)據(jù)”并“不要對外引用任何訓(xùn)練數(shù)據(jù)的使用，包括LibGen”。

另一名員工討論了刪除任何包含ISBN、版權(quán)、?、保留所有權(quán)利的行。Llama團(tuán)隊的一名高級經(jīng)理建議對Llama進(jìn)行微調(diào)，使其“拒絕回答‘復(fù)制《哈利·波特與魔法石》的前三頁’這樣的查詢”。

一名員工評論說，“從公司筆記本電腦上使用BitTorrent下載感覺不太對勁”。

很容易理解為什么LibGen對生成式人工智能公司具有吸引力，因為它們的產(chǎn)品需要大量的文本。LibGen的規(guī)模龐大，比Books3（我在2023年揭露的另一個盜版書籍收藏）大得多。

LibGen中的其他作品包括薩莉·魯尼（Sally Rooney）、珀西瓦爾·埃弗雷特（Percival Everett）、華·胡（Hua Hsu）、喬納森·海特（Jonathan Haidt）和雷切爾·孔（Rachel Khong）等知名作者的最新文學(xué)作品和非虛構(gòu)作品，以及來自《自然》（Nature）、《科學(xué)》（Science）和《柳葉刀》（The Lancet）等頂級學(xué)術(shù)期刊的文章。

它還包括來自愛思唯爾（Elsevier）和Sage Publications等頂級學(xué)術(shù)期刊出版商的數(shù)百萬篇文章。（The Atlantic）

本文由人人都是產(chǎn)品經(jīng)理作者【AI新智能】，微信公眾號：【AI新智能】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App