法院正在探討并決定生成式人工智能是否侵犯版權(quán)。本文中,讓我們來(lái)談?wù)勥@到底意味著什么。
美國(guó)的版權(quán)法是一件復(fù)雜的事情。我們這些不是律師的人很難弄清楚它的真正含義,以及它能保護(hù)什么和不能保護(hù)什么,這是可以理解的。數(shù)據(jù)科學(xué)家不會(huì)花很多時(shí)間考慮版權(quán)問(wèn)題,除非我們?yōu)殚_(kāi)源項(xiàng)目選擇許可證。即便如此,有時(shí)我們只是跳過(guò)這一點(diǎn),并沒(méi)有真正處理它,盡管我們知道我們應(yīng)該這樣做。
但法律界開(kāi)始密切關(guān)注生成式人工智能領(lǐng)域?qū)τ诎鏅?quán)的影響,這可能會(huì)對(duì)我們的工作產(chǎn)生真正的影響。在我們具體討論版權(quán)如何影響生成式人工智能領(lǐng)域之前,讓我們首先來(lái)回顧一下版權(quán)相關(guān)的事實(shí)問(wèn)題。
版權(quán)
美國(guó)版權(quán)法與所謂的“原創(chuàng)作品”有關(guān)。這些作品包括這樣一些相關(guān)內(nèi)容:文學(xué);音樂(lè)的戲劇性的啞劇和舞蹈作品;繪畫(huà)、圖形和雕塑作品;音像作品;錄音;衍生作品;編著;建筑工程。
內(nèi)容必須是書(shū)面的或文檔化的,才能具有版權(quán)。“想法是不可版權(quán)保護(hù)的,只有有形的表達(dá)形式(如書(shū)籍、戲劇、繪畫(huà)、電影或照片等)才可實(shí)行版權(quán)保護(hù)。一旦你以固定的形式表達(dá)你的想法——比如數(shù)字繪畫(huà)、錄制的歌曲,甚至在餐巾紙上涂鴉——如果它是原創(chuàng)作品,它就會(huì)自動(dòng)受到版權(quán)保護(hù)。”——電子前沿基金會(huì)。
受到保護(hù)意味著,只有版權(quán)持有人(作者或創(chuàng)作者、繼承權(quán)利的后代或權(quán)利的購(gòu)買(mǎi)者)才能做這些事情,例如制作和銷(xiāo)售作品的副本,從原作中創(chuàng)作衍生作品,以及公開(kāi)表演或展示作品等。
版權(quán)并不是永恒的,它會(huì)在一定時(shí)間后結(jié)束。通常,這是作者去世后70年或內(nèi)容發(fā)布后95年。(1929年之前的任何東西在美國(guó)通常都屬于“公共領(lǐng)域”,這意味著它不再受版權(quán)保護(hù)。)
為什么存在版權(quán)呢?最新的法律解釋認(rèn)為,重點(diǎn)不僅僅是讓創(chuàng)作者致富,而是鼓勵(lì)創(chuàng)作,讓我們擁有一個(gè)包含藝術(shù)和文化創(chuàng)造力的社會(huì)。基本上,我們與創(chuàng)作者交換金錢(qián),這樣他們就有動(dòng)力為我們創(chuàng)造偉大的作品。這意味著,許多法院在審理版權(quán)案件時(shí)會(huì)問(wèn),“這種復(fù)制品是否有助于一個(gè)創(chuàng)造性的、藝術(shù)性的和富有創(chuàng)新的社會(huì)?”在做出判決時(shí)也會(huì)考慮到這一點(diǎn)。
合理使用
此外,“合理使用”并不是無(wú)視版權(quán)的免費(fèi)通行證。有四項(xiàng)測(cè)試可以決定內(nèi)容的使用是否為“合理使用”:
第二次使用的目的和特征:你是在做一些創(chuàng)新和不同的內(nèi)容,還是只在復(fù)制原作?你的新作本身有創(chuàng)新性嗎?如果是這樣,它更有可能是合理使用。此外,如果你的用途是為了賺錢(qián),那就不太可能是合理使用。
原創(chuàng)的本質(zhì):如果原創(chuàng)是有創(chuàng)意的,那么很難在合理使用的情況下侵犯版權(quán)。如果只是事實(shí),那么你更有可能合理使用(這方面的例子包括:引用研究文章或百科全書(shū)等)。
使用量:你在復(fù)制整個(gè)內(nèi)容嗎?或者只是復(fù)制一段或一小段?盡可能少地使用對(duì)于合理使用來(lái)說(shuō)是很重要的,盡管有時(shí)你可能需要在衍生作品中大量使用。
效果:你是在從原作中竊取客戶(hù)信息嗎?人們會(huì)購(gòu)買(mǎi)或使用你的副本而不是購(gòu)買(mǎi)原件嗎?創(chuàng)作者會(huì)因?yàn)槟愕膹?fù)制而賠錢(qián)或失去市場(chǎng)份額嗎?如果是這樣的話(huà),這很可能就是不合理的使用。(即使你沒(méi)有賺到錢(qián),也是不合理的使用。)
你必須滿(mǎn)足所有上述這些測(cè)試才能得到公平使用,而不僅僅是一兩項(xiàng)測(cè)試。當(dāng)然,所有這些都要接受法律解釋。(顯然,本篇文章不是法律建議相關(guān)的!)但現(xiàn)在,有了這些事實(shí),讓我們想想生成式人工智能的作用,以及為什么上面的概念會(huì)沖擊生成式人工智能。
生成式人工智能綜述
對(duì)我寫(xiě)的專(zhuān)欄非常熟悉的讀者會(huì)非常清楚地了解生成式人工智能是如何訓(xùn)練的。盡管如此,還是先讓我們來(lái)快速回顧一下有關(guān)內(nèi)容。
大量的數(shù)據(jù)被收集起來(lái),模型通過(guò)分析數(shù)據(jù)中存在的模式來(lái)學(xué)習(xí)。(正如我之前所寫(xiě)的:“一些報(bào)告表明,GPT-4的訓(xùn)練數(shù)據(jù)中有大約1萬(wàn)億個(gè)單詞。這些單詞中的每一個(gè)都是一個(gè)人出于自己的創(chuàng)作能力而寫(xiě)的。就上下文而言,《權(quán)力的游戲》系列的第1本書(shū)約為292727個(gè)單詞。因此,GPT-4的訓(xùn)練數(shù)據(jù)約為該書(shū)的3416152個(gè)拷貝。”)
當(dāng)模型學(xué)習(xí)了數(shù)據(jù)中的模式時(shí)(對(duì)于LLM,它學(xué)習(xí)了所有關(guān)于語(yǔ)言語(yǔ)義、語(yǔ)法、詞匯和習(xí)語(yǔ)的知識(shí)),它將被人類(lèi)微調(diào),以便在人們與它交互時(shí)表現(xiàn)出所需的行為。數(shù)據(jù)中的這些模式可能非常具體,以至于一些學(xué)者認(rèn)為模型可以“記住”訓(xùn)練數(shù)據(jù)。
然后,該模型就能夠回答用戶(hù)的提示,反映出它所學(xué)習(xí)的模式(對(duì)于LLM,用聽(tīng)起來(lái)很有說(shuō)服力的人類(lèi)語(yǔ)言回答問(wèn)題)。
這些模型的輸入(訓(xùn)練數(shù)據(jù))和輸出對(duì)版權(quán)法都有重要影響;所以,接下來(lái)讓我們作進(jìn)一步的分析。
訓(xùn)練數(shù)據(jù)和模型輸出
訓(xùn)練數(shù)據(jù)對(duì)于創(chuàng)建生成性人工智能模型至關(guān)重要。其目的是教一個(gè)模型復(fù)制人類(lèi)的創(chuàng)造力,因此該模型需要看到大量人類(lèi)創(chuàng)造力的作品,才能了解其外觀/聲音。但是,正如我們之前所了解到的,人類(lèi)創(chuàng)作的作品屬于創(chuàng)作作品的這些人(即使它們被記在餐巾紙上)。對(duì)于我們訓(xùn)練哪怕是一個(gè)小的生成式人工智能模型所需的數(shù)據(jù)量,向每一位創(chuàng)作者支付他們作品的版權(quán)從財(cái)務(wù)角度上看都是不可行的。那么,我們將他人的工作輸入訓(xùn)練數(shù)據(jù)集并創(chuàng)建生成式人工智能模型是否合理呢?現(xiàn)在,不妨讓我們?cè)購(gòu)?fù)習(xí)一下公平使用的測(cè)試,來(lái)看看我們?cè)谀睦锬苷业搅⒆泓c(diǎn)。
1.第二次使用的目的和特點(diǎn)
我們可以爭(zhēng)辯說(shuō),使用數(shù)據(jù)來(lái)訓(xùn)練模型并不能真正算作創(chuàng)造衍生作品。例如,這與教孩子用書(shū)或音樂(lè)不同嗎?相反的論點(diǎn)是,首先,教一個(gè)孩子并不等同于使用數(shù)百萬(wàn)本書(shū)來(lái)生成一個(gè)產(chǎn)品牟利;其次,生成性人工智能能夠敏銳地復(fù)制它所訓(xùn)練的內(nèi)容,因此它基本上是一個(gè)幾乎逐字逐句復(fù)制作品的大工具。生成式人工智能的結(jié)果有時(shí)是創(chuàng)新的,與輸入完全不同嗎?如果是的話(huà),那可能是因?yàn)榉浅S袆?chuàng)意的提示工程,但這是否意味著底層工具是合法的呢?
然而,從哲學(xué)上講,機(jī)器學(xué)習(xí)正試圖盡可能準(zhǔn)確地再現(xiàn)它從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的模式。它從原作中學(xué)習(xí)到的模式是否與原作的“核心”相同呢?
2.原作的性質(zhì)
這一方面在現(xiàn)有的不同類(lèi)型的生成式人工智能中差異很大,但由于訓(xùn)練任何模型都需要大量的數(shù)據(jù),因此似乎至少有一部分符合創(chuàng)造力的法律標(biāo)準(zhǔn)。在許多情況下,使用人工內(nèi)容作為訓(xùn)練數(shù)據(jù)的全部原因是試圖將創(chuàng)新(高度多樣化)的輸入輸入到模型中。除非有人要仔細(xì)閱讀GPT-4的全部1萬(wàn)億個(gè)單詞,并決定哪些單詞有創(chuàng)意或沒(méi)有創(chuàng)意;否則,我認(rèn)為這一標(biāo)準(zhǔn)不屬于合理使用。
3.使用金額
這是一個(gè)類(lèi)似于#2的問(wèn)題。因?yàn)?,幾乎從定義上講,生成式人工智能訓(xùn)練數(shù)據(jù)集使用了他們所能掌握的一切,而且數(shù)量需要龐大而全面;實(shí)際上并不存在“最低限度的必需的”內(nèi)容數(shù)量。
4.效果
最后,效果問(wèn)題是生成式人工智能的一大癥結(jié)。我想,我們都知道有人會(huì)不時(shí)使用ChatGPT或類(lèi)似工具,而不是在百科全書(shū)或報(bào)紙上搜索問(wèn)題的答案。有強(qiáng)有力的證據(jù)表明,盡管這些服務(wù)機(jī)構(gòu)做出了一些明顯的努力來(lái)阻止這種情況,但人們使用Dall-E等服務(wù)來(lái)請(qǐng)求“以[此處藝術(shù)家姓名]的風(fēng)格”的視覺(jué)作品。如果問(wèn)題是人們是否會(huì)使用生成式人工智能,而不是支付原始創(chuàng)作者的費(fèi)用,那么在某些領(lǐng)域似乎肯定會(huì)發(fā)生這種情況。我們可以看到,像微軟、谷歌、Meta和OpenAI這樣的公司正在從生成式人工智能中獲得數(shù)十億的估值和收入,所以他們肯定不會(huì)輕易通過(guò)這一點(diǎn)。
復(fù)制作為計(jì)算中的一個(gè)概念
我想稍停一下來(lái)談?wù)勔粋€(gè)有一定相關(guān)性但是很重要的問(wèn)題。版權(quán)法并不能很好地處理一般的計(jì)算,特別是軟件和數(shù)字制品。版權(quán)法主要是在早期世界制定的,在那個(gè)時(shí)代復(fù)制黑膠唱片或重新出版一本書(shū)是一項(xiàng)專(zhuān)業(yè)且昂貴的任務(wù)。但今天,當(dāng)任何計(jì)算機(jī)上的任何東西基本上只需點(diǎn)擊鼠標(biāo)就可以在幾秒鐘內(nèi)復(fù)制時(shí),復(fù)制東西的整個(gè)想法與過(guò)去不同了。
此外,請(qǐng)記住,安裝任何軟件都算作復(fù)制。數(shù)字拷貝在我們的文化中意味著與計(jì)算機(jī)之前的拷貝不同。關(guān)于版權(quán)在數(shù)字時(shí)代應(yīng)該如何運(yùn)作,人們有很多疑問(wèn),因?yàn)槠渲泻芏嗨坪醪辉倌敲粗匾?。你有沒(méi)有從GitHub或StackOverflow復(fù)制過(guò)一些代碼?我當(dāng)然有!您是否仔細(xì)審查了內(nèi)容許可證,以確保其可用于您的場(chǎng)景中?你應(yīng)該這樣做,但你做了嗎?
《紐約時(shí)報(bào)》控訴OpenAI的案子
通過(guò)上面介紹,我們已經(jīng)對(duì)人工智能版權(quán)困境形式有了大致的了解;那么,創(chuàng)作者和法律是如何處理這些問(wèn)題的呢?我認(rèn)為最有趣的此類(lèi)案件(有很多)是《紐約時(shí)報(bào)》提出的案件,因?yàn)槠渲幸徊糠终蒙婕皬?fù)制的含義,而其他案件可能沒(méi)有做到這一點(diǎn)。
正如我上面提到的,復(fù)制數(shù)字文件的行為是如此普遍和正常,以至于很難想象強(qiáng)制復(fù)制數(shù)字文件(至少,在沒(méi)有違反其他合理使用測(cè)試向全球公眾分發(fā)確切文件的意圖的情況下)是侵犯版權(quán)。我認(rèn)為這就是我們需要關(guān)注生成式人工智能問(wèn)題的地方?—?不僅僅是復(fù)制,還有對(duì)文化和市場(chǎng)的影響。
生成式人工智能真的在復(fù)制內(nèi)容嗎?例如訓(xùn)練數(shù)據(jù)輸入,訓(xùn)練數(shù)據(jù)輸出?《紐約時(shí)報(bào)》在其文件中顯示,你可以從ChatGPT中獲得《紐約時(shí)報(bào)》文章的逐字文本,并有非常具體的提示。因?yàn)椤都~約時(shí)報(bào)》有付費(fèi)墻(譯者注:一種阻止非付費(fèi)用戶(hù)瀏覽網(wǎng)頁(yè)內(nèi)容的屏蔽系統(tǒng)),所以如果這種情況是真實(shí)的,那么這似乎明顯違反了公平使用的效果測(cè)試。到目前為止,OpenAI的回應(yīng)是“是的,因?yàn)槟銓?duì)ChatGPT使用了許多復(fù)雜的提示,就可以獲得這樣的逐字逐句的結(jié)果”。這讓我感到詫異:他們的論點(diǎn)就是生成式人工智能有時(shí)會(huì)生成其訓(xùn)練內(nèi)容的逐字副本。但是,這就不違法嗎?(環(huán)球音樂(lè)集團(tuán)(Universal Music Group)也提起過(guò)與音樂(lè)相關(guān)的類(lèi)似案件,認(rèn)為生成式人工智能模型Claude可以幾乎逐字逐句地復(fù)制受版權(quán)保護(hù)的歌曲的歌詞。)
我們要求法院決定受版權(quán)保護(hù)的材料的確切使用量和使用方式,在這種情況下,這將是一個(gè)挑戰(zhàn)!?我傾向于認(rèn)為,使用數(shù)據(jù)進(jìn)行訓(xùn)練不應(yīng)該是固有的問(wèn)題,但重要的問(wèn)題是如何使用模型以及它會(huì)產(chǎn)生什么影響。
我們傾向于將合理使用視為一個(gè)步驟,就像引用你文章中的一段話(huà)。我們的系統(tǒng)有一套法律思想,為這種情況做好了充分準(zhǔn)備。但在生成式人工智能中,這更像是兩個(gè)步驟。要說(shuō)版權(quán)受到侵犯,在我看來(lái),如果內(nèi)容被用于訓(xùn)練,那么,這些內(nèi)容也必須應(yīng)該以篡奪原始材料市場(chǎng)的方式從最終模型中檢索出來(lái)。我認(rèn)為人工智能系統(tǒng)還不能夠?qū)⑹褂玫妮斎雰?nèi)容的數(shù)量與可以逐字提取作為輸出的數(shù)量區(qū)分開(kāi)來(lái)。然而,ChatGPT真的是這樣嗎?我們很想看看法院對(duì)這些問(wèn)題是怎么想的。
DMCA
上述這些問(wèn)題還有另一個(gè)有趣的角度,那就是DMCA(數(shù)字千年版權(quán)法)是否與此相關(guān)。你可能熟悉這項(xiàng)法律,因?yàn)閹资陙?lái),它一直被用來(lái)迫使社交媒體平臺(tái)刪除未經(jīng)版權(quán)持有人授權(quán)發(fā)布的音樂(lè)和電影文件。這項(xiàng)法律是基于這樣一種想法,即你可以對(duì)侵犯版權(quán)的人進(jìn)行“打擊”,一次刪除一條內(nèi)容。然而,當(dāng)涉及到訓(xùn)練數(shù)據(jù)集時(shí),這顯然是行不通的——你需要重新訓(xùn)練整個(gè)模型,在大多數(shù)生成式人工智能的情況下,這需要付出高昂的代價(jià),從訓(xùn)練數(shù)據(jù)中刪除一個(gè)或多個(gè)有問(wèn)題的文件。理論上,你仍然可以使用DMCA來(lái)強(qiáng)制從網(wǎng)站上刪除有問(wèn)題的模型的輸出,但證明是哪個(gè)模型產(chǎn)生了這個(gè)項(xiàng)目將是一個(gè)挑戰(zhàn)。但是,另一方面這并沒(méi)有像我所描述的那樣,將輸入+輸出視為侵權(quán)的關(guān)鍵。
權(quán)力問(wèn)題
如果上述這些行為實(shí)際上侵犯了版權(quán),法院仍然必須決定該怎么辦。從某種意義上說(shuō),很多人認(rèn)為生成式人工智能“太大了,不能失敗”——他們不能廢除讓我們走到這一步的做法,因?yàn)槊總€(gè)人都喜歡ChatGPT,對(duì)吧?生成式人工智能(我們被告知)將徹底改變幾乎所有行業(yè)!
雖然版權(quán)是否受到侵犯的問(wèn)題仍有待決定,但我確實(shí)覺(jué)得如果受到侵犯,應(yīng)該會(huì)有后果。假設(shè)請(qǐng)求原諒比許可更容易,我們?cè)谑裁磿r(shí)候才能停止原諒那些繞過(guò)法律或公然違反法律的有權(quán)勢(shì)的人和機(jī)構(gòu)呢?這并不完全顯而易見(jiàn)。如果沒(méi)有一些人以這種方式行事,我們今天就不會(huì)有很多創(chuàng)新,但這并不一定意味著這是值得的。另一方面,讓這些情況過(guò)去會(huì)導(dǎo)致法治貶值嗎?
像現(xiàn)在網(wǎng)站99percentinvisible的許多聽(tīng)眾一樣,我正在讀羅伯特·卡羅的《權(quán)力經(jīng)紀(jì)人。聽(tīng)到羅伯特·摩西(Robert Moses)在20世紀(jì)之交如何處理紐約的法律問(wèn)題令人著迷,因?yàn)樗幚矸謪^(qū)法的風(fēng)格似乎讓人想起了2010年初舊金山優(yōu)步(Uber)處理快遞司機(jī)相關(guān)法律的方式,以及構(gòu)建生成式人工智能的大公司現(xiàn)在處理版權(quán)的方式。他們沒(méi)有遵守法律,而是采取了法律限制不適用于他們的態(tài)度,因?yàn)樗麄冋诮ㄔ斓囊?guī)則是如此重要和有價(jià)值。
然而,我只是不相信這是真的。當(dāng)然,每種情況在某些方面都是不同的,但一個(gè)有權(quán)勢(shì)的人可以決定他認(rèn)為什么是好主意,這一概念不可避免地比其他人認(rèn)為的更重要,這讓我感到困惑。生成式人工智能可能有用,但認(rèn)為它比擁有一個(gè)文化上充滿(mǎn)活力和創(chuàng)造力的社會(huì)更重要似乎是虛偽的。法院仍需決定生成性人工智能是否對(duì)藝術(shù)家和創(chuàng)作者產(chǎn)生了寒蟬效應(yīng)。但是,這些創(chuàng)作者提起的法庭案件認(rèn)為確實(shí)如此。
未來(lái)
美國(guó)版權(quán)局并沒(méi)有忽視這些具有挑戰(zhàn)性的問(wèn)題,盡管他們可能對(duì)這些問(wèn)題反應(yīng)稍遲一些。最近,他們發(fā)布了一篇博客文章,談?wù)撍麄儗?duì)生成式人工智能相關(guān)內(nèi)容的計(jì)劃。然而,這篇文章非常缺乏具體的內(nèi)容,只是告訴我們未來(lái)會(huì)有相關(guān)報(bào)告。該部門(mén)的工作重點(diǎn)有三個(gè)方面:
“數(shù)字復(fù)制品”:大致是對(duì)人進(jìn)行Deepfakes和數(shù)字孿生處理(想想特技替身和演員在工作中必須接受掃描才能被數(shù)字模仿)
“包含人工智能生成材料的作品的版權(quán)”
“在受版權(quán)保護(hù)的作品上訓(xùn)練人工智能模型”
這些都是重要的話(huà)題,我希望結(jié)果會(huì)是經(jīng)過(guò)深思熟慮的。(一旦這些報(bào)告出來(lái),我會(huì)寫(xiě)下這些報(bào)告。)我希望從事這項(xiàng)工作的政策制定者了解情況,技術(shù)嫻熟,因?yàn)楣倭胖髁x者很容易用不明智的新規(guī)則使整個(gè)情況變得更糟。
未來(lái)的另一種可能性是,將開(kāi)發(fā)和訓(xùn)練合乎職業(yè)道德標(biāo)準(zhǔn)的數(shù)據(jù)集。這是HuggingFace的一些人已經(jīng)以名為the Stack的代碼數(shù)據(jù)集的形式完成的。我們能為其他形式的內(nèi)容做這樣的事情嗎?
結(jié)論
不管政府或行業(yè)提出了什么,法院都正在著手解決上述問(wèn)題。如果法庭上的一個(gè)案件中生成式人工智能方敗訴,會(huì)發(fā)生什么呢?
這可能至少意味著,生成式人工智能產(chǎn)生的部分資金將返還給創(chuàng)作者。我不太相信生成式人工智能的整個(gè)想法會(huì)消失,盡管我們確實(shí)看到了Napster音頻共享時(shí)代許多公司的終結(jié)。法院可能會(huì)讓生產(chǎn)生成性人工智能的公司破產(chǎn),或者禁止生產(chǎn)生成性的人工智能模型——這并非不可能!然而,我不認(rèn)為這是最有可能的結(jié)果——相反,我認(rèn)為我們會(huì)看到一些懲罰和圍繞這一點(diǎn)的法律碎片化(這種模式可以,那種模式不可以,等等),這可能會(huì)也可能不會(huì)使情況在法律上變得更清楚。
我真的很希望法院能處理生成式人工智能模型何時(shí)以及如何被視為侵權(quán)的問(wèn)題,不將輸入和輸出問(wèn)題分開(kāi),而是將它們作為一個(gè)整體進(jìn)行審查,因?yàn)槲艺J(rèn)為這是理解情況的關(guān)鍵。
如果他們這樣做了,我們也許能夠?yàn)槲覀冋谔幚淼男录夹g(shù)提出有意義的法律框架。如果不這樣做,我擔(dān)心我們最終會(huì)進(jìn)一步陷入法律的泥潭,而法律對(duì)指導(dǎo)我們的數(shù)字創(chuàng)新毫無(wú)準(zhǔn)備。我們需要在我們的數(shù)字世界中更有意義的版權(quán)法。但是,我們也需要智能地保護(hù)各種形式的人類(lèi)藝術(shù)、科學(xué)和創(chuàng)造力,我認(rèn)為人工智能生成的內(nèi)容不值得用它來(lái)交換。