圖片來源:視覺中國
科技日?qǐng)?bào)記者?張佳欣
人工智能(AI)迅速發(fā)展離不開對(duì)模型的訓(xùn)練。然而,高質(zhì)量數(shù)據(jù)短缺以及部分領(lǐng)域封閉式的數(shù)據(jù)生態(tài)似乎成為AI發(fā)展的掣肘。
據(jù)多家外媒報(bào)道,OpenAI、谷歌和Meta等公司正尋求在線信息來訓(xùn)練最新的AI系統(tǒng)。但他們無視既定政策,蓄意改變規(guī)則,并試圖規(guī)避版權(quán)法。
收集數(shù)據(jù)“走捷徑”
英國《泰晤士報(bào)》近日刊文指出,科技巨頭一直在“走捷徑”為其AI系統(tǒng)收集訓(xùn)練數(shù)據(jù)。OpenAI開發(fā)了一款名為Whisper的語音識(shí)別工具,可將YouTube視頻中的音頻文件轉(zhuǎn)錄為純文本文檔,從而創(chuàng)建一個(gè)口語對(duì)話數(shù)據(jù)源,幫助訓(xùn)練其下一代基于文本的GPT-4算法。
美國《商業(yè)內(nèi)幕》網(wǎng)報(bào)道稱,YouTube在其官網(wǎng)明令禁止“獨(dú)立”于其之外的應(yīng)用程序使用其視頻內(nèi)容。而OpenAI的數(shù)據(jù)并非意外收集的。
實(shí)際上,OpenAI員工知道這樣做會(huì)涉足法律灰色地帶。OpenAI總裁格雷格·布羅克曼甚至親自參與了所使用視頻的收集。但OpenAI依然認(rèn)為這是合理的,最終獲得了超過100萬小時(shí)的轉(zhuǎn)錄視頻。
最大的謎團(tuán)在于,OpenAI如何訪問足夠多的YouTube視頻來完成這項(xiàng)工作。
當(dāng)OpenAI首席技術(shù)官米拉·穆拉蒂被問及該公司是否使用YouTube視頻來訓(xùn)練Sora時(shí),她表示并不確定。當(dāng)再次被問及訓(xùn)練數(shù)據(jù)的來源時(shí),她表示不會(huì)透露細(xì)節(jié)。
《紐約時(shí)報(bào)》稱,與OpenAI一樣,谷歌也轉(zhuǎn)錄了YouTube視頻,為其AI模型收集文本,這可能侵犯了視頻創(chuàng)作者的版權(quán)。去年,谷歌還更改了其服務(wù)條款。此番動(dòng)機(jī)意圖明顯,即允許AI對(duì)來自谷歌文檔中公開可用文檔的數(shù)據(jù)以及上傳到谷歌地圖的餐館評(píng)論等其他材料進(jìn)行訓(xùn)練。
AI面臨“數(shù)據(jù)瓶頸”
對(duì)于科技公司來說,龐大的數(shù)據(jù)“肥料”是生成式AI的核心養(yǎng)分,也是大模型發(fā)展的必爭(zhēng)之地。唯有足夠的數(shù)據(jù)才能指導(dǎo)技術(shù)即時(shí)生成與人類創(chuàng)作相似的文本、圖像、聲音和視頻,實(shí)現(xiàn)系統(tǒng)創(chuàng)新。
但隨著AI發(fā)展,現(xiàn)有互聯(lián)網(wǎng)信息量的不足、高質(zhì)量文本數(shù)據(jù)的匱乏以及科技巨頭優(yōu)質(zhì)數(shù)據(jù)的壟斷,都可能導(dǎo)致AI“養(yǎng)分不足”。即便谷歌和Meta擁有數(shù)十億用戶,每天都會(huì)產(chǎn)生搜索查詢和社交媒體帖子,但這些數(shù)據(jù)在很大程度上受到隱私法和自身政策的限制,無法讓AI利用這些內(nèi)容。
這些科技公司的處境似乎十分窘迫。據(jù)人工智能研究機(jī)構(gòu)Epoch稱,科技公司最快將于2026年耗盡互聯(lián)網(wǎng)上的高質(zhì)量數(shù)據(jù)。這些公司使用數(shù)據(jù)的速度超過了產(chǎn)生數(shù)據(jù)的速度。
Meta同樣也遇到了訓(xùn)練數(shù)據(jù)可用性限制。該公司打算采取一些措施,例如支付圖書許可費(fèi)用,甚至直接收購一家大型出版商。Meta也曾作出以隱私為中心的變革,因此它使用消費(fèi)者數(shù)據(jù)的方式顯然也受到了限制。
在人類數(shù)據(jù)告急的情況下,不少公司甚至試圖用AI“喂”AI。包括微軟、OpenAI在內(nèi)的公司正在把大模型生成的結(jié)果,也就是所謂的“合成數(shù)據(jù)”,“喂”給參數(shù)更小的模型。但有研究認(rèn)為,合成數(shù)據(jù)最終將讓AI“自食其果”。
因版權(quán)被多方狀告
《紐約時(shí)報(bào)》去年起訴OpenAI和微軟,稱其在未經(jīng)許可的情況下使用受版權(quán)保護(hù)的新聞文章來訓(xùn)練AI聊天機(jī)器人。OpenAI和微軟回應(yīng)稱,這屬于“合理使用”,或者說是版權(quán)法允許的,因?yàn)樗麄優(yōu)榱瞬煌哪康亩脑炝诉@些作品。
去年,超過1萬個(gè)貿(mào)易團(tuán)體、作者、公司和其他人士向美國版權(quán)局提交了有關(guān)AI模型使用創(chuàng)意作品的意見。
生成式AI的迅速興起引發(fā)了一場(chǎng)全球性的高質(zhì)量數(shù)據(jù)競(jìng)賽。然而,在這個(gè)新領(lǐng)域中,關(guān)于什么是合法的、道德的,沒有明確規(guī)定。
《商業(yè)內(nèi)幕》網(wǎng)稱,目前,谷歌、OpenAI和其他科技公司正在辯解,認(rèn)為將受版權(quán)保護(hù)的內(nèi)容用于AI模型訓(xùn)練是合法的,但監(jiān)管機(jī)構(gòu)及法院尚未對(duì)此作出裁決。
美國電影制作人、前演員及作家賈斯汀·貝特曼告訴版權(quán)局,AI模型在未經(jīng)許可或付費(fèi)的情況下獲取了其作品內(nèi)容。她稱,“這是美國最大的盜竊案?!?/p>