圖片來(lái)源:《自然》網(wǎng)站
科技日?qǐng)?bào)記者 劉霞
生成式人工智能(AI)工具快速普及,在學(xué)術(shù)寫作領(lǐng)域呈現(xiàn)爆炸式應(yīng)用勢(shì)頭。使用基于大語(yǔ)言模型(LLM)的生成式AI工具能節(jié)省時(shí)間,減少語(yǔ)言障礙,讓論文更加明白通暢。但這些工具的應(yīng)用也讓剽竊問(wèn)題變得更復(fù)雜。
英國(guó)《自然》網(wǎng)站在近日的報(bào)道中指出,對(duì)利用AI寫作是否構(gòu)成剽竊,以及在什么情況下允許利用AI進(jìn)行寫作,科研界應(yīng)充分探討并制定更明確的學(xué)術(shù)寫作AI使用指南。
AI學(xué)術(shù)寫作應(yīng)用增多
德國(guó)蒂賓根大學(xué)數(shù)據(jù)科學(xué)家德米特里·科巴克領(lǐng)導(dǎo)的團(tuán)隊(duì),分析了學(xué)術(shù)數(shù)據(jù)庫(kù)PubMed中2010年至2024年6月期間發(fā)表的1400萬(wàn)篇論文摘要。他們估計(jì),2024年上半年,至少有10%的生物醫(yī)學(xué)論文摘要(約7.5萬(wàn)篇)使用了LLM進(jìn)行寫作,以LLM為基礎(chǔ)的寫作“助理”的出現(xiàn),對(duì)學(xué)術(shù)界產(chǎn)生了前所未有的影響。
同時(shí),有些人認(rèn)為,AI工具是學(xué)術(shù)寫作的“好幫手”。它們可使文本和概念更清晰,減少語(yǔ)言障礙,使科學(xué)家能騰出更多時(shí)間進(jìn)行實(shí)驗(yàn)和思考。
剽竊行為很難揪出
2015年的一項(xiàng)研究估計(jì),1.7%的科學(xué)家承認(rèn)有剽竊行為,30%的科學(xué)家認(rèn)識(shí)有剽竊行為的同事。
LLM經(jīng)過(guò)訓(xùn)練,可通過(guò)“消化”大量以前發(fā)表的文章來(lái)生成文本。因此,使用它們可能會(huì)導(dǎo)致類似剽竊的情況。例如,研究人員將AI生成的論文冒充自己撰寫的論文;或者機(jī)器生成的論文與某人的論文非常接近,但沒(méi)有注明來(lái)源等等。英國(guó)普利茅斯大學(xué)生態(tài)學(xué)家皮特·科頓指出,在AI時(shí)代,定義學(xué)術(shù)不誠(chéng)信或剽竊,以及合理使用AI的邊界,將變得非常困難。
如果LLM稍微修改一下措辭,那么其剽竊人類撰寫文本內(nèi)容的情況很容易被掩蓋。因?yàn)槿藗兛山o出提示,讓這些AI工具以復(fù)雜的方式(如以某個(gè)學(xué)術(shù)期刊的風(fēng)格)撰寫論文。在2023年對(duì)1600名研究人員開(kāi)展的一項(xiàng)調(diào)查中,68%的受訪者表示,AI將使剽竊更難被發(fā)現(xiàn)。
另外一個(gè)核心問(wèn)題是,使用完全由機(jī)器而非人類編寫的未署名內(nèi)容是否算剽竊。德國(guó)柏林應(yīng)用科學(xué)大學(xué)專家黛博拉·韋伯·沃爾夫表示,盡管有的生成式AI生成的文本看起來(lái)與人類書寫的內(nèi)容相差無(wú)幾,但不能被視為剽竊。
使用界限急需制定
美國(guó)馬里蘭大學(xué)可靠人工智能實(shí)驗(yàn)室主任索海爾·菲茲副教授認(rèn)為,使用LLM改寫現(xiàn)有論文的內(nèi)容顯然構(gòu)成抄襲。但使用LLM來(lái)幫助表達(dá)想法,無(wú)論是根據(jù)詳細(xì)的提示生成文本,還是編輯草稿,如果透明地完成,都不應(yīng)該受到懲罰。科學(xué)界應(yīng)該允許研究人員利用LLM,來(lái)輕松、清晰地表達(dá)他們的想法。
許多期刊現(xiàn)在都制定了相關(guān)政策,允許投稿者在一定程度上使用LLM?!犊茖W(xué)》雜志于2023年11月更新了其政策,稱作者應(yīng)該全部披露其在撰寫論文過(guò)程中的AI技術(shù)使用情況,包括使用了哪些AI系統(tǒng),提示詞有哪些等?!蹲匀弧冯s志也表示,作者應(yīng)該記錄LLM的使用情況。
一項(xiàng)對(duì)100家大型學(xué)術(shù)出版商和100家排名靠前的期刊開(kāi)展的分析發(fā)現(xiàn),截至2023年10月,24%的出版商和87%的期刊都制定了使用生成式AI的指導(dǎo)方針。幾乎所有這些期刊都聲明,AI工具不能被列為作者。
沃爾夫強(qiáng)調(diào),科學(xué)家迫切需要更明確的學(xué)術(shù)寫作AI使用指南。
檢測(cè)工具亟待提升
在一部分科學(xué)家利用LLM撰寫學(xué)術(shù)論文的同時(shí),也有另一部分科學(xué)家正在開(kāi)發(fā)旨在檢測(cè)LLM使用情況的工具。盡管一些工具的準(zhǔn)確率較高,在某些情況下超過(guò)90%,但研究表明,大多數(shù)工具“名不副實(shí)”。在去年12月發(fā)表的一項(xiàng)研究中,沃爾夫及其同事評(píng)估了學(xué)術(shù)界廣泛使用的14種AI檢測(cè)工具。結(jié)果顯示,只有5款工具的準(zhǔn)確率高于70%,沒(méi)有一款工具的得分超過(guò)80%。
當(dāng)研究團(tuán)隊(duì)通過(guò)替換同義詞及重排句子順序,對(duì)AI生成的文本進(jìn)行微調(diào)后,檢測(cè)工具的準(zhǔn)確率下降到平均不足50%。如果研究人員讓AI多次改寫由人類撰寫的文本,檢測(cè)工具的準(zhǔn)確率也會(huì)大大降低。
AI檢測(cè)工具還面臨其他問(wèn)題,比如非英語(yǔ)母語(yǔ)者用英語(yǔ)寫作,更有可能被誤認(rèn)為由AI生成。菲茲指出,AI檢測(cè)工具無(wú)法可靠地區(qū)分完全由AI編寫的文本和作者使用AI潤(rùn)色文本的情況。被錯(cuò)誤地指控濫用AI,可能會(huì)對(duì)這些學(xué)者或?qū)W生的聲譽(yù)造成相當(dāng)大的損害。