博客專欄

EEPW首頁 > 博客 > 一位論文作者火了,ChatGPT等大型語言模型何時能成為論文合著者?

一位論文作者火了,ChatGPT等大型語言模型何時能成為論文合著者?

發(fā)布人:機器之心 時間:2023-01-19 來源:工程師 發(fā)布文章

有沒有一種可能,ChatGPT 在學(xué)術(shù)論文中署名是理所應(yīng)當(dāng)?shù)模?/p>

ChatGPT 自發(fā)布以來一直受到關(guān)注,被認(rèn)為是當(dāng)前最強大的語言模型之一。它的文本生成能力已經(jīng)不輸人類,甚至有機器學(xué)習(xí)頂會為此明令禁止研究者使用 ChatGPT 編寫論文。


但是近期有一篇論文居然在作者一欄明確署名 ChatGPT,這是怎么回事?


這篇論文是發(fā)表在醫(yī)學(xué)研究論文平臺 medRxiv 上的《Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models》,ChatGPT 是論文的第三作者。


圖片


論文地址:https://www.medrxiv.org/content/10.1101/2022.12.19.22283643v2


從論文題目就能看出,這篇論文的主要內(nèi)容是研究 ChatGPT 在美國醫(yī)師執(zhí)照考試 (USMLE) 中的表現(xiàn)。實驗結(jié)果表明,在沒有經(jīng)過任何專門的訓(xùn)練或強化的情況下,ChatGPT 在所有考試中的成績均達(dá)到或者接近通過門檻。并且,ChatGPT 生成的答案表現(xiàn)出高度的一致性和洞察力。該研究認(rèn)為大型語言模型可能有助于醫(yī)學(xué)教育,并可能有助于臨床決策。


從研究的內(nèi)容看,ChatGPT 似乎更像是一個研究對象,就像推特網(wǎng)友說的:「如果人類研究者為實驗結(jié)果做出貢獻,那他們當(dāng)然是論文合著者,但是模型和算法還沒有這種先例?!?/span>


圖片


不過,評論區(qū)馬上就有另一位網(wǎng)友反駁他:之前一篇名為《Rapamycin in the context of Pascal's Wager: generative pre-trained transformer perspective》的論文不僅署名了,ChatGPT 甚至還是第一作者。


圖片


這篇論文收錄在美國國立衛(wèi)生研究院(NIH)的 Oncoscience 中。不過,從論文作者貢獻中,我們發(fā)現(xiàn),這篇論文的大部分內(nèi)容確實是由 ChatGPT 生成的 —— 論文第二作者 Alex Zhavoronkov 詢問 ChatGPT 與研究主題有關(guān)的問題,ChatGPT 自動生成大量觀點及解釋,然后由 Alex Zhavoronkov 來審核 ChatGPT 生成的內(nèi)容。此外,ChatGPT 還協(xié)助修改論文格式。


圖片

《Rapamycin in the context of Pascal's Wager: generative pre-trained transformer perspective》論文內(nèi)容截圖。


在決定論文署名時,Alex Zhavoronkov 聯(lián)系 OpenAI 聯(lián)合創(chuàng)始人兼 CEO Sam Altman 進行了確認(rèn),最終以 ChatGPT 作為第一作者來發(fā)表這篇論文。這說明大型語言模型等強大的 AI 系統(tǒng)未來將對學(xué)術(shù)工作做出有意義的貢獻,甚至有能力成為論文合著者。


然而,讓大型語言模型編寫學(xué)術(shù)論文也存在一些弊端,比如機器學(xué)習(xí)頂會 ICML 表示:「ChatGPT 接受公共數(shù)據(jù)的訓(xùn)練,這些數(shù)據(jù)通常是在未經(jīng)同意的情況下收集的,這會帶來一系列的責(zé)任歸屬問題?!?/span>


近期在西北大學(xué) Catherine Gao 等人的一項研究中,研究者選取一些發(fā)表在美國醫(yī)學(xué)會雜志(JAMA)、新英格蘭醫(yī)學(xué)雜志(NEJM)、英國醫(yī)學(xué)期刊(BMJ)、《柳葉刀》和《Nature Medicine》上的人工研究論文,使用 ChatGPT 為論文生成摘要,然后測試審稿人是否可以發(fā)現(xiàn)這些摘要是 AI 生成的。


實驗結(jié)果表明,審稿人僅正確識別了 68% 的生成摘要和 86% 的原始摘要。他們錯誤地將 32% 的生成摘要識別為原始摘要,將 14% 的原始摘要識別為 AI 生成的。審稿人表示:「要區(qū)分兩者出奇地困難,生成的摘要比較模糊,給人一種公式化的感覺?!?/span>


這一實驗結(jié)果說明人類研究員已經(jīng)難以分辨文本是 AI 生成還是人類撰寫的,這并不是一個好現(xiàn)象,AI 似乎「蒙騙過關(guān)」了。


然而,到目前為止,語言模型生成的內(nèi)容還不能完全保證其正確性,甚至在一些專業(yè)領(lǐng)域的錯誤率是很高的。如果無法區(qū)分人工編寫內(nèi)容和 AI 模型生成內(nèi)容,那么人類將面臨被 AI 誤導(dǎo)的嚴(yán)重問題。


參考鏈接:

https://twitter.com/rasbt/status/1613652370113855488

https://pubmed.ncbi.nlm.nih.gov/36589923/

https://www.biorxiv.org/content/10.1101/2022.12.23.521610v1

https://www.nature.com/articles/d41586-023-00056-7


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉