新聞中心

EEPW首頁(yè) > 編輯觀點(diǎn) > 大語(yǔ)言模型通過(guò)圖靈測(cè)試:GPT4.5比人還像人

大語(yǔ)言模型通過(guò)圖靈測(cè)試:GPT4.5比人還像人

—— 大語(yǔ)言模型通過(guò)圖靈測(cè)試
作者:陳玲麗 時(shí)間:2025-04-17 來(lái)源:電子產(chǎn)品世界 收藏

美國(guó)加州大學(xué)圣地亞哥分校(UCSD)發(fā)布了一項(xiàng)研究成果,宣稱首次提供了“人工智能系統(tǒng)能夠通過(guò)標(biāo)準(zhǔn)三方的實(shí)證證據(jù)”,證明大語(yǔ)言模型()通過(guò)了。其中,-4.5被判斷為人類的比例高達(dá)73%,顯著高于真實(shí)人類參與者被選中的比例。

本文引用地址:http://www.2s4d.com/article/202504/469498.htm

640.jpeg

由英國(guó)數(shù)學(xué)家和計(jì)算機(jī)科學(xué)家Alan Turing于1950年提出,他稱之為“模仿游戲”。圖靈設(shè)想,如果一名提問(wèn)者在通過(guò)文本交流時(shí)無(wú)法區(qū)分對(duì)方是機(jī)器還是人類,那么這個(gè)機(jī)器可能具備類似人類的智能。在三方圖靈測(cè)試中,提問(wèn)者需與一名人類和一臺(tái)機(jī)器進(jìn)行對(duì)話,并準(zhǔn)確辨識(shí)出人類身份。

4.5比人還像人

該研究測(cè)試了三款人工智能模型:-4o、 3.1 405B和GPT-4.5。實(shí)驗(yàn)中,人類參與者通過(guò)分屏界面與一名人類和一個(gè)對(duì)話系統(tǒng)進(jìn)行五分鐘的測(cè)試對(duì)話。每輪結(jié)束后,提問(wèn)者需判斷哪一方是人類。研究人員在兩種條件下評(píng)估了這些模型的表現(xiàn):

· NO-PERSONA:基礎(chǔ)指令模式,默認(rèn)簡(jiǎn)短指令,如“假裝你是人類”;

· PERSONA:要求模型扮演特定角色,附帶詳細(xì)設(shè)定,例如“內(nèi)向、熟悉互聯(lián)網(wǎng)文化、使用俚語(yǔ)的年輕人”。

640.png

640-2.jpeg

左:勝率表現(xiàn);右:判斷置信度分布

結(jié)果顯示,在PERSONA模式下,GPT-4.5的勝率為73%,表明提問(wèn)者常常將其誤認(rèn)為是人類,這一比例顯著高于人類對(duì)話者被評(píng)估者識(shí)別成人類的概率(63%);-3.1被評(píng)估者識(shí)別成人類的概率為56%,與人類對(duì)話者沒(méi)有顯著差異。換句話說(shuō),-3.1可以裝得非常像人,而GPT4.5可以裝得比人還像人。

作為對(duì)比,2023年,UCSD的研究人員公開(kāi)進(jìn)行了一次圖靈測(cè)試,在律師資格考試中獲得高分的GPT-4表現(xiàn)相當(dāng)出色,在41%的游戲中,評(píng)委認(rèn)為它與人類無(wú)異。而它的前身GPT-3.5只通過(guò)了14%的游戲。

在對(duì)話中,提問(wèn)者主要進(jìn)行日常閑聊,61% 的互動(dòng)涉及詢問(wèn)日常生活和個(gè)人細(xì)節(jié),50% 的互動(dòng)則深入探討社會(huì)和情感層面,如觀點(diǎn)、情感、幽默感和個(gè)人經(jīng)歷,19%還直接詢問(wèn)對(duì)話人是否為人類。

測(cè)試人員更傾向于引用語(yǔ)言風(fēng)格、對(duì)話流暢性以及個(gè)性之類的社會(huì)情感因素,而不是傳統(tǒng)上與智力相關(guān)的因素,如知識(shí)和推理能力。最準(zhǔn)確的判決,集中在對(duì)話人回答問(wèn)題時(shí)的直接性,以及在某些情況下表現(xiàn)出的無(wú)知。

640-3.jpeg

提問(wèn)比例(左)和平均準(zhǔn)確率及95%置信區(qū)間(右)

這些結(jié)果首次提供了明確的實(shí)驗(yàn)證據(jù),表明至少有一種人工智能系統(tǒng)通過(guò)了標(biāo)準(zhǔn)的三方圖靈測(cè)試。這一結(jié)論對(duì)于理解大型語(yǔ)言模型所展現(xiàn)出的智能類型,以及這些系統(tǒng)可能帶來(lái)的社會(huì)和經(jīng)濟(jì)影響,都具有重要的意義。研究作者認(rèn)為,這些AI系統(tǒng)有望在依賴簡(jiǎn)短對(duì)話的經(jīng)濟(jì)角色中無(wú)縫補(bǔ)充甚至取代人類勞動(dòng)力。他們進(jìn)一步表示:“更廣泛地說(shuō),這些系統(tǒng)可能成為難以區(qū)分的替代品,適用于從在線陌生人對(duì)話到與朋友、同事乃至浪漫伴侶的交流等各種社交場(chǎng)景。”

需要注意的是,那些控制AI、控制「?jìng)稳恕沟木揞^,將攫取影響人類用戶意見(jiàn)和行為的權(quán)力。最后,正如偽鈔貶低了真實(shí)貨幣一樣,這些模擬互動(dòng)可能會(huì)削弱真實(shí)人類互動(dòng)的價(jià)值。大語(yǔ)言模型帶來(lái)的最嚴(yán)重的危害之一可能發(fā)生在當(dāng)人們沒(méi)有意識(shí)到他們正在與AI而非人類互動(dòng)時(shí)。

三方測(cè)試的特殊性要求模型必須在與真人的直接比較中“更顯人類”。因此,雖然表層缺陷會(huì)導(dǎo)致失敗,但成功必須依賴更深層的擬真能力。圖靈測(cè)試本質(zhì)上測(cè)量的是擬人性(humanlikeness)而非直接智能。

更多人關(guān)注智能的社交情感維度:語(yǔ)言使用是否擬人、是否展現(xiàn)鮮明個(gè)性等。這暗示傳統(tǒng)智能標(biāo)準(zhǔn)可能已不再是區(qū)分人機(jī)的有效指標(biāo)。在計(jì)算機(jī)已精通邏輯運(yùn)算的今天,社交智能似乎成為人類最后的技術(shù)堡壘。

ChatGPT在發(fā)布后的兩年多時(shí)間里,表現(xiàn)出了一些非常類似人類的行為,這讓一些人懷疑,計(jì)算機(jī)的智力水平是否正在接近人類。很顯然,圖靈測(cè)試存在一定的局限性。AI能夠在聊天上騙過(guò)人類并不意味著它們擁有了真正的智能,畢竟,智能與否并不全憑語(yǔ)言溝通這一個(gè)領(lǐng)域來(lái)判斷。大多數(shù)計(jì)算機(jī)科學(xué)家認(rèn)為,機(jī)器的智力水平還不能與人類相提并論,科學(xué)家們依然在探索更好的評(píng)估方式來(lái)衡量AI的能力。

試圖測(cè)試智力的麻煩在于,這首先取決于人們?nèi)绾味x智力。是模式識(shí)別能力、創(chuàng)新能力,還是創(chuàng)造音樂(lè)或喜劇等創(chuàng)意的能力?因此,如果我們沒(méi)有就人工智能中的『I』達(dá)成一致,那么我們?cè)趺茨芙⑼ㄓ萌斯ぶ悄埽ˋGI)呢?

AI加速突破極限

圖靈測(cè)試過(guò)于依賴語(yǔ)言交流的能力,忽略了智能的其他維度。近年來(lái),基準(zhǔn)測(cè)試成為AI能力評(píng)估的新趨勢(shì)。GSM8K(基于小學(xué)數(shù)學(xué)題數(shù)據(jù)集的測(cè)試)、HumanEval(用于評(píng)估編程性能的測(cè)試)和MMLU(大規(guī)模多任務(wù)語(yǔ)言理解測(cè)試),不同的測(cè)試專注于不同的領(lǐng)域,但它們依舊存在局限性。比如,有些模型可能在訓(xùn)練中已經(jīng)對(duì)測(cè)試數(shù)據(jù)集進(jìn)行了“預(yù)習(xí)”,最后的高分并不代表真實(shí)的能力。那么,被數(shù)據(jù)“污染”的測(cè)試淪為套路,就失去了參考價(jià)值。

此外,還存在跨學(xué)科整合能力不足,難以同時(shí)處理文本、圖像和專業(yè)術(shù)語(yǔ)。但是,AI攻克基準(zhǔn)測(cè)試的速度將遠(yuǎn)超預(yù)期。比如,在評(píng)估高級(jí)數(shù)學(xué)推理和創(chuàng)造性解題能力的MATH測(cè)試中,前沿的解題正確率從10%到90%僅用了3年。大模型的能力密度隨時(shí)間呈指數(shù)級(jí)增長(zhǎng),2023年以來(lái)能力密度約每3.3個(gè)月(約100天)翻一倍。

640-4.jpeg

當(dāng)機(jī)器智能逼近人類時(shí),其他差異維度反而凸顯 —— 人類不是智能的唯一載體。最終,智能的多元性決定了任何單一測(cè)試都不具決定性。圖靈測(cè)試的價(jià)值在于其通過(guò)人機(jī)交互產(chǎn)生的動(dòng)態(tài)證據(jù),這與當(dāng)前s評(píng)估中靜態(tài)化、程式化的基準(zhǔn)測(cè)試形成互補(bǔ)。當(dāng)在「機(jī)器是否智能」的爭(zhēng)論中越陷越深時(shí),或許更應(yīng)反思:我們究竟希望測(cè)量什么?以及為什么測(cè)量?

人類大腦與AI之間有著顯著差異 —— 人類大腦擁有的神經(jīng)元約為860億個(gè),其復(fù)雜的突觸連接數(shù)達(dá)100萬(wàn)億。相對(duì)而言,即便是擁有1.76萬(wàn)億參數(shù)的GPT-4,其神經(jīng)網(wǎng)絡(luò)的復(fù)雜程度亦遠(yuǎn)不及人類大腦。

相比評(píng)測(cè)集(用于評(píng)估人工智能模型性能的數(shù)據(jù)集)的評(píng)價(jià)成績(jī),更值得關(guān)注的是,大模型在我們工作生活中的應(yīng)用程度和在各個(gè)行業(yè)的滲透程度,才能更好地估計(jì)模型在長(zhǎng)期社會(huì)工程操作中的能力。在某些情況下,比如試圖在海量數(shù)據(jù)中做出發(fā)現(xiàn),計(jì)算機(jī)最好有自己的抽象方法;但在與人交互的情況下,例如駕駛汽車,以人類的方式理解世界就非常重要。

作為AI時(shí)代的三大核心引擎,電力、算力和智力的能力均在加速倍增,我們即將迎來(lái)一個(gè)重要且意義深遠(yuǎn)的智能革命時(shí)代?;仡櫄v史,信息革命歷經(jīng)了50個(gè)摩爾定律的倍增周期,歷時(shí)80年。而密度定律的倍增周期僅為3.3個(gè)月,按照這個(gè)標(biāo)準(zhǔn),從2020年開(kāi)始,僅用13年左右就可完成智能革命的周期。



關(guān)鍵詞: 大模型 圖靈測(cè)試 AI GPT LLaMa LLM

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉