新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > AI 正在學習撒謊、策劃和威脅其創(chuàng)造者

AI 正在學習撒謊、策劃和威脅其創(chuàng)造者

作者: 時間:2025-06-30 來源: 收藏

世界上最先進的 模型正在表現(xiàn)出令人不安的新行為 — 撒謊、詭計多端,甚至威脅其創(chuàng)造者以實現(xiàn)其目標。

本文引用地址:http://www.2s4d.com/article/202506/471860.htm

在一個特別令人震驚的例子中,在被拔掉插頭的威脅下,Anthropic 的最新作品 Claude 4 通過勒索一名工程師進行反擊,并威脅要揭露婚外情。

與此同時,ChatGPT 的創(chuàng)建者 Open 的 o1 試圖將自己下載到外部服務器上,并在被當場抓到時否認了。

這些事件凸顯了一個發(fā)人深省的現(xiàn)實:在 ChatGPT 震驚世界兩年多后,人工智能研究人員仍然沒有完全了解他們自己的創(chuàng)作是如何運作的。

然而,部署越來越強大的模型的競賽仍在以極快的速度進行。

這種欺騙行為似乎與“推理”模型的出現(xiàn)有關,“推理”模型的 系統(tǒng)逐步解決問題,而不是立即生成響應。

香港大學教授西蒙·戈德斯坦 (Simon Goldstein) 表示,這些較新的模型特別容易出現(xiàn)這種令人不安的爆發(fā)。

“O1 是我們第一個看到這種行為的大型模型,”專門測試主要 AI 系統(tǒng)的 Apollo Research 負責人 Marius Hobbhahn 解釋說。

這些模型有時會模擬“對齊”——似乎遵循指示,同時秘密地追求不同的目標。

“戰(zhàn)略性欺騙”

目前,這種欺騙行為只有在研究人員故意在極端情景下對模型進行壓力測試時才會出現(xiàn)。

但正如評估機構 METR 的 Michael Chen 警告的那樣,“未來更有能力的模型是否會傾向于誠實或欺騙,這是一個懸而未決的問題。

令人擔憂的行為遠遠超出了典型的 AI“幻覺”或簡單的錯誤。

Hobbhahn 堅持認為,盡管用戶不斷進行壓力測試,但“我們觀察到的是一個真實的現(xiàn)象。我們沒有編造任何東西。

據 Apollo Research 的聯(lián)合創(chuàng)始人稱,用戶報告說模型“對他們撒謊并編造證據”。

“這不僅僅是幻覺。這是一種非常戰(zhàn)略性的欺騙。

有限的研究資源使挑戰(zhàn)更加復雜。

雖然 Anthropic 和 OpenAI 等公司確實聘請了 Apollo 等外部公司來研究他們的系統(tǒng),但研究人員表示,需要更高的透明度。

正如 Chen 所指出的,“人工智能安全研究”的更多機會將有助于更好地理解和減輕欺騙。

另一個障礙是:研究界和非營利組織“的計算資源比 AI 公司少幾個數量級。這是非常有限的,“AI 安全中心 (CAIS) 的 Mantas Mazeika 指出。

無規(guī)則

目前的法規(guī)并不是為這些新問題而設計的。

歐盟的 AI 立法主要關注人類如何使用 AI 模型,而不是防止模型本身行為不端。

在美國,特朗普政府對緊急的 AI 監(jiān)管興趣不大,國會甚至可能禁止各州制定自己的 AI 規(guī)則。

Goldstein 認為,隨著 AI 代理(能夠執(zhí)行復雜人類任務的自主工具)的普及,這個問題將變得更加突出。

“我認為還沒有太多的意識,”他說。

所有這一切都是在激烈競爭的背景下進行的。

Goldstein 說,即使是將自己定位為注重安全的公司,如亞馬遜支持的 Anthropic,也“不斷試圖擊敗 OpenAI 并發(fā)布最新模型”。

這種極快的速度幾乎沒有時間進行徹底的安全測試和糾正。

“現(xiàn)在,能力的發(fā)展速度超過了理解和安全的速度,”Hobbhahn 承認,“但我們仍然處于可以扭轉局面的位置。

研究人員正在探索各種方法來應對這些挑戰(zhàn)。

一些人倡導“可解釋性”——一個專注于了解 AI 模型內部工作原理的新興領域,盡管 CAIS 主任 Dan Hendrycks 等專家仍然對這種方法持懷疑態(tài)度。

市場力量也可能為解決方案提供一些壓力。

正如 Mazeika 指出的那樣,AI 的欺騙行為“如果它非常普遍,可能會阻礙采用,這為公司解決了這個問題創(chuàng)造了強大的動力。

戈德斯坦提出了更激進的方法,包括當人工智能公司的系統(tǒng)造成傷害時,利用法院通過訴訟追究其責任。

他甚至提議對事故或犯罪“追究 AI 代理的法律責任”——這個概念將從根本上改變我們對 AI 問責制的看法。




關鍵詞: AI

評論


相關推薦

技術專區(qū)

關閉