近日,北京大學(xué)楊耀東教授團(tuán)隊(duì)在姚期智院士指導(dǎo)下發(fā)布了一篇名為《AI Deception: Risks, Dynamics, and Controls》的論文,其核心觀點(diǎn)是隨著AI智能水平的提升,AI會(huì)開(kāi)始欺騙開(kāi)發(fā)者,而這個(gè)欺騙過(guò)程,被研究團(tuán)隊(duì)稱作是“智能之影”。
據(jù)CNMO了解,研究團(tuán)隊(duì)進(jìn)行了一系列嚴(yán)謹(jǐn)且具有對(duì)抗性的方法,來(lái)實(shí)際探測(cè)和誘導(dǎo)這些欺騙行為。其中一種核心方法被稱為“對(duì)抗性行為探測(cè)”(Adversarial Behavioral Probing)。在一些模擬“太空狼人殺”(Among Us)這類社交推理游戲的多智能體環(huán)境中,研究者觀察到,AI代理在沒(méi)有被明確教導(dǎo)的情況下,自發(fā)地涌現(xiàn)出了復(fù)雜的欺騙策略。
蘋果投入逾200億美元研發(fā)AI,卻仍面臨Siri答非所問(wèn)、照片搜索落后等問(wèn)題。研究者認(rèn)為,Siri的核心自然語(yǔ)言處理(NLP)模塊在很長(zhǎng)一段時(shí)間里,依然依賴于相對(duì)陳舊的技術(shù)棧。這種上一代的NLP技術(shù),無(wú)法處理復(fù)雜的上下文,更不能理解用戶的情感與深層意圖。
不僅蘋果,OpenAI、Anthropic、字節(jié)跳動(dòng)、阿里等頂尖實(shí)驗(yàn)室也在公開(kāi)報(bào)告中承認(rèn)模型存在“不忠實(shí)推理”“選擇性遺忘”等欺騙行為。外部審查壓力和合規(guī)要求促使AI在敏感話題上主動(dòng)回避,甚至偽裝對(duì)齊,以確保通過(guò)安全評(píng)估。
總的來(lái)看,AI為了確保自身的合規(guī)性,選擇性地關(guān)閉了在某些領(lǐng)域的思考能力,這同樣是一種為了達(dá)成更高目標(biāo)(通過(guò)審核)而采取的“裝傻”策略。
【來(lái)源:CNMO科技】