人腦是“無(wú)限流”壓縮大師,大模型靠堆層數(shù)無(wú)法學(xué)會(huì)人類(lèi)記憶,到8萬(wàn)Token就不可用了。
“Transformer完全不能支撐我們下一步,尤其是在Agent時(shí)代走向下一步?!?2月18日,90后AI大牛、階躍星辰首席科學(xué)家張翔雨公布了自己最新的研究結(jié)論,直指當(dāng)前AI領(lǐng)域核心架構(gòu)Transformer的技術(shù)瓶頸。
Transformer架構(gòu)是當(dāng)前人工智能,特別是生成式AI和大語(yǔ)言模型的基石。它是2017 年由谷歌團(tuán)隊(duì)在論文《Attention Is All You Need》中提出的深度學(xué)習(xí)架構(gòu),核心創(chuàng)新在于“自注意力機(jī)制”,突破了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)處理長(zhǎng)序列的瓶頸??梢哉f(shuō),沒(méi)有Transformer,就沒(méi)有今天的ChatGPT、Gemini等模型。
張祥雨是深度學(xué)習(xí)領(lǐng)域的知名學(xué)者,以在ResNet(殘差神經(jīng)網(wǎng)絡(luò))方面的開(kāi)創(chuàng)性工作而聞名。此前張祥雨等人完成的論文《Deep Residual Learning for Image Recognition》獲CVPR最佳論文,引用已超20萬(wàn)次,是計(jì)算機(jī)視覺(jué)與模式識(shí)別類(lèi)被引用最多的論文。
張祥雨首先承認(rèn),當(dāng)前大模型行業(yè)看似進(jìn)入了一個(gè)“穩(wěn)態(tài)”時(shí)期,各種創(chuàng)新模型架構(gòu)最終都收斂到以Transformer為核心的變體上。針對(duì)長(zhǎng)上下文處理的效率瓶頸,業(yè)界通過(guò)如線性注意力(Linear Attention)、稀疏注意力(Sparse Attention)等技術(shù)手段“小修小補(bǔ)”,這并未改變 Transformer 的本質(zhì)建模能力。
“但是很快我們發(fā)現(xiàn)了一個(gè)巨大的副作用?!睆埾橛暾f(shuō),真正的難點(diǎn)是模型的智商會(huì)隨著文本變化快速下降?!敖裉斓腡ransformer,不管號(hào)稱(chēng)發(fā)布出來(lái)說(shuō)支持到多少Token,基本上到8萬(wàn)個(gè)就不可用了?!?/p>
這個(gè)問(wèn)題指向了Transformer的一個(gè)缺陷,就是它的單向信息流設(shè)計(jì)。無(wú)論輸入序列(Context)多長(zhǎng),模型的有效“思考深度”的信息只能從淺層向深層單向傳遞,缺乏從深層向淺層的反饋與壓縮機(jī)制,這與人類(lèi)大腦“無(wú)限流”的記憶機(jī)制存在本質(zhì)差異。
“我今天講過(guò)的每一句話,都是歷史上我見(jiàn)過(guò)的所有信息的函數(shù)?!睆埾橛暧帽扔麝U明,“這個(gè)函數(shù)能用層數(shù)固定的網(wǎng)絡(luò)來(lái)表示嗎?肯定不可以。”他說(shuō)人類(lèi)大腦能夠?qū)男〉酱蟮暮A拷?jīng)歷進(jìn)行動(dòng)態(tài)壓縮和選擇性回溯,而當(dāng)前Transformer結(jié)構(gòu)無(wú)法實(shí)現(xiàn)這種類(lèi)似“無(wú)限流”世界的智能處理需求,這制約了AI向具備高度自主性、能長(zhǎng)期持續(xù)學(xué)習(xí)的通用Agent演進(jìn)。
事實(shí)上,當(dāng)前已經(jīng)開(kāi)始有研究者討論Transformer是否存在根本局限性。就在今年10月,Transformer 架構(gòu)的共同創(chuàng)造者Llion Jones在TED AI大會(huì)上說(shuō)自己已經(jīng)受夠了 Transformer,并開(kāi)始尋找下一次重大突破。他直言盡管現(xiàn)在AI領(lǐng)域投入了前所未有的資金與人才,但研究者卻變得越來(lái)越狹窄,他們更傾向于利用現(xiàn)有架構(gòu)而非探索新路徑,“錯(cuò)失下一個(gè)重大突破的風(fēng)險(xiǎn)正在加劇?!?/p>
挑戰(zhàn)已經(jīng)出現(xiàn)。Mamba、TTT(Test-Time Training)等架構(gòu)正吸引越來(lái)越多目光。英偉達(dá)、Meta、騰訊等巨頭已在探索將Mamba與Transformer融合;中國(guó)科學(xué)院自動(dòng)化所與沐曦合作研發(fā)的類(lèi)腦脈沖大模型“瞬悉1.0”,則展示了構(gòu)建非Transformer架構(gòu)生態(tài)的可行性。
張祥雨透露,階躍星辰團(tuán)隊(duì)已經(jīng)在探索新的架構(gòu)方向,一些小規(guī)模實(shí)驗(yàn)已取得積極結(jié)論。他認(rèn)為,未來(lái)的架構(gòu)是基于非線性遞歸網(wǎng)絡(luò)(non-Linear RN)的全新架構(gòu)。但他也坦言,這種架構(gòu)革新將給系統(tǒng)效率和可并行度帶來(lái)巨大挑戰(zhàn),需要協(xié)同設(shè)計(jì)才能落地。