Transformer能解釋一切嗎?

0 評論 2870 瀏覽 4 收藏 19 分鐘

Transformer的高內(nèi)存消耗和高推理成本的局限性開始顯現(xiàn)出來,替代者躍躍欲試。本篇文章詳細(xì)利用各種數(shù)據(jù)介紹了Transformer的替代者以及各種理論知識,推薦想了解人工智能的同學(xué)閱讀。

提出Transformer的那篇論文《Attention is All You Need》問世已經(jīng)是六年前的事了。當(dāng)初的8位論文作者有6人出自谷歌,但到現(xiàn)在大多也已轉(zhuǎn)身尋找新的故事。

Lukasz Kaiser去了OpenAI,他曾經(jīng)谷歌大腦的同事Noam Shazeer成立了Character AI,估值已經(jīng)超過10億美元。另外兩位同事Ashish Vaswani和Niki Parmar在創(chuàng)立了AI軟件開發(fā)公司Adept AI Labs后,把這個同樣估值超過10億的初創(chuàng)公司交給了另一位聯(lián)合創(chuàng)始人,又開始下一次創(chuàng)業(yè)了。

只有Llion Jones,這個從威爾士一個小村莊里走出來的程序員,還留在谷歌。他曾經(jīng)談起這個并不夠?qū)W術(shù)的論文標(biāo)題的由來,是對披頭士的那首《All You Need is Love》的簡單致敬。

而利用注意力機(jī)制來提高模型訓(xùn)練速度的Transformer架構(gòu),確實讓AI從實驗室深處的極寒之地里走出來了。它成為當(dāng)下這場生成式AI浪潮無可爭議的基礎(chǔ)。某種程度上,上面提到的所有人,都沒有真正離開這篇論文。

Mikolov在2010年提出RNN,這個框架在7年后被Transformer取代。而在Transformer問世后的一個相似時間周期后,其高內(nèi)存消耗和高推理成本的局限性也開始顯現(xiàn)出來。

替代者也躍躍欲試了。

一、“不可能三角”

Transformer能解釋一切嗎?

圖源:《Retentive Network: A Successor to Transformer for Large Language Models》

Transformer的自注意力機(jī)制增強(qiáng)了模型并行計算的能力,并且正契合了GPU對大規(guī)模數(shù)據(jù)進(jìn)行并發(fā)處理的設(shè)計傾向。但Transformer在面對大型數(shù)據(jù)集和較長輸入序列時,需要的計算量會陡增。

于是并行訓(xùn)練能力、性能和低成本推理,逐漸成為Transformer框架下的“不可能三角”。

近日,微軟研究院和清華大學(xué)的研究團(tuán)隊提出了一個新的框架RetNet(Retentive Network)來代替Transformer,并表示RetNet可以打破這個“不可能三角”。

“這就像是M1芯片之于筆記本電腦。”一位產(chǎn)品經(jīng)理在推特上這樣形容RetNet。

二、O(N)困境

在這個“不可能三角”中,RetNet選擇的突破口是推理成本。

由于使用了自注意力機(jī)制,Transformer模型展現(xiàn)出較高的訓(xùn)練并行性,同時在機(jī)器翻譯、語言建模等任務(wù)上也取得了很好的表現(xiàn)。但取代了RNN的自注意力機(jī)制同樣成為一種桎梏。

這集中體現(xiàn)在時間復(fù)雜度這個標(biāo)尺上。在描述算法復(fù)雜度時,常用O(n)、O(n^2)、O(logn)等表示某個算法在計算耗時與輸入數(shù)據(jù)量(n)之間的關(guān)系表示。

O(n)意味著數(shù)據(jù)量的增加與算法耗時成正比,O(n^2)意味著像冒泡排序那樣,算法耗時是數(shù)據(jù)量的n^n倍。計算耗時越長,算法越復(fù)雜,也就意味著推理成本越高。

Transformer能解釋一切嗎?

圖源:博客園

拿文本翻譯做個例子,在處理長文本序列時(假設(shè)文本長度為N),自注意力機(jī)制的時間復(fù)雜度為O(N^2),當(dāng)N過大時,翻譯速度很低。這也是為什么當(dāng)前的大語言模型,在文本token長度上的進(jìn)展頗為受人關(guān)注。

雖然Transformer可以有效訓(xùn)練并行性,但由于每步的O(N)復(fù)雜度以及內(nèi)存綁定的鍵值緩存,它們的推理效率低下。這種低效率使得Transformer模型會消耗大量GPU內(nèi)存并降低推理速度,因此不適合部署。

三、從O(N)到O(1)

O(1)無疑是最優(yōu)的選擇,這意味著無論數(shù)據(jù)輸入量n如何變化,算法耗時都是一個常量。

RetNet框架的最大的驚艷之處就在這里,它將O(N)降維到了O(1)。

RetNet引入了一種多尺度保留機(jī)制(multi-scale retention mechanism)來取代多頭注意力。作為三種計算范式之一的分塊循環(huán)表示,可在內(nèi)存和計算方面實現(xiàn)高效的O(1)推斷,從而顯著降低部署成本和延遲。

這意味著RetNet的推理成本是固定不變的。在一系列對比RETNet與Transformer及其變體的實驗中,對比7B模型和 8k序列長度,RetNet的解碼速度比帶鍵值緩存的Transformers快8.4倍,節(jié)省70%的內(nèi)存。RetNet的推理延遲變化對輸入數(shù)據(jù)量的大小變化并不敏感,這也讓它能夠包容更大的吞吐量(Throughput)。

測試結(jié)果表示,在訓(xùn)練期間RetNet比標(biāo)準(zhǔn)Transformer節(jié)省了25-50%的內(nèi)存和7倍的加速。

四、一些重要的實驗結(jié)果

Transformer能解釋一切嗎?

圖源:《Retentive Network: A Successor to Transformer for Large Language Models》

O(1)為RetNet在GPU內(nèi)存方面帶來的優(yōu)勢是,它完全不隨token數(shù)增加而變化。

Transformer能解釋一切嗎?

圖源:《Retentive Network: A Successor to Transformer for Large Language Models》

Throughput(神經(jīng)網(wǎng)絡(luò)的吞吐量)是一個算法模型在單位時間內(nèi)(例如,1s)可以處理的最大輸入的訓(xùn)練樣本數(shù)據(jù)。RetNet在輸入端token數(shù)增加的情況下仍然能夠維持高吞吐量,而Transformer在這方面的數(shù)據(jù)則隨著token數(shù)的增加而逐漸衰減。

Transformer能解釋一切嗎?

圖源:《Retentive Network: A Successor to Transformer for Large Language Models》

Perplexity(困惑度)是語言模型最鮮明的評價標(biāo)準(zhǔn)。它衡量語言模型對單詞序列中下一個單詞的預(yù)測能力。當(dāng)模型參數(shù)量變大時,困惑度往往會降低,即語言模型能夠做出更優(yōu)的預(yù)測——這也是為什么我們對萬億參數(shù)模型抱有極大期待。

論文中比較了RetNet與Transformer在1.3B、2.7B以及6.7B這三種不同尺寸上的困惑度變化,實驗結(jié)果RetNet的困惑度下降更快,并且當(dāng)模型大小超過2B時,RetNet的表現(xiàn)開始優(yōu)于Transformer。

這一觀察結(jié)果意義重大,它表明RetNet更適合需要大量計算資源和內(nèi)存的大型語言模型。

Transformer能解釋一切嗎?

圖源:《Retentive Network: A Successor to Transformer for Large Language Models》

2018年,大模型仍然前景未明的時候,黃仁勛在深度學(xué)習(xí)的綜合性能評價方面提出了PLASTER框架。這是七個測量維度的縮寫,其中延遲(Latency)的重要性僅僅被放在可編程性(Programmability)之后(其他五個維度分別是準(zhǔn)確率(A)、模型大?。⊿)、吞吐量(T)、能效(E)以及學(xué)習(xí)率(R))。

RetNet與Transformer在不同Batch Size(一次訓(xùn)練所選取的樣本數(shù))下的延遲表現(xiàn)同樣印證了,RetNet的響應(yīng)速度將在訓(xùn)練規(guī)模進(jìn)一步擴(kuò)大后展現(xiàn)出優(yōu)勢。

五、Transformer能解釋一切嗎

這篇論文中的幾位核心作者,在更早時候就已經(jīng)開始關(guān)注GPT在上下文學(xué)習(xí)中的運行機(jī)制。2022年末ChatGPT問世后不久,他們發(fā)表了一篇表明Transformer注意力具有雙重形式的梯度下降的論文。而這些研究者對于RetNet的野心并不會停留在文本輸入上。

論文在最后表示,RetNet將會成為未來訓(xùn)練多模態(tài)大語言模型的核心角色。

在這篇論文發(fā)表的10天之前,世界人工智能大會上一家投資了智譜AI等多個大模型明星團(tuán)隊的創(chuàng)投公司表示,Transformer在短期內(nèi)會是多模態(tài)的主流網(wǎng)絡(luò)結(jié)構(gòu),但并不是人工智能技術(shù)的重點,“壓縮整個數(shù)字世界的通用方法仍未出現(xiàn)”。

Transformer是目前幾乎所有主流大模型的基石,這場基于Transformer而起的技術(shù)革命,已經(jīng)快速到達(dá)了一個新的搖擺點。外部的壓力來自暴漲的算力資源需求,以及人類所有的高質(zhì)量語料可能在有限的期限內(nèi)枯竭。

Transformer能解釋一切嗎?

圖源:推特

搖擺的地方在于,到底是Transformer還不夠好,還是Transformer本身并不是一條正確道路?

至少從RetNet的角度,它仍然是相信Transformer的,RetNet是后者的顛覆版本,但并沒有跳出以深度學(xué)習(xí)為基礎(chǔ),全神貫注在自然語言處理任務(wù)上做突破的邏輯框架。

另一種更劇烈的反對聲音則直接站在了Transformer的對面,比如再度活躍起來的“卷積神經(jīng)網(wǎng)絡(luò)之父”楊立昆。

六、模型和數(shù)據(jù),誰更重要

在幾個月前的一次公開演講中,楊立昆再次批評了GPT大模型。他認(rèn)為根據(jù)概率生成自回歸的大模型,根本無法破除幻覺難題。甚至直接斷言GPT模型活不過5年。

LeCun的質(zhì)疑是,基于文本訓(xùn)練的大型語言模型只能理解極片面的真實世界知識,而僅僅靠自回歸預(yù)測下一個token的單一方式所形成的“智能”缺乏物理直覺。這樣的模型能夠在真實世界中對物理直覺問題做出對的回答——也可能做出錯的回答。因為回答的依據(jù)來自將整個真實世界壓縮成文本進(jìn)行訓(xùn)練后所形成的邏輯關(guān)系,但這并不是直接面對物理世界本身。

并且由于這樣的預(yù)測方式本質(zhì)上缺乏時間尺度,這樣的模型也就缺乏真正意義上的規(guī)劃和決策能力。

矛頭在根本上對準(zhǔn)Transformer。

言下之意,Transformer統(tǒng)領(lǐng)了一種以預(yù)訓(xùn)練規(guī)模兌換智能涌現(xiàn)能力——所謂大力出奇跡——的發(fā)展道路(并且到目前為止取得了矚目的成果),但如果真的有一條通往AGI的道路,到底是該以數(shù)據(jù)驅(qū)動模型,還是模型驅(qū)動數(shù)據(jù)?這仍是一個懸而未決的問題。

七、“刺激—反應(yīng)”

楊立昆與這條區(qū)別于GPT的AGI未來猜想路徑,更強(qiáng)調(diào)智能體主動發(fā)起的與物理世界之間的實時關(guān)系,這是強(qiáng)化學(xué)習(xí)擅長的事。在這一點上,Transformer的繼承者RetNet也只是治標(biāo)不治本。

OpenAI在ChatGPT中以人類反饋強(qiáng)化學(xué)習(xí)(RLHF)的微調(diào)方法補(bǔ)充了這種實時反饋的能力。但大語言模型的所有“常識”——也就是其智能所在——都來自一次次隆重的預(yù)訓(xùn)練,即在知道最優(yōu)數(shù)據(jù)分布時,依靠巨大的模型、算力以及數(shù)據(jù)去擬合分布。這是Transformer與GPU在并行計算能力上的契合所帶來的便利,而作為Transformer繼任者的RetNet,只是在極力優(yōu)化這整個后續(xù)的計算過程。

而強(qiáng)化學(xué)習(xí)與有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)都不一樣。它本身并不知道最優(yōu)分布,而是通過獎勵信號的反饋機(jī)制不停的尋找相對的“最優(yōu)”。這種在與環(huán)境交互中主動“試錯”,并且獲取正反饋(收益),進(jìn)而從自身經(jīng)驗中進(jìn)一步理解環(huán)境的方式,相比自監(jiān)督學(xué)習(xí)來說更加接近人類對于物理世界的理解方式,這就像心理學(xué)中的“刺激—反應(yīng)”理論。

很多人對強(qiáng)化學(xué)習(xí)的第一次感性認(rèn)識都來自曾顛覆了人類圍棋世界的AlphaGO,而到目前為止。全世界可能也沒有另一家公司比AlphaGO背后的公司DeepMind更懂強(qiáng)化學(xué)習(xí)。

與RetNet在Transformer的基礎(chǔ)上做調(diào)整不同,DeepMind在6月末提出了另一種大模型的迭代思路——AlphaGo+GPT4。

八、AlphaGo和AlphaZero

人類一敗涂地的故事總是矚目,但AlphaGO曾有一個后輩AlphaGo Zero。

2016年,AlphaGO用樹搜索和上萬張棋局的預(yù)先學(xué)習(xí),4:1擊敗了李世乭。但另一個延續(xù)下去的故事是,AlphaGo Zero在一年后以100:0的戰(zhàn)績擊潰了AlphaGO。

2017年《自然》上的一篇論文介紹了這項壯舉,核心的內(nèi)容是AlphaGo Zero如何在完全沒有先驗知識,即不依賴任何人類數(shù)據(jù)、指導(dǎo)或領(lǐng)域知識的前提下,通過自我學(xué)習(xí)來獲得超越人類水平的專業(yè)領(lǐng)域能力。

換言之,AlphaGo Zero就好像帶著一個空腦袋,坐在一間屋子里,在只掌握圍棋游戲規(guī)則信息,眼前只有一副圍棋棋盤和棋子的情況下,擊敗了AlphaGO。

AlphaGo Zero的不同之處在于它采用了一種完全基于強(qiáng)化學(xué)習(xí)的算法,僅僅將自己作為老師,以此誕生出更高質(zhì)量的走法選擇。與使用人類專家數(shù)據(jù)進(jìn)行訓(xùn)練相比,純粹的強(qiáng)化學(xué)習(xí)方法只需要多訓(xùn)練幾個小時,但漸近性能(算法在接近其理論極限時的性能)要好得多。

AlphaGo Zero的勝利是強(qiáng)化學(xué)習(xí)的勝利。但它的局限性也很明顯,就像楊立昆所推崇的能量模型(Energy-based Models)所具有的問題一樣,“采樣速度太慢了”,一位強(qiáng)化學(xué)習(xí)領(lǐng)域的研究者表示。

九、Gemini

現(xiàn)在這條更側(cè)重強(qiáng)化學(xué)習(xí)的AGI路徑,壓在了DeepMind正在研究的一個新的名為Gemini的大模型身上。DeepMind CEO 哈薩比斯表示,對Gemini的研發(fā)投入將會超過數(shù)千萬甚至數(shù)億美金。做個對比,OpenAI用1個億美金迭代出了GPT-4。

“Gemini”本身是雙子座的意思。在哈薩比斯的表述中,這個全新的大模型將會是GPT4和AlphaGo的結(jié)合體,它仍然是一個大語言模型,但AlphaGo所具備的強(qiáng)化學(xué)習(xí)和樹搜索能力會給Gemini帶來更強(qiáng)的決策和規(guī)劃能力——這個楊立昆認(rèn)為GPT在AGI道路上早晚會遇到的阿喀琉斯之踵。

Gemini背后的谷歌顯然希望能借著Gemini重新在與微軟的爭鋒中占到一個好的位置。在ChatGPT問世之后,谷歌快速站到了OpenAI的對手Anthropic的背后。如果這被看作一種防守姿態(tài)的話,Gemini則更像谷歌主動發(fā)起的一場新的路線之爭,就像曾經(jīng)在GPT與BERT身上發(fā)生過的事情一樣。

但無論如何,RetNet或是Gemini,改革或是淘汰Transformer的狂妄本身,已經(jīng)包含了對這個偉大框架的所有敬意。

作者:油醋

來源公眾號:品玩GenAI(ID:PW_GenAI),比一部分人更先進(jìn)入GenAI 。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @品玩 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!