語言圖像模型大一統(tǒng)!Meta將Transformer和Diffusion融合,多模態(tài)AI王者登場

0 評論 2887 瀏覽 5 收藏 30 分鐘

昨天,Meta最新發(fā)布的Transfusion,能夠訓(xùn)練生成文本和圖像的統(tǒng)一模型了!完美融合Transformer和擴散領(lǐng)域之后,語言模型和圖像大一統(tǒng),又近了一步。也就是說,真正的多模態(tài)AI模型,可能很快就要來了!

Transformer和Diffusion,終于有了一次出色的融合。

自此,語言模型和圖像生成大一統(tǒng)的時代,也就不遠了!

這背后,正是Meta最近發(fā)布的Transfusion——一種訓(xùn)練能夠生成文本和圖像模型的統(tǒng)一方法。

論文地址:https://arxiv.org/abs/2408.11039

英偉達高級科學(xué)家Jim Fan盛贊:之前曾有很多嘗試,去統(tǒng)一Transformer和Diffusion,但都失去了簡潔和優(yōu)雅。

現(xiàn)在,是時候來一次Transfusion,來重新激活這種融合了!

在X上,論文共一Chunting?Zhou,為我們介紹了Transfusion其中的「玄機」。

為何它能讓我們在一個模型中,同時利用兩種方法的優(yōu)勢?

這是因為,Transfusion將語言建模(下一個token預(yù)測)與擴散相結(jié)合,這樣,就可以在混合模態(tài)序列上訓(xùn)練單個Transformer。

研究者從頭開始,在混合文本和圖像數(shù)據(jù)上預(yù)訓(xùn)練了參數(shù)量高達70億的Transfusion模型。

使用文本和圖像數(shù)據(jù)的混合,他們建立了一系列單模態(tài)和跨模態(tài)基準的縮放定律。

實驗表明,Transfusion在單模態(tài)和多模態(tài)基準測試中,相較于對圖像進行量化并在離散圖像token上訓(xùn)練語言模型,很明顯具有更好的擴展性。

研究者發(fā)現(xiàn),Transfusion能夠生成與相似規(guī)模的擴散模型相媲美的高質(zhì)量圖像,而且,它同時也保持了強大的文本生成能力。

作者強調(diào),團隊著重做了建模的創(chuàng)新。

首先,全局因果注意力加上每個圖像內(nèi)的雙向注意力,是至關(guān)重要的。

另外,引入模態(tài)特定的編碼和解碼層后,可以提高性能,并且可以將每個圖像壓縮到64甚至16個塊!

總之,研究者成功地證明了,將Transfusion方法擴展到70億參數(shù)和2萬億多模態(tài)token后,可以生成與類似規(guī)模的擴散模型和語言模型相媲美的圖像和文本。

這就充分利用了兩者的優(yōu)勢!

最后,作者激動地暢想道——

Transfusion為真正的多模態(tài)AI模型開啟了激動人心的可能性。

這些模型可以無縫處理任何離散和連續(xù)模態(tài)的組合!無論是長篇視頻生成、與圖像或視頻的交互式編輯/生成會話,我們都可以期待了。

01 生圖效果秒殺DALL-E 2和Stable Diffusion

Transfusion的生圖效果如何?

讓我們來檢驗一下。

以下這些,都是用在2萬億多模態(tài)token上訓(xùn)練的70億參數(shù)Transfusion生成的圖像——

可以看出,它的生圖質(zhì)量非常之高。

在GenEval基準測試上,它直接超越了DALL-E 2和Stable Diffusion XL!

研究者訓(xùn)練了一個具有U-Net編碼/解碼層(2×2潛在像素塊)的70億參數(shù)模型,處理相當(dāng)于2T tokens的數(shù)據(jù),其中包括1T文本語料庫tokens和35億張圖像及其標注。

表9顯示,Transfusion在性能上與高性能圖像生成模型如DeepFloyd相當(dāng),同時超越了先前發(fā)布的模型,包括SDXL。

雖然Transfusion在SD 3后面稍顯遜色,但該模型通過反向翻譯利用合成圖像標注,將其GenEval性能在小規(guī)模上提升了6.5%(0.433→0.498)。

此外,Transfusion模型也可以生成文本,并且其性能與在相同文本數(shù)據(jù)分布上訓(xùn)練的Llama模型相當(dāng)。

02 圖像編輯

以下這些,則是用微調(diào)后的70億參數(shù)Transfusion模型編輯的圖像——

研究者使用僅包含8000個公開可用圖像編輯示例的數(shù)據(jù)集對70億參數(shù)模型進行了微調(diào),其中每個示例包括一個輸入圖像、一個編輯提示詞和一個輸出圖像。

對EmuEdit測試集中隨機示例的人工檢查表明,微調(diào)的Transfusion模型可以按照指示進行圖像編輯。

也就是說,Transfusion模型確實可以適應(yīng)并泛化到新的模態(tài)組合。

03 讓語言和圖像大一統(tǒng)的模型來了

我們都知道,多模態(tài)生成模型需要能夠感知、處理和生成離散元素(如文本或代碼)和連續(xù)元素(例如圖像、音頻和視頻數(shù)據(jù))。

不過,離散元素和連續(xù)元素,卻很難在同一個模型中大一統(tǒng)起來。

在離散模態(tài)中,是語言模型占主導(dǎo)地位,它靠的是在下一個token預(yù)測目標上訓(xùn)練的。

而在生成連續(xù)模態(tài)上,則是擴散模型及其泛化一直處于最前沿。

有沒有可能將二者相結(jié)合呢?

此前,學(xué)界曾嘗試了多種方法,包括擴展語言模型,以使用擴散模型作為工具,或者通過將預(yù)訓(xùn)練的擴散模型移植到語言模型上。

此外,還有人通過量化連續(xù)模態(tài),在離散tokens上訓(xùn)練標準語言模型,從而簡化模型架構(gòu)。

然而這樣做的代價,就是信息的丟失。而Meta的研究者在這項工作中,通過訓(xùn)練單個模型,來同時預(yù)測離散文本tokens和擴散連續(xù)圖像,他們成功地做到了完全整合兩種模態(tài),而不丟失信息。

他們的方法就是——引入Transfusion。

這是一種訓(xùn)練單一統(tǒng)一模型的方法,可以無縫理解和生成離散和連續(xù)的模態(tài)。

研究者的主要創(chuàng)新就在于,他們針對不同的模態(tài)使用了不同的損失——文本使用語言建模,圖像使用擴散——從而在共享的數(shù)據(jù)和參數(shù)上進行訓(xùn)練

研究者在50%的文本和50%的圖像數(shù)據(jù)上預(yù)訓(xùn)練了一個Transformer模型,不過對于兩種模態(tài)來說,分別使用了不同的目標。

前者的目標是,預(yù)測文本的下一個token;而后者的目標,則是圖像的擴散。

在每個訓(xùn)練步驟中,模型都會同時接觸到這兩種模態(tài)和損失函數(shù)。標準嵌入層將文本tokens轉(zhuǎn)換為向量,而塊化層(patchification layer)則將每個圖像表征為一系列塊向量。

隨后,研究者對文本tokens應(yīng)用因果注意力,對圖像塊應(yīng)用雙向注意力。

在推理時,他們引入了一種解碼算法,它結(jié)合了語言模型的文本生成和擴散模型的圖像生成的標準實踐。

從此,有望訓(xùn)練真正的多模態(tài)模型

在文本到圖像生成中,研究者發(fā)現(xiàn):Transfusion在計算量不到三分之一的情況下,F(xiàn)ID和CLIP分數(shù)均超過了Chameleon的離散化方法。

在控制FLOPs的情況下,Transfusion的FID分數(shù)比Chameleon模型低約2倍。

在圖像到文本生成中,也可以觀察到類似的趨勢:Transfusion在21.8%的FLOPs下與Chameleon匹敵。

令人驚訝的是,Transfusion在學(xué)習(xí)文本到文本預(yù)測方面也更有效,在大約50%到60%的Chameleon FLOPs下實現(xiàn)了文本任務(wù)的困惑度平價。

同時,研究者觀察到:圖像內(nèi)的雙向注意力非常重要,如果用因果注意力替代它,就會損害文本到圖像生成。

他們還發(fā)現(xiàn),通過添加U-Net上下塊來編碼和解碼圖像,就可以使Transfusion在相對較小的性能損失下,壓縮更大的圖像塊,從而能將服務(wù)成本降低到多達64倍。

最后,研究者證明了:Transfusion可以生成與其他擴散模型相似質(zhì)量的圖像。

他們在2萬億tokens上,從零開始訓(xùn)練了一個7B參數(shù)的Transformer,它增強了U-Net的下采樣/上采樣層(0.27B參數(shù))。

在這2萬億tokens中,包含1萬億的文本tokens,以及大約5個周期的692M圖像及標注,相當(dāng)于另外1萬億個patches/tokens。

在GenEval基準上,Transfusion模型優(yōu)于其他流行模型,如DALL-E 2和SDXL。

而且,與那些圖像生成模型不同的是,它還可以生成文本,在文本基準上達到了Llama 1級別的性能水平。

總之,實驗表明:Transfusion是一種十分有前途的方法,可以用于訓(xùn)練真正的多模態(tài)模型。

數(shù)據(jù)表征

研究者在兩種模態(tài)上進行了數(shù)據(jù)實驗:離散文本和連續(xù)圖像。

每個文本字符串被標記化為來自固定詞匯表的離散token序列,其中每個token被表征為一個整數(shù)。

每個圖像被編碼為使用VAE的潛在塊,其中每個塊被表征為一個連續(xù)向量;這些塊從左到右、從上到下排序,以從每個圖像創(chuàng)建一個塊向量序列。

對于混合模態(tài)的例子,研究者在將圖像序列插入文本序列之前,用特殊的圖像開始(BOI)和圖像結(jié)束(EOI)token包圍每個圖像序列。

因此,就得到了一個可能同時包含離散元素(表征文本token的整數(shù))和連續(xù)元素(表征圖像塊的向量)的單一序列。

模型架構(gòu)

模型的大部分參數(shù)屬于一個單一的Transformer,它會處理每個序列,無論模態(tài)如何。

Transformer將一個高維向量序列作為輸入,并生成類似的向量作為輸出。

為了將數(shù)據(jù)轉(zhuǎn)換到這個空間,研究者使用了具有不共享參數(shù)的輕量級模態(tài)組件。

對于文本,這些自己組件是嵌入矩陣,會將每個輸入整數(shù)轉(zhuǎn)換為向量空間,并將每個輸出向量轉(zhuǎn)換為詞匯表上的離散分布。

對于圖像,研究者則嘗試了兩種方法,將k×k塊向量的局部窗口壓縮為單個Transformer向量(反之亦然):(1)一個簡單的線性層,以及(2)U-Net的上下塊。

研究者使用預(yù)訓(xùn)練的VAE(變分自編碼器)將圖像和潛在表征進行互相轉(zhuǎn)換,然后通過簡單的線性層或U-Net下采樣塊,將其轉(zhuǎn)換為patch表征

Transfusion注意力

語言模型通常使用因果掩碼,來有效地計算整個序列的損失和梯度,只需一次前向-后向傳遞,而不會泄露未來token的信息。

相比之下,圖像通常會使用不受限制的(雙向)注意力來建模。

而Transfusion通過對序列中的每個元素應(yīng)用因果注意力,并在每個單獨圖像的元素內(nèi)應(yīng)用雙向注意力,來結(jié)合這兩種注意力模式。

這樣,每個圖像塊就可以在關(guān)注同一圖像中其他塊的同時,只關(guān)注序列中先前出現(xiàn)的文本或其他圖像的塊。

結(jié)果顯示,啟用圖像內(nèi)注意力顯著提升了模型性能。

在因果掩碼上擴展后,Transfusion就允許同一圖像的patch相互為條件

訓(xùn)練目標

為了訓(xùn)練模型,研究者將語言建模目標LLM應(yīng)用于文本token的預(yù)測,將擴散目標LDDPM應(yīng)用于圖像塊的預(yù)測。

LM損失是逐個token計算的,而擴散損失是逐個圖像計算的,這可能跨越序列中的多個元素(圖像塊)。

具體來說,他們根據(jù)擴散過程,向每個輸入潛在圖像x0添加噪聲ε,以在塊化之前產(chǎn)生xt,然后計算圖像級別的擴散損失。

通過簡單地將每種模態(tài)上計算出的損失與平衡系數(shù)λ結(jié)合,研究者合并了這兩種損失:

這個公式,也是一個更廣泛想法的具體實例:將離散分布損失和連續(xù)分布損失結(jié)合,就可以優(yōu)化同一模型。

推理

為了反映訓(xùn)練目標,解碼算法也需要在兩種模式之間切換:LM和擴散。

在LM模式中,從預(yù)測分布中逐個token進行采樣。當(dāng)采樣到一個BOI token時,解碼算法切換到擴散模式。

具體來說,這需要將形式為n個圖像塊的純噪聲xT附加到輸入序列中(取決于所需的圖像大?。⒃赥步內(nèi)去噪。

在每一步t中,噪聲會被預(yù)測并使用它生成x_(t?1),然后將其覆蓋在序列中的x_t上。即,模型始終基于噪聲圖像的最后一個時間步進行條件處理,無法關(guān)注之前的時間步。

一旦擴散過程結(jié)束,就將一個EOI token附加到預(yù)測的圖像上,并切換回LM模式。

如此一來,就可以生成任意混合的文本和圖像模態(tài)。

04 實驗

與Chameleon的比較

研究者在不同模型規(guī)模(N)和token計數(shù)(D)下,比較了Transfusion與Chameleon,并使用兩者的組合作為FLOPs(6ND)的代理。

為了簡化和參數(shù)控制,這些實驗中的Transfusion變體使用簡單的線性圖像編碼器/解碼器,塊大小為2×2,以及雙向注意力。

如圖5所示,在每個基準測試中,Transfusion始終表現(xiàn)出比Chameleon更好的scaling law。

受參數(shù)、數(shù)據(jù)和計算控制的不同規(guī)模的Transfusion和Chameleon模型的性能,其中所有軸都是對數(shù)的

表3則顯示了模型的評估結(jié)果,以及平價FLOP比率。

其中,平價FLOP比率用來估算相對計算效率:Transfusion和Chameleon達到相同性能水平所需的FLOPs數(shù)量之比。

計算效率的差異在圖像生成中特別顯著,其中FID Transfusion以1/34的計算量實現(xiàn)了與Chameleon的平價。

最大(7B)Transfusion和Chameleon模型在受控環(huán)境中的性能,兩個模型均在0.5T token上進行訓(xùn)練

令人驚訝的是,純文本基準測試也顯示出Transfusion的更好性能,即使Transfusion和Chameleon以相同方式建模文本。

與原始Llama 2配方相比,0.76B Transfusion和Chameleon模型在純文本基準上的性能

架構(gòu)消融

1)注意力掩碼

表5顯示,在所有基準測試中,啟用這種注意力模式比標準因果注意力效果更好,并且在使用圖像編碼/解碼架構(gòu)時也是如此。特別是,在使用線性編碼層時,F(xiàn)ID的改善最為顯著(61.3→20.3)。

在僅因果的架構(gòu)中,序列中后出現(xiàn)的塊不會向前面的塊傳遞信息;由于U-Net塊內(nèi)含有雙向注意力,并獨立于Transformer的注意力掩碼,因此這種差距不太明顯。

有/無圖像內(nèi)雙向注意力的0.76B Transfusion模型的性能

2)塊大小

Transfusion模型可以在不同尺寸的潛在像素塊上定義。較大的塊大小允許模型在每個訓(xùn)練批次中打包更多圖像,并顯著減少推理計算量,但可能會帶來性能損失。

表6顯示,雖然隨著每個圖像由更少的線性編碼塊表征,性能確實一致下降,但使用U-Net編碼的模型在涉及圖像模態(tài)的任務(wù)中受益于較大的塊。

這可能是因為訓(xùn)練期間看到的總圖像(和擴散噪聲)數(shù)量更大。

此外,隨著塊逐漸變大,文本性能也在變差。

這可能是因為Transfusion需要投入更多資源(即參數(shù))來學(xué)習(xí)如何處理具有較少塊的圖像,從而減少推理計算。

3)塊編碼/解碼架構(gòu)

實驗表明,使用U-Net的上升和下降塊比使用簡單的線性層有優(yōu)勢。

一個可能的原因是模型受益于U-Net架構(gòu)的歸納偏置;另一種假設(shè)是,這種優(yōu)勢來自于U-Net層引入的整體模型參數(shù)的顯著增加。

為了分離這兩個混雜因素,研究者將核心Transformer擴展到70億個參數(shù),同時保持U-Net參數(shù)量(幾乎)不變;在這種設(shè)置下,額外的編碼器/解碼器參數(shù)僅占總模型參數(shù)的3.8%增加,相當(dāng)于token嵌入?yún)?shù)的量。

表7顯示,盡管隨著Transformer的增長,U-Net層的相對優(yōu)勢縮小,但并未消失。

例如,在圖像生成中,U-Net編碼器/解碼器使得較小的模型能夠獲得比使用線性塊化層的70億模型更好的FID分數(shù)。

在圖像描述中,也有類似的趨勢——添加U-Net層讓1.4B Transformer(總計1.67B)的CIDEr得分超過了線性70億模型的性能。

總體而言,U-Net對圖像的編碼和解碼確實具有歸納偏置的優(yōu)勢。

Transfusion的線性和U-Net變體在不同模型大小上的性能

4)圖像加噪

實驗中,80%的圖像-標注對按照標注優(yōu)先的順序排列,圖像依賴于標注,這基于圖像生成可能比圖像理解更需要數(shù)據(jù)的直覺。剩下的20%對則是標注依賴于圖像。

然而,這些圖像需要作為擴散目標的一部分被加噪。

為此,研究者測量了在20%的情況下限制擴散噪聲到最大t=500,即圖像在標注之前出現(xiàn)時的效果。

表8顯示,限制噪聲顯著改善了圖像描述,CIDEr得分顯著提高,同時對其他基準測試的影響相對較?。ㄐ∮?%)。

結(jié)論

這項研究探討了如何彌合離散序列建模(下一個token預(yù)測)與連續(xù)媒體生成(擴散)之間的差距。

研究者提出了一個簡單但以前未被探索的解決方案:在兩個目標上訓(xùn)練一個聯(lián)合模型,將每種模態(tài)與其偏好的目標聯(lián)系起來。

實驗表明,Transfusion可以有效擴展,幾乎沒有參數(shù)共享成本,同時能夠生成任何模態(tài)。

作者介紹

Chunting Zhou

共同一作Chunting Zhou,是Meta AI的研究科學(xué)家,研究興趣是高效且可擴展的生成模型。

她于2022年在卡耐基梅隆大學(xué)計算機科學(xué)學(xué)院的語言技術(shù)研究所獲得博士學(xué)位,從事的是自然語言處理的研究。此前,她于2016年在香港大學(xué)獲得計算機科學(xué)碩士學(xué)位,于2014年在大連理工大學(xué)獲得計算機軟件工程學(xué)士學(xué)位。

Lili Yu

另一位共同一作Lili Yu,也是Meta AI的研究科學(xué)家。

她于2016年在麻省理工學(xué)院獲得電氣工程與計算機科學(xué)博士學(xué)位,于2011年在北京大學(xué)獲得物理學(xué)學(xué)士學(xué)位。

Xuezhe Ma

在這篇論文中,還有一位華人作者Xuezhe Ma,是南加州大學(xué)信息科學(xué)研究所的研究主管和計算機科學(xué)系的研究助理教授。

原則上,表征學(xué)習(xí)可以自動學(xué)習(xí)在數(shù)學(xué)和計算上便于處理的表征。對此Xuezhe Ma認為,基于深度學(xué)習(xí)方法的表征學(xué)習(xí)技術(shù)可以從根本上改變傳統(tǒng)的特征設(shè)計范式。

他的研究重點是通過開發(fā)和分析深度學(xué)習(xí)技術(shù)來實現(xiàn)這一轉(zhuǎn)變,以提高表征學(xué)習(xí)的有效性、效率、可解釋性和魯棒性。

主要貢獻如下:

– 多模態(tài)大語言模型(LLMs)的效率開發(fā)了高效的統(tǒng)一神經(jīng)架構(gòu)和學(xué)習(xí)算法,以學(xué)習(xí)各種數(shù)據(jù)模態(tài)的通用語義空間。

– 大語言模型中的高效且魯棒的長上下文建模開發(fā)了高效且魯棒的架構(gòu)和方法,用于在大語言模型中建模長程依賴關(guān)系。

– 多模態(tài)大語言模型在長序列數(shù)據(jù)中的應(yīng)用和評估方法將長上下文大語言模型應(yīng)用于實際任務(wù),并開發(fā)可靠的評估指標。

他在卡耐基梅隆大學(xué)語言技術(shù)研究所獲得博士學(xué)位,師從Eduard Hovy教授,并在上海交通大學(xué)獲得了計算機科學(xué)碩士和學(xué)士學(xué)位。

參考資料:

https://the-decoder.com/metas-transfusion-blends-language-models-and-image-generation-into-one-unified-model/

https://x.com/violet_zct/status/1826243212530610389

https://x.com/DrJimFan/status/1827116592951652823

編輯:Aeneas 好困

本文由人人都是產(chǎn)品經(jīng)理作者【新智元】,微信公眾號:【新智元】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!