欧美日韩中文字幕专区一二三 ,国产一区二区三区免费公开

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

語言圖像模型大一統(tǒng)！Meta將Transformer和Diffusion融合，多模態(tài)AI王者登場

新智元

2024-08-25

0 評論 2887 瀏覽 5 收藏

30 分鐘

昨天，Meta最新發(fā)布的Transfusion，能夠訓(xùn)練生成文本和圖像的統(tǒng)一模型了！完美融合Transformer和擴散領(lǐng)域之后，語言模型和圖像大一統(tǒng)，又近了一步。也就是說，真正的多模態(tài)AI模型，可能很快就要來了！

Transformer和Diffusion，終于有了一次出色的融合。

自此，語言模型和圖像生成大一統(tǒng)的時代，也就不遠了！

這背后，正是Meta最近發(fā)布的Transfusion——一種訓(xùn)練能夠生成文本和圖像模型的統(tǒng)一方法。

論文地址：https://arxiv.org/abs/2408.11039

英偉達高級科學(xué)家Jim Fan盛贊：之前曾有很多嘗試，去統(tǒng)一Transformer和Diffusion，但都失去了簡潔和優(yōu)雅。

現(xiàn)在，是時候來一次Transfusion，來重新激活這種融合了！

在X上，論文共一Chunting?Zhou，為我們介紹了Transfusion其中的「玄機」。

為何它能讓我們在一個模型中，同時利用兩種方法的優(yōu)勢？

這是因為，Transfusion將語言建模（下一個token預(yù)測）與擴散相結(jié)合，這樣，就可以在混合模態(tài)序列上訓(xùn)練單個Transformer。

研究者從頭開始，在混合文本和圖像數(shù)據(jù)上預(yù)訓(xùn)練了參數(shù)量高達70億的Transfusion模型。

使用文本和圖像數(shù)據(jù)的混合，他們建立了一系列單模態(tài)和跨模態(tài)基準的縮放定律。

實驗表明，Transfusion在單模態(tài)和多模態(tài)基準測試中，相較于對圖像進行量化并在離散圖像token上訓(xùn)練語言模型，很明顯具有更好的擴展性。

研究者發(fā)現(xiàn)，Transfusion能夠生成與相似規(guī)模的擴散模型相媲美的高質(zhì)量圖像，而且，它同時也保持了強大的文本生成能力。

作者強調(diào)，團隊著重做了建模的創(chuàng)新。

首先，全局因果注意力加上每個圖像內(nèi)的雙向注意力，是至關(guān)重要的。

另外，引入模態(tài)特定的編碼和解碼層后，可以提高性能，并且可以將每個圖像壓縮到64甚至16個塊！

總之，研究者成功地證明了，將Transfusion方法擴展到70億參數(shù)和2萬億多模態(tài)token后，可以生成與類似規(guī)模的擴散模型和語言模型相媲美的圖像和文本。

這就充分利用了兩者的優(yōu)勢！

最后，作者激動地暢想道——

Transfusion為真正的多模態(tài)AI模型開啟了激動人心的可能性。

這些模型可以無縫處理任何離散和連續(xù)模態(tài)的組合！無論是長篇視頻生成、與圖像或視頻的交互式編輯/生成會話，我們都可以期待了。

01 生圖效果秒殺DALL-E 2和Stable Diffusion

Transfusion的生圖效果如何？

讓我們來檢驗一下。

以下這些，都是用在2萬億多模態(tài)token上訓(xùn)練的70億參數(shù)Transfusion生成的圖像——

可以看出，它的生圖質(zhì)量非常之高。

在GenEval基準測試上，它直接超越了DALL-E 2和Stable Diffusion XL！

研究者訓(xùn)練了一個具有U-Net編碼/解碼層（2×2潛在像素塊）的70億參數(shù)模型，處理相當(dāng)于2T tokens的數(shù)據(jù)，其中包括1T文本語料庫tokens和35億張圖像及其標注。

表9顯示，Transfusion在性能上與高性能圖像生成模型如DeepFloyd相當(dāng)，同時超越了先前發(fā)布的模型，包括SDXL。

雖然Transfusion在SD 3后面稍顯遜色，但該模型通過反向翻譯利用合成圖像標注，將其GenEval性能在小規(guī)模上提升了6.5%（0.433→0.498）。

此外，Transfusion模型也可以生成文本，并且其性能與在相同文本數(shù)據(jù)分布上訓(xùn)練的Llama模型相當(dāng)。

02 圖像編輯

以下這些，則是用微調(diào)后的70億參數(shù)Transfusion模型編輯的圖像——

研究者使用僅包含8000個公開可用圖像編輯示例的數(shù)據(jù)集對70億參數(shù)模型進行了微調(diào)，其中每個示例包括一個輸入圖像、一個編輯提示詞和一個輸出圖像。

對EmuEdit測試集中隨機示例的人工檢查表明，微調(diào)的Transfusion模型可以按照指示進行圖像編輯。

也就是說，Transfusion模型確實可以適應(yīng)并泛化到新的模態(tài)組合。

03 讓語言和圖像大一統(tǒng)的模型來了

我們都知道，多模態(tài)生成模型需要能夠感知、處理和生成離散元素（如文本或代碼）和連續(xù)元素（例如圖像、音頻和視頻數(shù)據(jù)）。

不過，離散元素和連續(xù)元素，卻很難在同一個模型中大一統(tǒng)起來。

在離散模態(tài)中，是語言模型占主導(dǎo)地位，它靠的是在下一個token預(yù)測目標上訓(xùn)練的。

而在生成連續(xù)模態(tài)上，則是擴散模型及其泛化一直處于最前沿。

有沒有可能將二者相結(jié)合呢？

此前，學(xué)界曾嘗試了多種方法，包括擴展語言模型，以使用擴散模型作為工具，或者通過將預(yù)訓(xùn)練的擴散模型移植到語言模型上。

此外，還有人通過量化連續(xù)模態(tài)，在離散tokens上訓(xùn)練標準語言模型，從而簡化模型架構(gòu)。

然而這樣做的代價，就是信息的丟失。而Meta的研究者在這項工作中，通過訓(xùn)練單個模型，來同時預(yù)測離散文本tokens和擴散連續(xù)圖像，他們成功地做到了完全整合兩種模態(tài)，而不丟失信息。

他們的方法就是——引入Transfusion。

這是一種訓(xùn)練單一統(tǒng)一模型的方法，可以無縫理解和生成離散和連續(xù)的模態(tài)。

研究者的主要創(chuàng)新就在于，他們針對不同的模態(tài)使用了不同的損失——文本使用語言建模，圖像使用擴散——從而在共享的數(shù)據(jù)和參數(shù)上進行訓(xùn)練

研究者在50%的文本和50%的圖像數(shù)據(jù)上預(yù)訓(xùn)練了一個Transformer模型，不過對于兩種模態(tài)來說，分別使用了不同的目標。

前者的目標是，預(yù)測文本的下一個token；而后者的目標，則是圖像的擴散。

在每個訓(xùn)練步驟中，模型都會同時接觸到這兩種模態(tài)和損失函數(shù)。標準嵌入層將文本tokens轉(zhuǎn)換為向量，而塊化層（patchification layer）則將每個圖像表征為一系列塊向量。

隨后，研究者對文本tokens應(yīng)用因果注意力，對圖像塊應(yīng)用雙向注意力。

在推理時，他們引入了一種解碼算法，它結(jié)合了語言模型的文本生成和擴散模型的圖像生成的標準實踐。

從此，有望訓(xùn)練真正的多模態(tài)模型

在文本到圖像生成中，研究者發(fā)現(xiàn)：Transfusion在計算量不到三分之一的情況下，F(xiàn)ID和CLIP分數(shù)均超過了Chameleon的離散化方法。

在控制FLOPs的情況下，Transfusion的FID分數(shù)比Chameleon模型低約2倍。

在圖像到文本生成中，也可以觀察到類似的趨勢：Transfusion在21.8%的FLOPs下與Chameleon匹敵。

令人驚訝的是，Transfusion在學(xué)習(xí)文本到文本預(yù)測方面也更有效，在大約50%到60%的Chameleon FLOPs下實現(xiàn)了文本任務(wù)的困惑度平價。

同時，研究者觀察到：圖像內(nèi)的雙向注意力非常重要，如果用因果注意力替代它，就會損害文本到圖像生成。

他們還發(fā)現(xiàn)，通過添加U-Net上下塊來編碼和解碼圖像，就可以使Transfusion在相對較小的性能損失下，壓縮更大的圖像塊，從而能將服務(wù)成本降低到多達64倍。

最后，研究者證明了：Transfusion可以生成與其他擴散模型相似質(zhì)量的圖像。

他們在2萬億tokens上，從零開始訓(xùn)練了一個7B參數(shù)的Transformer，它增強了U-Net的下采樣/上采樣層（0.27B參數(shù)）。

在這2萬億tokens中，包含1萬億的文本tokens，以及大約5個周期的692M圖像及標注，相當(dāng)于另外1萬億個patches/tokens。

在GenEval基準上，Transfusion模型優(yōu)于其他流行模型，如DALL-E 2和SDXL。

而且，與那些圖像生成模型不同的是，它還可以生成文本，在文本基準上達到了Llama 1級別的性能水平。

總之，實驗表明：Transfusion是一種十分有前途的方法，可以用于訓(xùn)練真正的多模態(tài)模型。

數(shù)據(jù)表征

研究者在兩種模態(tài)上進行了數(shù)據(jù)實驗：離散文本和連續(xù)圖像。

每個文本字符串被標記化為來自固定詞匯表的離散token序列，其中每個token被表征為一個整數(shù)。

每個圖像被編碼為使用VAE的潛在塊，其中每個塊被表征為一個連續(xù)向量；這些塊從左到右、從上到下排序，以從每個圖像創(chuàng)建一個塊向量序列。

對于混合模態(tài)的例子，研究者在將圖像序列插入文本序列之前，用特殊的圖像開始（BOI）和圖像結(jié)束（EOI）token包圍每個圖像序列。

因此，就得到了一個可能同時包含離散元素（表征文本token的整數(shù)）和連續(xù)元素（表征圖像塊的向量）的單一序列。

模型架構(gòu)

模型的大部分參數(shù)屬于一個單一的Transformer，它會處理每個序列，無論模態(tài)如何。

Transformer將一個高維向量序列作為輸入，并生成類似的向量作為輸出。

為了將數(shù)據(jù)轉(zhuǎn)換到這個空間，研究者使用了具有不共享參數(shù)的輕量級模態(tài)組件。

對于文本，這些自己組件是嵌入矩陣，會將每個輸入整數(shù)轉(zhuǎn)換為向量空間，并將每個輸出向量轉(zhuǎn)換為詞匯表上的離散分布。

對于圖像，研究者則嘗試了兩種方法，將k×k塊向量的局部窗口壓縮為單個Transformer向量（反之亦然）：（1）一個簡單的線性層，以及（2）U-Net的上下塊。

研究者使用預(yù)訓(xùn)練的VAE（變分自編碼器）將圖像和潛在表征進行互相轉(zhuǎn)換，然后通過簡單的線性層或U-Net下采樣塊，將其轉(zhuǎn)換為patch表征

Transfusion注意力

語言模型通常使用因果掩碼，來有效地計算整個序列的損失和梯度，只需一次前向-后向傳遞，而不會泄露未來token的信息。

相比之下，圖像通常會使用不受限制的（雙向）注意力來建模。

而Transfusion通過對序列中的每個元素應(yīng)用因果注意力，并在每個單獨圖像的元素內(nèi)應(yīng)用雙向注意力，來結(jié)合這兩種注意力模式。

這樣，每個圖像塊就可以在關(guān)注同一圖像中其他塊的同時，只關(guān)注序列中先前出現(xiàn)的文本或其他圖像的塊。

結(jié)果顯示，啟用圖像內(nèi)注意力顯著提升了模型性能。

在因果掩碼上擴展后，Transfusion就允許同一圖像的patch相互為條件

訓(xùn)練目標

為了訓(xùn)練模型，研究者將語言建模目標LLM應(yīng)用于文本token的預(yù)測，將擴散目標LDDPM應(yīng)用于圖像塊的預(yù)測。

LM損失是逐個token計算的，而擴散損失是逐個圖像計算的，這可能跨越序列中的多個元素（圖像塊）。

具體來說，他們根據(jù)擴散過程，向每個輸入潛在圖像x0添加噪聲ε，以在塊化之前產(chǎn)生xt，然后計算圖像級別的擴散損失。

通過簡單地將每種模態(tài)上計算出的損失與平衡系數(shù)λ結(jié)合，研究者合并了這兩種損失：

這個公式，也是一個更廣泛想法的具體實例：將離散分布損失和連續(xù)分布損失結(jié)合，就可以優(yōu)化同一模型。

推理

為了反映訓(xùn)練目標，解碼算法也需要在兩種模式之間切換：LM和擴散。

在LM模式中，從預(yù)測分布中逐個token進行采樣。當(dāng)采樣到一個BOI token時，解碼算法切換到擴散模式。

具體來說，這需要將形式為n個圖像塊的純噪聲xT附加到輸入序列中（取決于所需的圖像大?。⒃赥步內(nèi)去噪。

在每一步t中，噪聲會被預(yù)測并使用它生成x_(t?1)，然后將其覆蓋在序列中的x_t上。即，模型始終基于噪聲圖像的最后一個時間步進行條件處理，無法關(guān)注之前的時間步。

一旦擴散過程結(jié)束，就將一個EOI token附加到預(yù)測的圖像上，并切換回LM模式。

如此一來，就可以生成任意混合的文本和圖像模態(tài)。

04 實驗

與Chameleon的比較

研究者在不同模型規(guī)模（N）和token計數(shù)（D）下，比較了Transfusion與Chameleon，并使用兩者的組合作為FLOPs（6ND）的代理。

為了簡化和參數(shù)控制，這些實驗中的Transfusion變體使用簡單的線性圖像編碼器/解碼器，塊大小為2×2，以及雙向注意力。

如圖5所示，在每個基準測試中，Transfusion始終表現(xiàn)出比Chameleon更好的scaling law。

受參數(shù)、數(shù)據(jù)和計算控制的不同規(guī)模的Transfusion和Chameleon模型的性能，其中所有軸都是對數(shù)的

表3則顯示了模型的評估結(jié)果，以及平價FLOP比率。

其中，平價FLOP比率用來估算相對計算效率：Transfusion和Chameleon達到相同性能水平所需的FLOPs數(shù)量之比。

計算效率的差異在圖像生成中特別顯著，其中FID Transfusion以1/34的計算量實現(xiàn)了與Chameleon的平價。

最大（7B）Transfusion和Chameleon模型在受控環(huán)境中的性能，兩個模型均在0.5T token上進行訓(xùn)練

令人驚訝的是，純文本基準測試也顯示出Transfusion的更好性能，即使Transfusion和Chameleon以相同方式建模文本。

與原始Llama 2配方相比，0.76B Transfusion和Chameleon模型在純文本基準上的性能

架構(gòu)消融

1）注意力掩碼

表5顯示，在所有基準測試中，啟用這種注意力模式比標準因果注意力效果更好，并且在使用圖像編碼/解碼架構(gòu)時也是如此。特別是，在使用線性編碼層時，F(xiàn)ID的改善最為顯著（61.3→20.3）。

在僅因果的架構(gòu)中，序列中后出現(xiàn)的塊不會向前面的塊傳遞信息；由于U-Net塊內(nèi)含有雙向注意力，并獨立于Transformer的注意力掩碼，因此這種差距不太明顯。

有/無圖像內(nèi)雙向注意力的0.76B Transfusion模型的性能

2）塊大小

Transfusion模型可以在不同尺寸的潛在像素塊上定義。較大的塊大小允許模型在每個訓(xùn)練批次中打包更多圖像，并顯著減少推理計算量，但可能會帶來性能損失。

表6顯示，雖然隨著每個圖像由更少的線性編碼塊表征，性能確實一致下降，但使用U-Net編碼的模型在涉及圖像模態(tài)的任務(wù)中受益于較大的塊。

這可能是因為訓(xùn)練期間看到的總圖像（和擴散噪聲）數(shù)量更大。

此外，隨著塊逐漸變大，文本性能也在變差。

這可能是因為Transfusion需要投入更多資源（即參數(shù)）來學(xué)習(xí)如何處理具有較少塊的圖像，從而減少推理計算。

3）塊編碼/解碼架構(gòu)

實驗表明，使用U-Net的上升和下降塊比使用簡單的線性層有優(yōu)勢。

一個可能的原因是模型受益于U-Net架構(gòu)的歸納偏置；另一種假設(shè)是，這種優(yōu)勢來自于U-Net層引入的整體模型參數(shù)的顯著增加。

為了分離這兩個混雜因素，研究者將核心Transformer擴展到70億個參數(shù)，同時保持U-Net參數(shù)量（幾乎）不變；在這種設(shè)置下，額外的編碼器/解碼器參數(shù)僅占總模型參數(shù)的3.8%增加，相當(dāng)于token嵌入?yún)?shù)的量。

表7顯示，盡管隨著Transformer的增長，U-Net層的相對優(yōu)勢縮小，但并未消失。

例如，在圖像生成中，U-Net編碼器/解碼器使得較小的模型能夠獲得比使用線性塊化層的70億模型更好的FID分數(shù)。

在圖像描述中，也有類似的趨勢——添加U-Net層讓1.4B Transformer（總計1.67B）的CIDEr得分超過了線性70億模型的性能。

總體而言，U-Net對圖像的編碼和解碼確實具有歸納偏置的優(yōu)勢。

Transfusion的線性和U-Net變體在不同模型大小上的性能

4）圖像加噪

實驗中，80%的圖像-標注對按照標注優(yōu)先的順序排列，圖像依賴于標注，這基于圖像生成可能比圖像理解更需要數(shù)據(jù)的直覺。剩下的20%對則是標注依賴于圖像。

然而，這些圖像需要作為擴散目標的一部分被加噪。

為此，研究者測量了在20%的情況下限制擴散噪聲到最大t=500，即圖像在標注之前出現(xiàn)時的效果。

表8顯示，限制噪聲顯著改善了圖像描述，CIDEr得分顯著提高，同時對其他基準測試的影響相對較?。ㄐ∮?%）。

結(jié)論

這項研究探討了如何彌合離散序列建模（下一個token預(yù)測）與連續(xù)媒體生成（擴散）之間的差距。

研究者提出了一個簡單但以前未被探索的解決方案：在兩個目標上訓(xùn)練一個聯(lián)合模型，將每種模態(tài)與其偏好的目標聯(lián)系起來。

實驗表明，Transfusion可以有效擴展，幾乎沒有參數(shù)共享成本，同時能夠生成任何模態(tài)。

作者介紹

Chunting Zhou

共同一作Chunting Zhou，是Meta AI的研究科學(xué)家，研究興趣是高效且可擴展的生成模型。

她于2022年在卡耐基梅隆大學(xué)計算機科學(xué)學(xué)院的語言技術(shù)研究所獲得博士學(xué)位，從事的是自然語言處理的研究。此前，她于2016年在香港大學(xué)獲得計算機科學(xué)碩士學(xué)位，于2014年在大連理工大學(xué)獲得計算機軟件工程學(xué)士學(xué)位。