萬字長(zhǎng)文:產(chǎn)品經(jīng)理視角下的AI繪畫全解析
最近的AIGC浪潮,本質(zhì)來源于兩項(xiàng)技術(shù):一是ChatGPT所代表的GPT、RLHF、Prompt等技術(shù)點(diǎn),另一個(gè)則是AI繪畫背后的Diffusion技術(shù)。本文作者從Diffusion的技術(shù)原理、演進(jìn)方向、商業(yè)落地以及其對(duì)相關(guān)職業(yè)的影響著四個(gè)方面,對(duì)Diffusion技術(shù)進(jìn)行了詳細(xì)的分析,對(duì)AI繪畫感興趣的同學(xué),一定不能錯(cuò)過。
我從1月30日寫系列第一篇的時(shí)候就提過,這一波AIGC浪潮本質(zhì)來源兩項(xiàng)技術(shù):一個(gè)是ChatGPT所代表的GPT、RLHF、Prompt等技術(shù)點(diǎn),另一個(gè)則是AI繪畫背后的Diffusion技術(shù)。
2023年,只看這兩項(xiàng)技術(shù)的影響力(除非有新的技術(shù)突破發(fā)生),其中GPT負(fù)責(zé)文本領(lǐng)域的狂飆,Diffusion負(fù)責(zé)圖像領(lǐng)域的狂飆,兩者合起來才是對(duì)內(nèi)容生產(chǎn)領(lǐng)域完整的沖擊。
那我們接下來我們正式開始,本篇文章講述以下內(nèi)容:
- Diffusion的技術(shù)原理科普(照舊通俗易懂)
- Diffusion演進(jìn)方向(潛力在哪里)
- Diffusion商業(yè)落地分析(附帶分析框架)
- Diffusion對(duì)相關(guān)職業(yè)的影響(附帶分析框架)
一、Diffusion的技術(shù)原理科普
DIffusion(擴(kuò)散算法),這是一種相對(duì)簡(jiǎn)單的自回歸模型。如果說ChatGPT背后代表的LLM大語言模型的技術(shù)驚艷度是10,那么他可能只有5。
但他目前在圖像領(lǐng)域,是當(dāng)之無愧的王者,與文本領(lǐng)域的GPT隔江而治,二分天下。
接下來,我們用一種新的科普方法,請(qǐng)大家跟隨我的思路,去看看這個(gè)令人贊美的系統(tǒng)級(jí)產(chǎn)品是怎么一步步產(chǎn)生,我會(huì)在中間穿插講解每個(gè)技術(shù)概念。
旅程開始之前,我們敲下一個(gè)問題:“如果我要讓AI根據(jù)文字,給我輸出圖片”,都需要什么技術(shù)?
第一步,計(jì)算機(jī)要能夠處理圖像
雖然我們天天在手機(jī)和電腦上看圖片/視頻,但計(jì)算機(jī)的理解和我們可不一樣。他們的理解和人類在不同層次:
第一層,真實(shí)世界,專業(yè)點(diǎn)叫模擬圖片,就是人類看到,觀察到的圖片。
第二層,數(shù)字世界,即圖片的數(shù)字化。我們經(jīng)常聽到的分辨率400*400,就是數(shù)字世界的表達(dá)。這意味著這是一張由1600個(gè)像素構(gòu)成的圖片,每個(gè)像素點(diǎn)用0~255的數(shù)值來表示他的顏色。當(dāng)圖片被數(shù)字化后,計(jì)算機(jī)才能儲(chǔ)存、編輯、理解、計(jì)算它。
例如下面這張圖,右側(cè)的每個(gè)數(shù)字空格,與左側(cè)的每個(gè)像素點(diǎn)對(duì)應(yīng),空格里的數(shù)字則代表那個(gè)像素點(diǎn)的亮度,通過這樣的轉(zhuǎn)換,圖片就被數(shù)字化了。
第二步,計(jì)算機(jī)能夠畫畫
記住這句話:對(duì)計(jì)算機(jī)而言,畫畫是個(gè)數(shù)學(xué)問題,而非藝術(shù)問題。
我們?nèi)祟惍嫯嫶蟾诺捻樞蚴牵何矣袀€(gè)初步想法,然后開始勾勒線條,然后填充色彩。也就是畫家先有個(gè)模糊想法,然后在繪畫過程中,逐步逼近心中的作品。
而計(jì)算機(jī)的繪畫邏輯則不同:他基于人類的命令,進(jìn)行數(shù)學(xué)上的計(jì)算,遵從概率最高的選擇,畫出作品(是的!和GPT一樣,又是在猜概率)。
在AI的眼中,貓不是貓,而是一個(gè)有橢圓輪廓,顏色上黃色、白色、黑色,中間有個(gè)兩個(gè)褐色圓形(眼睛)的東西,就好比下面這些圖。
但事實(shí)上這些圖片是我為了方便你們理解放的,他其實(shí)并不嚴(yán)謹(jǐn)。在計(jì)算機(jī)里,他學(xué)習(xí)到的東西連上面這些黏糊糊一大坨的圖像都還不是,他學(xué)到的就是一串?dāng)?shù)字的分布規(guī)律。
就像下面這張圖一樣,你相信下面這張圖中,綠色點(diǎn)其實(shí)是一張“手繪數(shù)字8”的數(shù)學(xué)表達(dá)嗎?所以我們大概有一種模糊的概念即可,不要強(qiáng)求去想象計(jì)算機(jī)畫畫的過程,那是很難理解的。
第三步,找到一個(gè)合適的算法模型來畫畫
1)Diffusion的前浪們
在整個(gè)AI技術(shù)的發(fā)展過程中,針對(duì)“學(xué)習(xí)圖像規(guī)律分布然后生成圖像”這件事情上,涌現(xiàn)出了許多模型,例如GAN,VAE,normalizing flow等,但他們都有著這樣那樣的缺點(diǎn),最終被Diffusion打敗。
以GAN為例子,這是Diffusion技術(shù)出現(xiàn)前,圖像領(lǐng)域最火熱的模型選擇。
GAN(Generative adversarial network,生成對(duì)抗網(wǎng)絡(luò)),他的邏輯很簡(jiǎn)單:我訓(xùn)練兩個(gè)模型,一個(gè)叫生成器(打工仔),專門負(fù)責(zé)畫圖,一個(gè)叫判別器(老板),專門負(fù)責(zé)評(píng)審生成器畫的圖到底好不好。
如果生成器畫得好呢,判別器就給他發(fā)獎(jiǎng)金,如果畫得不好,判別器就給他一巴掌。
于是生成器為了賺獎(jiǎng)金,少挨巴掌,他就會(huì)努力畫得更好(努力工作),但同時(shí)還會(huì)努力嘗試騙過判別器,讓他以為自己畫得好(摸魚)。
而判別器則反過來,他會(huì)不斷提高自己對(duì)生產(chǎn)器產(chǎn)出的判斷能力,只獎(jiǎng)勵(lì)真正好的,強(qiáng)烈打擊不好的(老板的KPI審核)。
他們之間的關(guān)系就像銀行制造真幣的和犯罪團(tuán)伙制造假幣一樣,相愛相殺,共同推動(dòng)印鈔防偽技術(shù)提升。
但是GAN存在著若干問題:
首先,這種雙核成長(zhǎng)不是那么穩(wěn)定的,有時(shí)候甲方壓倒乙方,有時(shí)候乙方壓倒甲方,一旦發(fā)生這種情況,整個(gè)模型就會(huì)崩潰。
其次,他的判別器負(fù)責(zé)教育生成器好好作畫,那么對(duì)使用的圖片質(zhì)量要求就很高,不然老師自己都錯(cuò)了,對(duì)學(xué)生的教育就更加無從說起。
最后,生成器也有問題,他特別怕挨打,所以生成圖片是極其保守的,遵循的就是少做少錯(cuò)原則。所以你永遠(yuǎn)無法期待他畫出一個(gè)戴著鮮花組成的眼睛的小女孩(只要你的訓(xùn)練集中沒有類似圖片)。
而VAE和normalizing flow也一樣存在問題。
VAE的核心機(jī)制中,需要定義一個(gè)真實(shí)后驗(yàn)的值,但偏偏這個(gè)值是不可達(dá)的,只能用變分后驗(yàn)來逼近他。重點(diǎn)就是這個(gè)變分后驗(yàn)非常麻煩。
normalizing flow 的核心機(jī)制則要求模型是可逆函數(shù)(例如y=x+1可逆,因?yàn)閥=2,那么x一定是1,而y=x2不可逆,因?yàn)閥=4的時(shí)候,x可能是-2/+2)。
這讓他在選擇模型的時(shí)候往往不能用最好的模型,因?yàn)橐恍┖玫膱D像神經(jīng)網(wǎng)絡(luò)是不可逆的。這就讓他在畫畫的時(shí)候,在圖像的表達(dá)上存在弱點(diǎn)。
好吧,方法很多,但好像都有些毛病,怎么辦法呢?
2)新生代力量Diffusion閃亮登場(chǎng)
Diffusion的原理表面上理解很簡(jiǎn)單(數(shù)學(xué)推導(dǎo)則非常復(fù)雜,我也看不懂):
- 前向擴(kuò)散(Forward Diffusion Process),就是下圖中的上半截,我們將用于訓(xùn)練的數(shù)據(jù),隨機(jī)添加噪點(diǎn),一遍遍地添加,直到他變成一張全是噪點(diǎn)的圖片。
- 反向擴(kuò)散(Reverse Diffusion Process),就是下圖中的下半截,我們讓模型將這張全是噪點(diǎn)的圖片,給我還原成一張清晰的圖。
AI模型需要在這個(gè)加噪點(diǎn)去噪點(diǎn)的過程中,學(xué)習(xí)到繪畫的方法。哈哈哈是不是非常不可思議,沒關(guān)系,往下看詳細(xì)介紹。
在這個(gè)過程中,AI模型的訓(xùn)練原理如下,我標(biāo)了一二三四步,大家跟隨我的一起看下方的詳細(xì)解釋。
①第一步,我們隨機(jī)挑選一個(gè)噪點(diǎn)程度,順便把這個(gè)程度數(shù)字化(向量化)。
②第二步,隨機(jī)到的結(jié)果是噪點(diǎn)程度T=14。我們就給這張照片加上對(duì)應(yīng)程度的噪點(diǎn),讓他糊掉(必須糊成14的程度)。
③第三步,把噪點(diǎn)程度的向量+模糊的圖片一起放進(jìn)神經(jīng)網(wǎng)絡(luò),這個(gè)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程和上面相反,上面是我怎么加噪點(diǎn)讓他變成糊圖,而他學(xué)習(xí)我怎么去除噪點(diǎn)才能讓他變成美圖。
④第四步,學(xué)習(xí)的過程中會(huì)讓模型預(yù)測(cè)出我要去除的噪點(diǎn)(noise)是多少的。與此同時(shí)我們是知道真正要去除的噪點(diǎn)值是多少(畢竟是第一步,第二步中這個(gè)噪點(diǎn)是我們自己添加的)。所以AI的預(yù)測(cè)噪點(diǎn)值就可以去和真實(shí)噪點(diǎn)值比較,這個(gè)差值就是loss了,你可以理解為模型預(yù)測(cè)的偏差。
⑤循環(huán)訓(xùn)練,在剛開始訓(xùn)練的時(shí)候,loss是非常大的,但是我們的訓(xùn)練目標(biāo)就是讓loss變小,無限逼近于0。當(dāng)loss成功變得非常小時(shí),我們就成功了,模型后面每一次去做預(yù)測(cè),都能非常準(zhǔn)確。
當(dāng)模型訓(xùn)練完成后,你下命令讓他畫畫的時(shí)候,他就只會(huì)執(zhí)行反向擴(kuò)散過程了,即找出一張全是噪點(diǎn)的畫,然后一步步去除噪點(diǎn),直到生成作品。整個(gè)過程就像下面這張圖一樣。
From《Denoising Diffusion Probabilistic Model》
p.s 使用過AI繪畫工具的朋友可能對(duì)里面的“步長(zhǎng)”選項(xiàng)有印象,這個(gè)步長(zhǎng)其實(shí)就是到底要求AI繪畫預(yù)測(cè)多少次再出圖。
理論上步長(zhǎng)越長(zhǎng),圖像就越不糊(去的噪點(diǎn)多了),質(zhì)量也會(huì)越好(預(yù)測(cè)很多次,更準(zhǔn)了)。
第四步,讓計(jì)算機(jī)可以根據(jù)文字畫畫
在前面的步驟中,我們解決的只是“讓計(jì)算機(jī)畫畫”,我們現(xiàn)在進(jìn)一步解決“讓計(jì)算機(jī)根據(jù)文字畫畫”。
我們首先面臨的第一個(gè)問題是,計(jì)算機(jī)怎么知道文字和圖片之間的關(guān)系呢?
比如下面這張圖,我們一看就知道是牛油果,但計(jì)算機(jī)怎么知道這堆綠中帶黃的東西是牛油果呢?
在這里我們?cè)俅斡龅轿覀兊睦吓笥?strong>OpenAI同學(xué)。他在2021年1月開源了CLIP(Contrastive Language-Image Pre-Training)。這個(gè)模型用了40億的“文本-圖像”數(shù)據(jù)來訓(xùn)練,確保計(jì)算機(jī)在文字描述和圖像之間形成互通。
大家如果好奇這些訓(xùn)練數(shù)據(jù)長(zhǎng)啥樣,不妨稍微往上拖一拖看看牛油果。每張圖片下會(huì)有這張圖片的描述,這就是文本-圖像對(duì)數(shù)據(jù)。
他的訓(xùn)練過程我就不多說了,和前面Diffusion的訓(xùn)練過程很像,AI的核心原理都是這樣——你預(yù)測(cè)一個(gè)結(jié)果,我手里握著真實(shí)結(jié)果,那么這之間就會(huì)產(chǎn)生一個(gè)loss(偏差)。訓(xùn)練的過程就是讓這個(gè)偏差不斷變小,到最后AI每次預(yù)測(cè)結(jié)果就與真實(shí)結(jié)果幾乎一致。
話歸正題,OpenAI的這次開源,提供了一條多模態(tài)通道,讓“以文生圖”的效果得到進(jìn)一步提升(以前不是沒有類似的模型,但沒有這個(gè)效果好)。
現(xiàn)在,當(dāng)我們說“畫一個(gè)牛油果椅子”,計(jì)算機(jī)就會(huì)將這句話通過CLIP轉(zhuǎn)換成向量。并且,這個(gè)向量同時(shí)也是圖像的向量,因?yàn)镃LIP模型已經(jīng)把圖文拉到同一個(gè)維度上來理解了。
這就是讓計(jì)算機(jī)根據(jù)文字畫畫的關(guān)鍵模塊CLIP,他把文字表達(dá)與圖片表達(dá)拉到一個(gè)維度上,使得文字Prompt能夠進(jìn)入Diffusion模型中,去約束圖片的生成過程。
另外科普一個(gè)小知識(shí)點(diǎn),當(dāng)AI自己亂畫,叫做“無條件圖片生成任務(wù)”,當(dāng)AI遵循我們的命令畫畫,叫“有條件圖片生成任務(wù)”。文字是其中一種條件,除此以外還有音頻(看音樂畫圖),圖像(看圖畫圖),姿勢(shì),結(jié)構(gòu)等等。
第五步,計(jì)算機(jī)根據(jù)文字“快速地”畫畫
但這些還不夠,否則AI繪畫的爆火就不會(huì)從22年年初拖到22年7月了。
這是因?yàn)镈iffusion雖然解決了GAN、VAE等其他圖像模型的缺點(diǎn),但他在誕生之初,其實(shí)也存在一個(gè)缺點(diǎn):他的計(jì)算速度非常慢,出一次圖動(dòng)不動(dòng)就是一個(gè)小時(shí)以上,很難全面推廣。
這是Diffusion的工作原理造成的,因?yàn)樗鰣D的時(shí)候,其實(shí)就是對(duì)著一張充滿噪點(diǎn)的圖反復(fù)去噪,這個(gè)過程不是一步到位的,可能要執(zhí)行成千上萬次,這就導(dǎo)致出圖速度非常慢。
為此學(xué)術(shù)界做了非常多的努力,但最爆炸的成果來自EleutherAI團(tuán)隊(duì)所開源的Stable Diffusion。
他的解決點(diǎn)非常巧妙。大家還記得我們?cè)诘谝徊教岬降恼鎸?shí)世界→數(shù)字世界嗎?事實(shí)上還有更深一層的世界——隱空間(latent space)。
這個(gè)概念在AI中非常重要,因?yàn)樗苓M(jìn)一步壓縮數(shù)據(jù)量級(jí),讓機(jī)器的訓(xùn)練、預(yù)測(cè)速度提升。比如有一張圖片他的像素是512*512=262144個(gè)像素點(diǎn)?,F(xiàn)在我在不丟失重要信息的前提下,把他拉到64*64的隱空間,那么復(fù)雜度僅有64*64=4096,是原來的1.5%!
那這個(gè)隱空間的原理是什么呢?請(qǐng)看下圖的例子:
左右兩張圖片明明信息量差異巨大,但是我們看到右圖卻立馬明白是什么意思(如果你不明白可以百度一下“我全都要是什么?!保?/p>
而隱空間(latent space)也是同樣的思想,他會(huì)通過一些工具,對(duì)像素世界中的信息進(jìn)行選擇,只留下高質(zhì)量、有價(jià)值的信息,而其余信息全部丟棄。在這種思想下,因?yàn)樾畔⒘考?jí)降低了,所以計(jì)算效率大大提升,但又不會(huì)丟失重要信息。
到了這里,我們終于湊齊了七龍珠,可以召喚神龍了!
大家結(jié)合我的步驟解釋和下面這張圖,一起來感受一下完整版Diffusion的工作原理:
①第一步,把像素級(jí)別的圖片拉到隱空間(減少計(jì)算量)
②第二步,進(jìn)行正向擴(kuò)散,給圖像加噪聲(搞一張糊圖出來)
③第三步,把Prompt”一個(gè)牛油果椅子”轉(zhuǎn)換成向量,一起參與到這個(gè)過程中
④第四步,進(jìn)行反向擴(kuò)散,讓U-net神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)如何正確預(yù)測(cè)要去除的噪點(diǎn),這一步會(huì)持續(xù)反復(fù),直到U-net訓(xùn)練成功
⑤第五步,預(yù)測(cè)結(jié)束后,把圖片從隱空間拉回像素空間,成為人類所能理解的圖片
整個(gè)過程一環(huán)扣一環(huán),所以我們可以發(fā)現(xiàn),雖然核心是Diffusion技術(shù),但CLIP、隱空間的應(yīng)用也都非常重要,所有加起來才推動(dòng)了AI繪畫的爆火出圈。
二、Diffusion的的演進(jìn)方向和潛力
這一部分我會(huì)列舉目前比較主流的方向,作為技術(shù)篇的補(bǔ)充,但不會(huì)有太多的技術(shù)解釋。
大家在理解基本原理的前提下,大概了解一下技術(shù)的變化趨勢(shì),避免將思維局限在當(dāng)前的AI繪畫形態(tài)上,影響對(duì)行業(yè)的商業(yè)判斷。
p.s 我并未每個(gè)方向都非常仔細(xì)的去搜集數(shù)據(jù),部分方向可能存在偏差,僅供參考。
1)可控生成
這是目前學(xué)術(shù)界發(fā)力最多的方向。
有體驗(yàn)過AI繪畫的同學(xué)應(yīng)該能理解這種煩惱:這張圖還不錯(cuò),但是偏偏某個(gè)細(xì)節(jié)差了點(diǎn),我又沒能力弄下來重新畫,只能不停刷新,期望撞大運(yùn)遇到完美的。
怎么解決呢?我們可以只替換出錯(cuò)的部分嗎?當(dāng)然沒問題!
例如下面這張圖,我對(duì)貓咪騎的單車不滿意,我想換成小車,行不行呢?可以的,Prompt的過程中鎖定原圖,替換一下這個(gè)單詞就行——這就是語義替換。
From《Prompt-to-Prompt Image Editing with Cross Attention Control》
這是怎么做到的呢?大家稍微往前回憶一點(diǎn),我們說到讓計(jì)算機(jī)根據(jù)文字生成圖片,很關(guān)鍵的一個(gè)模塊是CLIP來實(shí)現(xiàn)這種文本-圖像的跨模態(tài)轉(zhuǎn)化。并且文字Prompt還會(huì)持續(xù)約束著Diffusion的去噪過程。而這種可控生成其實(shí)就是在這里進(jìn)行微操,從而實(shí)現(xiàn)類似的效果。
大家要特別關(guān)注下圖中的右側(cè)的Condition模塊,他就是我們給Diffusion輸入的條件,這里的條件可以是文字,圖片、音頻、空間結(jié)構(gòu)等等,只是我們目前比較熟悉的應(yīng)用是文字而已。
除此以外,你甚至可以文字+圖兩種條件一起上,一起來看看有趣的例子:
①文字+參考圖,按照線框布局生成圖片
②文字+參考圖,限定邊界生成
③文字+參考圖,模仿人物姿勢(shì)生成
2)加速采樣(降低成本)
這方面非常好理解,不管是Diffusion的模型訓(xùn)練過程,還是上線后的預(yù)測(cè)(出圖)過程,反向去除噪點(diǎn)都是一步步去除的。
這種逐步去噪是保證效果穩(wěn)定的原因之一,但也制約Diffusion的性能成本。
而加速采用就是能夠解決這個(gè)問題的方法之一,他大概做的事情就是——你要去除1000步才有好效果?我給你直接干到50步!
所以大家會(huì)發(fā)現(xiàn),在去年底還有Stock AI倒閉的新聞,到今年就沒有任何一家AI繪畫公司出問題了。像意間、PAI這樣的公司,靠廣告收益+訂閱其實(shí)也活下來了(至少不會(huì)盈虧失衡)。
3)更高的圖片質(zhì)量
如果讀者中有從去年7月以來一直持續(xù)使用的朋友,會(huì)發(fā)現(xiàn)AI的產(chǎn)出質(zhì)量越來越高。
拋開模型升級(jí)的原因不提,很大一部分提升來自更優(yōu)質(zhì)的訓(xùn)練數(shù)據(jù)。
這里面一方面來自用戶的作品產(chǎn)出,當(dāng)AI作品被下載,甚至上傳到作品集市,那么相當(dāng)于制作了一個(gè)正樣本——這是好圖,AI你快拿去學(xué)習(xí)。
此外,一些二維碼驗(yàn)證,也在做這方面的數(shù)據(jù)積累。例如下圖,模模糊糊,很明顯是Diffusion去噪過程的中間產(chǎn)物。
來自Discord的驗(yàn)證碼
最后,一些公司已經(jīng)在做專門的定向微調(diào)優(yōu)化了。目前大家感受到的可能是AI繪畫工具上多出了不同繪畫風(fēng)格可選,例如蒸汽朋克、中國(guó)畫、水墨、動(dòng)漫等等。
但我更期待的是是否有一些正在進(jìn)行的垂直商用的圖集訓(xùn)練。例如給他灌入海量LOGO數(shù)據(jù),他在LOGO設(shè)計(jì)方面就會(huì)顯著提升,這將有助于AI繪畫真正踏入商用領(lǐng)域。
4)更強(qiáng)的語義理解(文本-圖像)
目前體驗(yàn)上另一個(gè)卡點(diǎn)是,有時(shí)候AI不是畫不出來,他是不知道我要什么。我明明說要一只粉紅色的老虎,但他可能以為是粉紅色背景+老虎。這方面的難題就需要靠語義理解去處理。
比如前面提到的CLIP,用40億文本-圖像數(shù)據(jù)訓(xùn)練出來的。如果我們用一個(gè)更強(qiáng)大的模型去替代它,就能夠提升繪畫過程中的語義準(zhǔn)確性(其實(shí)我之前看到新聞?dòng)幸粋€(gè)比CLIP更強(qiáng)的跨模態(tài)模型出現(xiàn)了,但是很抱歉沒找到當(dāng)初的資料,所以這里列不出例子)。
又比如你干脆用ChatGPT來橋接到AI繪畫上,這也是一種加強(qiáng)語義理解的方式。當(dāng)然這需要ChatGPT一起配合,目前ChatGPT的知識(shí)中應(yīng)該還沒有Prompt怎么寫更合適的知識(shí)。
5)多模態(tài)的發(fā)展
Diffusion的應(yīng)用正在擴(kuò)展到音頻、視頻、3D領(lǐng)域,但暫時(shí)只是一種趨勢(shì),落地商用的demo比較少。我這里放幾個(gè)圖和鏈接給大家參考一下:
視頻通過這個(gè)鏈接前往查看https://video-diffusion.github.io/。畢竟視頻類的demo,不親自去看,只看我這里貼圖是感受不到的。
3D建模(點(diǎn)云圖)的效果可以看看下面這張圖:
From 《Diffusion Probabilistic Models for 3D Point Cloud Generation》
讀到這里,我們技術(shù)篇的科普+潛力介紹就結(jié)束了。
不知道你看到這里是否會(huì)認(rèn)同我一直說的話——真正的AIGC浪潮,就從GPT和Diffusion兩條技術(shù)棧開始,其他掛羊排賣狗肉的暫時(shí)得靠邊站。
ChatGPT的魅力我已經(jīng)帶大家領(lǐng)略過了,相信Diffusion的魅力盡管弱一些,但也不會(huì)差到哪里去。
并且不管GPT 大語言模型的威力如何強(qiáng)大,他未來是否真的可以跨越多模態(tài)降臨到圖像、音頻等多模態(tài)(我在前文提過這種發(fā)展方向)。
但至少在2023年這個(gè)節(jié)點(diǎn),圖像領(lǐng)域的王仍然是Diffusion。畢竟提前半年啟動(dòng)的數(shù)據(jù)飛輪和學(xué)術(shù)界數(shù)以百計(jì)的paper努力不是白費(fèi)的。
三、Diffusion的商業(yè)分析
如果想看具體的場(chǎng)景、項(xiàng)目盤點(diǎn),可以在公眾號(hào)follow這個(gè)商業(yè)項(xiàng)目庫,本文中不會(huì)有針對(duì)具體項(xiàng)目的分析。
本文中嘗試的是,我日常維護(hù)更新項(xiàng)目時(shí),所用的分析框架和方法,詳情如下:
- 需求明確性,需求越明確越無法忍受AI的自由創(chuàng)作,也越需要人類介入校正;
- 市場(chǎng)規(guī)模,由作品價(jià)值X需求規(guī)模影響;
- 分析框架,將需求明確性、市場(chǎng)規(guī)模組成二維矩陣;
- 限制因素,補(bǔ)充法律版權(quán)、敏感審核這兩個(gè)限制因素作為參考;
- 一點(diǎn)淺薄的判斷,關(guān)于這個(gè)市場(chǎng)會(huì)往哪個(gè)方向發(fā)展。
1. 需求明確性
需求的明確性受到兩方面影響:
1)是否能夠想清楚要什么
多少人/多少場(chǎng)景在創(chuàng)作之前就已經(jīng)明確知道最后落地作品的樣子?
事實(shí)上甲方提需求的時(shí)候,通常都是朦朧不定的,因?yàn)樗齻冃闹兄挥幸粋€(gè)概念。并不是所有人都能做到文與可的“胸有成竹”。
2)是否能夠說清楚要什么
一方面因?yàn)閳D像需求的朦朧性,他的表達(dá)本身就很有困難。例如“我要一個(gè)奢華、有格調(diào)、符合品牌調(diào)性的海報(bào)”,這其實(shí)就是朦朧需求帶來的表達(dá)模糊。
而另一方面是需求方能力限制下的表達(dá)模糊。比如夢(mèng)到了一副作品,那個(gè)藍(lán)色是天青藍(lán)還是蝴蝶蘭呢?那個(gè)畫風(fēng)是印象派還是后現(xiàn)代呢?飽和度是高,還是低呢?
很難,非常難,這也是畫師朋友在以前最核心的技能之一。他們?cè)趦?nèi)心通過自己的審美水平建立起了感性-現(xiàn)實(shí)之間的通道,并最終通過自己的技藝實(shí)現(xiàn)作品的落地。
基于上述兩個(gè)因素組合起來的需求明確性從低到高是這樣子的:
①無條件創(chuàng)作
這就是Diffusion不加入CLIP的樣子,即你給我生成一張作品,但我毫無要求,只要是作品就行。在現(xiàn)實(shí)中,這場(chǎng)場(chǎng)景的例子非常少,NFT可能算一個(gè)(只要漂亮、有藝術(shù)感就可以賣錢,不用你命題作文)。
②方向條件創(chuàng)作
給你一個(gè)方向,例如畫一張類似莫奈的畫,畫一只可愛的貓。這個(gè)場(chǎng)景就是現(xiàn)在AI繪畫目前所完美匹配的場(chǎng)景。他適用于低要求的創(chuàng)作,例如社交貨幣獲取,AI繪畫平臺(tái)作品填充,文章插圖等。
③限制條件創(chuàng)作
商業(yè)上的例子會(huì)特別常見:幫我畫一個(gè)LOGO,科技風(fēng),里面一定要有潮汕牛肉丸幾個(gè)字,整體色調(diào)藍(lán)色。
這個(gè)例子中限定了LOGO,科技風(fēng),包含文字,色調(diào)等好幾個(gè)條件,遠(yuǎn)高于上個(gè)層次的要求。
目前技術(shù)正在逐漸、部分地滿足這個(gè)層次的需求。
④完全條件創(chuàng)作
上個(gè)層次中條件完全窮舉后即到達(dá)這個(gè)層次,例如潮汕牛肉丸要在上面,要用襯體字,必須象形寫意等等,甲方爸爸想要怎么調(diào)整就怎么調(diào)整。
目前來看,短期內(nèi)AI不可能是不可能實(shí)現(xiàn)完全條件下的創(chuàng)作實(shí)現(xiàn),一定需要靠人類畫師借助工具進(jìn)行二次修改實(shí)現(xiàn)。
2. 市場(chǎng)規(guī)模
1)單個(gè)作品的價(jià)值
這里的價(jià)值不是使用價(jià)值,就是交換價(jià)值,你可以用“價(jià)格”來替代理解。在AI技術(shù)的低成本碾壓下,作品的價(jià)值肯定會(huì)產(chǎn)生斷崖式下跌,但需求明確性更高的作品,會(huì)具備更高的抗貶值屬性。
2)作品的需求規(guī)模
即這種類別的商品,有多大的需求空間。例如插畫,原本用在故事繪本、日系輕小說等地方。而現(xiàn)在因?yàn)榧夹g(shù)門檻降低,作品價(jià)值下跌,國(guó)內(nèi)的網(wǎng)文,人物立繪,同人作品等場(chǎng)景也會(huì)產(chǎn)生需求,推動(dòng)整體需求規(guī)模的爆發(fā)。
上述兩者綜合起來就是市場(chǎng)規(guī)模,目前來看基本的方向是價(jià)值下跌,但規(guī)模擴(kuò)張,從而迎來整體市場(chǎng)規(guī)模的擴(kuò)展。
3. 分析框架組裝
通過這兩個(gè)維度的理解,我們可以在腦中建立如下圖所示的模型,對(duì)每個(gè)接觸到的商業(yè)機(jī)會(huì)進(jìn)行判斷。
大家可以發(fā)現(xiàn)整個(gè)圖向著右上角蔓延,需求明確性和市場(chǎng)規(guī)模在這個(gè)框架分析下呈現(xiàn)正比例關(guān)系。
但這種關(guān)系可能是一種錯(cuò)判,因?yàn)槠渲械氖袌?chǎng)規(guī)模未客觀測(cè)算,收集的方向也不足夠。
因此本圖僅供參考,無法作為知識(shí)輸入,更好的用法是套用這個(gè)框架看看各類投研公司出具的分析報(bào)告。
4. 限制因素
Diffusion的限制因素會(huì)比ChatGPT簡(jiǎn)單很多,主要圍繞法律版權(quán)和敏感審核兩方面。
1)法律版權(quán)
概念上可以分為訓(xùn)練所用圖集版權(quán)+用戶生成圖片版權(quán)兩大類。目前存在大量的爭(zhēng)議,沒有明確結(jié)論。
①模型的輸入:訓(xùn)練圖集版權(quán)
目前Diffusion原始的訓(xùn)練圖集來自Laion(一家非營(yíng)利性機(jī)構(gòu))在22年3月開源的Laion-5B(包含58.3億文本-圖像對(duì))。其中最關(guān)鍵的是這個(gè)數(shù)據(jù)集中的一個(gè)子集,LAION-Aesthetics。他按照藝術(shù)性美感,對(duì)圖片進(jìn)行打分,其中8分以上800萬張,7分以上1.2億張。
但可想而知,這么大規(guī)模的一個(gè)數(shù)據(jù)集,肯定不全都是具備商用版權(quán)的。但目前幾乎難以對(duì)這方面進(jìn)行追溯定義,相關(guān)的討論非常混亂。
他面臨的本質(zhì)問題是:對(duì)圖像的版權(quán)定義過時(shí)了。AI模型的做法并非像素級(jí)復(fù)制,甚至非局部復(fù)制,而是復(fù)制風(fēng)格、手法、要素等。這種手法有點(diǎn)像媒體界中流行的“洗稿”,幾乎無法被追溯版權(quán)問題。
所以雖然畫家中的抗議聲音非常大,在這方面卻無法產(chǎn)生太大的影響。
日本畫家對(duì)mimic的抗議
②模型的輸出:生成作品的版權(quán)
目前有一些平臺(tái)采用附加NFT的做法來保障用戶生成作品的版權(quán)。但同樣的,在法律層面目前沒有明確的定義。
如英國(guó),盡管是少數(shù)支持AI生成作品版權(quán)的國(guó)家之一,他對(duì)AI生成作品也有著模糊的前置限定——“完成作品創(chuàng)作所需安排的人”。這個(gè)所需的人,就很有意思了,寫幾句Prompt算所需的人嗎?好像可以算也可以不算。
再例如國(guó)內(nèi),相關(guān)的著作權(quán)法中描述,“著作權(quán)法所稱作品是指文學(xué)、藝術(shù)和科學(xué)領(lǐng)域內(nèi)具有獨(dú)創(chuàng)性并能以某種有形形式復(fù)制的智力成果”。因此AI肯定不擁有作品的著作權(quán)。
再看這條:“我國(guó)著作權(quán)法第十一條規(guī)定,著作權(quán)屬于作者,受到著作權(quán)保護(hù)的作者只有兩種:“自然人和法人或非法人組織”。那么這個(gè)作者是Prompt輸入者還是開發(fā)AI模型的公司呢?
我能找到唯一相關(guān)的判例來自2020年,騰訊的dreamwriter寫作的財(cái)經(jīng)新聞被復(fù)制轉(zhuǎn)載,騰訊提起訴訟并勝訴,獲賠1500元。但這則判例中沒有用戶+公司這種復(fù)雜情況,只有一點(diǎn)點(diǎn)參考意義。
2)敏感審核
審核主要來自輸入端(Prompt)和輸出端(出圖前審核)。
Prompt部分比較簡(jiǎn)單,上個(gè)詞庫+小模型就能解決,比較成熟了。
輸出端則會(huì)比較承壓,畢竟色情和性感,調(diào)侃和涉政,其實(shí)邊界還挺模糊的。常規(guī)平臺(tái)做法一般都是模型+人工雙保障。但AI繪畫平臺(tái)目前的收益很難承受得起這種人工審核的成本,所以輸出端的控制會(huì)松一些。
目前比較主流的方式是通過用戶協(xié)議進(jìn)行責(zé)任約定,如下圖:
From 某AI繪畫平臺(tái) 免責(zé)聲明
5. 一些淺薄的判斷
1)AI繪畫會(huì)迅速?gòu)哪壳暗姆较騽?chuàng)作領(lǐng)域展開,進(jìn)入條件創(chuàng)作領(lǐng)域。這些條件不僅僅是風(fēng)格的選擇,還可能涉及語義修改,圖像風(fēng)格保持,核心語義保持,指定方向繪畫(按姿勢(shì)、按結(jié)構(gòu))等。
2)由于上一點(diǎn),會(huì)導(dǎo)致2B的場(chǎng)景蓬勃發(fā)展,因?yàn)锽端場(chǎng)景一直以來需求明確性都是高于C端場(chǎng)景的,同時(shí)其市場(chǎng)規(guī)模也會(huì)大于C端娛樂化的無條件或方向創(chuàng)作場(chǎng)景。
3)由于上一點(diǎn),2B場(chǎng)景的擴(kuò)展會(huì)導(dǎo)致細(xì)分領(lǐng)域越來越多,部分擁有獨(dú)特圖像數(shù)據(jù)資源的公司會(huì)下場(chǎng)進(jìn)行垂直方向的調(diào)優(yōu),玩家數(shù)量會(huì)進(jìn)一步增多。
4)由于上一點(diǎn),玩家數(shù)量增多導(dǎo)致上下游產(chǎn)業(yè)鏈進(jìn)一步發(fā)展,綜合性AI繪畫開放平臺(tái)是一個(gè)有意思的賽道。
5)由于上述觀點(diǎn),蓬勃旺盛需求與AI不可控現(xiàn)之間的沖突,會(huì)導(dǎo)致工具整合成為主流,即AI不可控技術(shù)+可控修改技術(shù)的整合平臺(tái)成為潮流。任何AI技術(shù)側(cè)都會(huì)集成修改技術(shù),而修改技術(shù)的傳統(tǒng)公司(如PS)也會(huì)集成AI技術(shù)。畫師從業(yè)者未來的操作平臺(tái)一定是綜合平臺(tái)。
6)由于上一點(diǎn),AI繪畫的一個(gè)可預(yù)見的技術(shù)卡點(diǎn)是PNG轉(zhuǎn)可編輯格式——即出圖直接可修改。這個(gè)技術(shù)卡點(diǎn)我不太了解,不知道是否有可能解決。
如果預(yù)測(cè)錯(cuò)誤,要么某個(gè)作出判斷的知識(shí)點(diǎn)出錯(cuò)了,要么整個(gè)思考的框架出錯(cuò)了,都值得期待。
四、Diffusion對(duì)相關(guān)職業(yè)的影響
上一次對(duì)畫師的顛覆是電腦發(fā)明的時(shí)候——手工畫師逐步減少,并被數(shù)字畫師替代。手工作品成為了象征品位的小眾商品,就如同手工模型之于工業(yè)產(chǎn)品一樣。
我和身邊的很多畫師或者設(shè)計(jì)朋友聊過這個(gè)事情,發(fā)現(xiàn)大部分朋友都屬于樂觀精神態(tài)度,沒有我一開始想象的悲觀(可能是我的朋友都比較厲害的緣故?不太懂這個(gè)行業(yè)哈哈)。
要開始這個(gè)命題,我們要重新把目光投回商業(yè)篇中。商業(yè)篇給出了兩個(gè)重要的概念:需求明確性,市場(chǎng)規(guī)模。
我們這里再延伸出兩個(gè)概念:畫師舒適區(qū),新增市場(chǎng)潛力區(qū)。
1)畫師舒適區(qū)
來自于技術(shù)上可控性的演進(jìn),他會(huì)逐步往右退縮。但目前而言,Diffusion仍然在可控性方面做持續(xù)努力,這種努力短期內(nèi)看來不可能觸達(dá)完全限制領(lǐng)域(部分場(chǎng)景可能可以)。
所以畫師的審美、感性語言-藝術(shù)作品的轉(zhuǎn)化能力、對(duì)圖片二次修正的技藝等能力其實(shí)會(huì)保持很長(zhǎng)一段時(shí)間的價(jià)值。
2)市場(chǎng)潛力區(qū)
來自于我的一個(gè)不成熟想法。歷史上生產(chǎn)力的進(jìn)步,一定會(huì)伴隨著人均消費(fèi)資源的上升,進(jìn)而推動(dòng)市場(chǎng)的繁榮。
沒有電腦前,人均消費(fèi)的圖片可能1都不到,但有了電腦后,我們的人均消費(fèi)也隨之而暴漲,繪畫行業(yè)的人并不是減少了,反而是增多了。
這就很有趣了,我發(fā)現(xiàn)似乎不能將所有生產(chǎn)力革命都與工業(yè)革命對(duì)工人職業(yè)的替代去做類比,這是不恰當(dāng)?shù)摹?/p>
我認(rèn)為可能應(yīng)該從兩種情況來進(jìn)行討論(我覺得這個(gè)角度應(yīng)該可以適用于所有職業(yè)的分析場(chǎng)景):
生產(chǎn)力到頂,工作者溢出導(dǎo)致失業(yè),需要學(xué)習(xí)新技能并涌入其他行業(yè)。例如農(nóng)業(yè)革命導(dǎo)致農(nóng)民進(jìn)城,工業(yè)革命導(dǎo)致第三產(chǎn)業(yè)繁榮等。
但這種溢出是有極限的,總生產(chǎn)規(guī)模不僅受限于勞動(dòng)力,更可能受限于生產(chǎn)資料(農(nóng)業(yè)革命),受限于消費(fèi)能力(工業(yè)品供過于求)等原因,因此這個(gè)過程總會(huì)在某個(gè)節(jié)點(diǎn)按下停止鍵。
生產(chǎn)力未到頂,工作者受益于生產(chǎn)力提升,會(huì)創(chuàng)造更多的價(jià)值。一個(gè)例子是教師,從古代私塾,粉筆黑板,教學(xué)電子化一路過來,我們發(fā)現(xiàn)我們的教師行業(yè)并未發(fā)生萎縮,反而持續(xù)增長(zhǎng)。這是因?yàn)樗媾R的需求并未到頂,甚至可能是無限的。
我看過一些科幻小說,大概描述一個(gè)這樣的場(chǎng)景:人均壽命提升到1000歲,但是科學(xué)家開始真正開始科研的歲數(shù)是100歲,因?yàn)樗麖念^到尾要學(xué)習(xí)的內(nèi)容就是這么多。當(dāng)文明的壽命長(zhǎng)度,不足支撐個(gè)體完成文明知識(shí)的學(xué)習(xí)后,文明的發(fā)展就被鎖死了。
收回話題來,那么Diffusion對(duì)畫師的影響到底是哪種呢?
我認(rèn)為至少暫時(shí)生產(chǎn)力是未到頂?shù)?,?dòng)漫、動(dòng)畫、小說插畫、立繪,或者說跨模態(tài)的視頻等,其實(shí)目前的需求都是旺盛的——特別是在技術(shù)壓低成本后,更加是旺盛的。
但是這片市場(chǎng)潛力區(qū)的天花板到底多高,我無法判斷。就像1000年前的宋仁宗,還有1個(gè)月他就登基了,他能想象我們今天每日消費(fèi)的內(nèi)容圖片是多少嗎?
最后做一下創(chuàng)作聲明:本篇內(nèi)容中的知識(shí)點(diǎn)來自為期兩天的刻意學(xué)習(xí)結(jié)果,其中一部分答案來自O(shè)penAI直接提供的回答,如有任何錯(cuò)誤,歡迎私信指正,非常歡迎。
本文由@馬丁的面包屑 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
寫得很棒!