第二個(gè)“ChatGPT 時(shí)刻”來了
ChatGPT 的更新帶來了新的變革,尤其是 GPT-4o 的原生圖像生成功能,標(biāo)志著 AI 技術(shù)的又一重大突破。本文深入探討了 GPT-4o 如何通過原生圖像生成改變多個(gè)行業(yè)和工作領(lǐng)域,從廣告設(shè)計(jì)到 UI/UX 設(shè)計(jì),再到創(chuàng)意內(nèi)容的生產(chǎn)。文章不僅分析了 GPT-4o 的技術(shù)原理,還討論了其對(duì)圖像生成 AI 初創(chuàng)公司和創(chuàng)意工作者的深遠(yuǎn)影響。
ChatGPT 的最新更新已經(jīng)在改變世界。數(shù)百萬人已經(jīng)受到影響,還有更多人受到影響。
但是為什么?
他們展示了 GPT-4o 的原生圖像生成,使他們的模型不僅可以用文字表達(dá)自己,還可以用圖像來表達(dá)自己(這不是它之前所做的,正如您今天將學(xué)習(xí)的那樣)。
數(shù)百萬人的生活,不僅包括互聯(lián)網(wǎng)的產(chǎn)品經(jīng)理、開發(fā)、運(yùn)營(yíng)或設(shè)計(jì)師,還包括許多其他工作,已經(jīng)永遠(yuǎn)改變了。他們中的大多數(shù)人甚至還沒有意識(shí)到。
未來,我們將以與 2022 年 ChatGPT 發(fā)布時(shí)相同(或更多)的方式回顧這一點(diǎn),作為技術(shù)的開創(chuàng)性時(shí)刻。
01 GPT-4o 原生圖像生成
好的,等等。實(shí)際上發(fā)生了什么?
簡(jiǎn)而言之,標(biāo)題是 ChatGPT 的主要 AI 模型 GPT-4o 現(xiàn)在可以本地生成圖像。這里的關(guān)鍵詞是 “原生”,因?yàn)?ChatGPT 之前做的事情不是現(xiàn)在做的事情。
AI 第一次可以使用圖像來表達(dá)自己。但這到底意味著什么呢?
正如他們所說,一張圖片勝過千言萬語(yǔ),所以我讓圖片來說話。需要注意的第一個(gè)強(qiáng)大功能是,該模型可以將任何圖像的樣式轉(zhuǎn)換為您請(qǐng)求的樣式。
例如,它可以將像素化角色轉(zhuǎn)換為任何樣式,同時(shí)尊重每個(gè)微小的空間細(xì)節(jié),例如姿勢(shì)、顏色,甚至面部手勢(shì):
但是,如果這讓您印象深刻,那么我們才剛剛開始。它還可以使視覺模板適應(yīng)您的產(chǎn)品或主題。下面,該模型接收了一個(gè)化妝品廣告,并將其轉(zhuǎn)換為面包店廣告。
當(dāng)然,您可能想知道:
用戶必須用速度和易用性來?yè)Q取控制,對(duì)吧?嗯,不完全是,因?yàn)槟梢韵蚰P桶l(fā)送清晰的空間指令,它完全符合:
而這只是人們正在做的事情的冰山一角。有趣的是,GPT-4o 圖像生成還可以將 HTML/CSS 代碼作為輸入并生成生成的 UI:
換句話說,您只需請(qǐng)求一個(gè)功能性的用戶界面,該模型將生成一個(gè)嚴(yán)格遵守您的確切代碼的 UI 圖像。
如果說 ChatGPT 使 AI 助手的訪問民主化,但除了有趣的對(duì)話之外,沒有給我們的生活帶來任何有意義的改變,那么GPT-4o 圖像生成實(shí)際上改變了許多工作和行業(yè)的生活。
現(xiàn)在,任何人都可以創(chuàng)建令人印象深刻的圖像、廣告、電影、Outpaints,只需使用自然語(yǔ)言提示即可。
如果您喜歡 AI,您就會(huì)知道圖像生成已經(jīng)存在多年。然而,它只是一個(gè)有趣的工具,而且只有在您是圖像/視頻編輯方面的專業(yè)人士時(shí)才是一個(gè)專業(yè)的工具,為您提供不錯(cuò)的世代,如下所示:
那時(shí),像 Photoshop 或 Figma 這樣的工具是強(qiáng)制性的,可以做任何有價(jià)值的事情。但是現(xiàn)在,使用 GPT-4o 圖像生成,同樣的提示將為您提供以下內(nèi)容:
但是 OpenAI 做了什么來實(shí)現(xiàn)這樣的結(jié)構(gòu)性轉(zhuǎn)變呢?
簡(jiǎn)而言之,就像貝爾實(shí)驗(yàn)室這樣的傳奇公司曾經(jīng)所做的那樣,他們并沒有改進(jìn)現(xiàn)有的東西;他們重新定義了這項(xiàng)技術(shù)以及它可以做什么
02 這個(gè) “東西” 到底是什么
這一次,OpenAI 分享了他們?yōu)閷?shí)現(xiàn)如此行業(yè)定義性成果所做的工作的信息。他們以最 OpenAI 的方式做到了這一點(diǎn),使用了由 new GPT-4o 生成的圖像:
一張圖片中的信息如此之多。其中大部分對(duì)你來說聽起來像是胡言亂語(yǔ),但讓我把這張圖片的內(nèi)容翻譯給你:“每個(gè)人都在以一種方式拍攝圖像。好吧,他們錯(cuò)了,我們即將顛覆這個(gè)行業(yè),并在此過程中殺死所有不是我們的圖像生成公司,包括 Google、xAI 或 Anthropic。
聽起來很大膽,但這正是那張圖片所暗示的。原因如下。
首先,在我們解釋每張圖片之前,我將描述該圖片的關(guān)鍵要點(diǎn)。這樣,如果這是您的情況,您可以跳過您已經(jīng)知道的部分:
- 生成式 AI 行業(yè)的未來是一個(gè)單一的自回歸轉(zhuǎn)換器:不再有模型拼接,一個(gè)真正的任意對(duì)任意模型。
- 不再有純擴(kuò)散模型。擴(kuò)散是生成圖像的主要方法,但并非未來趨勢(shì)。自回歸生成,ChatGPT 如何生成文本,也是我們應(yīng)該如何創(chuàng)建圖像。這是巨大的革命性。
為什么此模型的工作方式不同
GPT-4o 不僅進(jìn)行圖像生成——它還重新定義了它的完成方式。但要理解這種轉(zhuǎn)變,你需要了解架構(gòu)。
傳統(tǒng)上,像 DALL·E 或 MidJourney 依賴于擴(kuò)散:它們從噪聲開始,然后通過多個(gè)步驟對(duì)其進(jìn)行細(xì)化。
這些模型可以生成高質(zhì)量的輸出,但在指令遵循和多模態(tài)接地方面遇到困難,因?yàn)榕c ChatGPT 等模型不同,它們不是為了根據(jù)上下文生成輸出,而是以上下文為指導(dǎo)。
這樣想吧。ChatGPT 根據(jù)您提供給它的輸入來預(yù)測(cè)其輸出。輸入和輸出之間存在明顯的因果關(guān)系,即使是輸入中最微小的變化也會(huì)改變 ChatGPT 預(yù)測(cè)輸出的方式。
另一方面,擴(kuò)散模型生成由輸入引導(dǎo)的輸出。該模型經(jīng)過訓(xùn)練,可以逐步擦除噪聲(上圖,左)以發(fā)現(xiàn)圖像(右)。為了改變模型生成的內(nèi)容,我們提供了一個(gè)文本指令,模型在降噪過程中將其用作指導(dǎo)。
這將生成與輸入的語(yǔ)義含義匹配的圖像 (cat) (“draw a cat”),如果這是您的指令,這已經(jīng)足夠好了,但如果您的輸入涉及多條指令,或者更糟的是,涉及多個(gè)圖像和文本的串聯(lián),則這將是一項(xiàng)非常復(fù)雜的任務(wù)。
總結(jié):
- ChatGPT 總是根據(jù)你提供的上下文生成輸出;它經(jīng)過訓(xùn)練,可根據(jù)您的上下文進(jìn)行預(yù)測(cè)。;
- 擴(kuò)散模型經(jīng)過訓(xùn)練,可以對(duì)噪點(diǎn)圖像進(jìn)行降噪,同時(shí)希望生成的圖像在語(yǔ)義上與您的輸入匹配;
如果我們根據(jù)它們的學(xué)習(xí)目標(biāo)對(duì)這兩個(gè)模型進(jìn)行數(shù)學(xué)可視化,那么我所說的會(huì)更有意義。像 ChatGPT 這樣的自回歸模型本質(zhì)上是一個(gè)概率模型 P( xt | x1,x2…,xt-1),它在給定所有先前的證據(jù)(輸入序列)的情況下預(yù)測(cè) ‘xt’。
擴(kuò)散模型經(jīng)過訓(xùn)練,可以看到圖像及其標(biāo)題,用噪聲破壞它,并嘗試恢復(fù)原始文件;它們從來都不是為了根據(jù)上下文進(jìn)行預(yù)測(cè),而是輸出代表輸入文本所描述內(nèi)容的圖像。
它讀起來很相似,但結(jié)果卻大不相同。
我假設(shè)你現(xiàn)在知道我在說什么了:OpenAI 不做擴(kuò)散,而是提議將圖像生成視為與預(yù)測(cè)單詞幾乎相同的任務(wù)。
更正式地說,GPT-4o 被構(gòu)建為單個(gè)自回歸轉(zhuǎn)換器——就像 GPT 模型如何逐個(gè)令牌生成文本一樣。但在這里,每種數(shù)據(jù)類型(文本、圖像、音頻)都被標(biāo)記成統(tǒng)一的格式。這意味著圖像生成不是固定在語(yǔ)言模型上的單獨(dú)模式。兩者的主干是相同的。
這背后的關(guān)鍵原因是實(shí)現(xiàn)模態(tài)不可知論。但是,這是什么意思呢?
當(dāng)模態(tài)的重要性不再重要時(shí)
我希望你從這一切中學(xué)到的關(guān)鍵是,如果我們將每一代(文本、圖像、視頻、音頻、語(yǔ)音等)視為一個(gè)相同的預(yù)測(cè)過程,并同時(shí)在所有這些模態(tài)上訓(xùn)練模型,我們會(huì)遇到一個(gè)美麗的含義:
模態(tài)變得無關(guān)緊要,就像它與我們無關(guān)緊要一樣。
您是否在乎狗是如何被表現(xiàn)的,從而改變了您對(duì)狗的解釋?例如,閱讀關(guān)于狗的文字段落或聽到狗的吠叫是否意味著它們是不同的概念?
不,它們是相同的概念,以不同的方式表示,如聲音和文本,但基本概念是相同的。
對(duì)于 AI 來說,以前不是這種情況;他們沒有將兩個(gè)表示空間合二為一。借助像 GPT-4o 這樣的真正多模態(tài)模型,AI 也在建立這種聯(lián)系,強(qiáng)化狗不是單詞或聲音,而是一個(gè)可以通過文本、圖像、音頻描述的總體概念,…
一旦發(fā)生這種情況,并且如果架構(gòu)經(jīng)過調(diào)整以允許多模態(tài)預(yù)測(cè)(使用相同的預(yù)測(cè)方法預(yù)測(cè)多個(gè)模態(tài)中的數(shù)據(jù)),這正是 OpenAI 所做的,使模態(tài)能夠被“合并”,同時(shí)間接地使這種模態(tài)的想法與模型無關(guān);對(duì)于模型來說,數(shù)據(jù)類型并不重要,重要的是它們背后的內(nèi)容。
為了使圖像生成具有自回歸性(根據(jù)以前的上下文進(jìn)行預(yù)測(cè)),它們被認(rèn)為受到字節(jié)跳動(dòng)稱為次級(jí)預(yù)測(cè)的方法的嚴(yán)重影響。
總之,將這種架構(gòu)轉(zhuǎn)向自回歸圖像生成不僅新穎——它解決了擴(kuò)散模型無法解決的許多長(zhǎng)期問題。
- 它更擅長(zhǎng)遵循指令;
- 它更擅長(zhǎng)保持結(jié)構(gòu);
- 它更擅長(zhǎng)集成多種模式;
換句話說,這不僅僅是一項(xiàng)新功能。這是一種全新的圖像生成方法。
這對(duì)圖像生成 AI 初創(chuàng)公司和數(shù)百萬藝術(shù)家、營(yíng)銷人員、UI/UX 設(shè)計(jì)師和廣告代理商意味著什么?
這一版本在整個(gè) AI 領(lǐng)域引發(fā)了沖擊波,視覺生成領(lǐng)域的初創(chuàng)公司最能感受到這種顛覆。
03 關(guān)于 AI 初創(chuàng)公司的殘酷真相
其中許多公司都是傳播優(yōu)先的文本到圖像專家,他們的核心優(yōu)勢(shì)是視覺質(zhì)量。
但 GPT-4o 增加了他們所缺乏的東西:跨模式智能。
因?yàn)?GPT-4o 是一個(gè)真正的多模態(tài)模型,所以它以前所未有的精度理解并遵守復(fù)雜的提示。不僅僅是“畫一只貓”,而是“以吉卜力風(fēng)格重新創(chuàng)建這張圖片的布局,同時(shí)保持姿勢(shì)和照明不變”。這種上下文保真度對(duì)于非多模態(tài)系統(tǒng)來說是遙不可及的。
不僅僅是 GPT-4o 產(chǎn)生了出色的視覺效果。而是它也可以對(duì)視覺效果進(jìn)行推理。這種差異使一切變得不同。
更最終地,OpenAI 已經(jīng)證明多模態(tài)訓(xùn)練允許更智能的圖像生成。簡(jiǎn)單來說,這意味著如果你要參加圖像或視頻生成比賽,你需要訓(xùn)練多模態(tài)模型,這是最昂貴和最難訓(xùn)練的模型。
那么接下來會(huì)發(fā)生什么呢?我預(yù)計(jì)會(huì)出現(xiàn)兩種結(jié)果之一。
- 這些以擴(kuò)散為先的初創(chuàng)公司努力轉(zhuǎn)向成本高昂、技術(shù)上棘手的多模態(tài)模型開發(fā);
- 他們被已經(jīng)擁有基礎(chǔ)設(shè)施和愿景的大型參與者收購(gòu);
- 然后是勞動(dòng)力市場(chǎng);
殘酷的事實(shí)和你必須失去的最后一件事。
UI/UX 設(shè)計(jì)師、藝術(shù)家、廣告代理商、自由職業(yè)者 — 數(shù)以百萬計(jì)的視覺交易者剛剛看到了他們腳下的地面變化。
以前,創(chuàng)建出色的廣告布局或活動(dòng)圖像意味著使用 Figma、Photoshop,也許還要與團(tuán)隊(duì)合作?,F(xiàn)在,只需一個(gè)提示,至少可以獲得適度成功的結(jié)果,或者在某些情況下,獲得可用于生產(chǎn)的視覺效果。
然而,這并不意味著這些角色會(huì)消失。相反,他們正在適應(yīng)(可悲的是,他們正在收縮)。是的,現(xiàn)實(shí)情況是,曾經(jīng)花費(fèi) 3,000 美元和三周的東西現(xiàn)在可能要花費(fèi)一個(gè)句子和 30 秒的等待,這意味著這些地區(qū)對(duì)人類工作的需求將直線下降。
如果您現(xiàn)在感到害怕,或者從遠(yuǎn)處看到戰(zhàn)鼓,那么您并不孤單:
例如,我可以制作一個(gè)不錯(cuò)的廣告或引人注目的視覺效果,但我也可以保證,擁有詞匯和藝術(shù)創(chuàng)造力的藝術(shù)家和設(shè)計(jì)師,可以比我更好地傳達(dá)他們想要的東西,他們會(huì)看到巨大的需求,因?yàn)樵谝粋€(gè)充斥著 5/10 設(shè)計(jì)的世界里,那些產(chǎn)生 10/10 的設(shè)計(jì)仍然會(huì)有一席之地。
但我不會(huì)粉飾這樣一個(gè)事實(shí),即與所有商品化市場(chǎng)一樣,如果您的產(chǎn)品沒有差異化,那么您現(xiàn)在的風(fēng)險(xiǎn)就會(huì)大大增加。
無論我們喜歡與否,我堅(jiān)信它的影響將比 ChatGPT 對(duì)寫作的影響更廣泛。純文本助手很有幫助。相比之下,GPT-4o 圖像生成直接蠶食了高價(jià)值的創(chuàng)意工作流程。
第二個(gè)“ChatGPT”時(shí)刻。
總結(jié)一下我對(duì)短期和長(zhǎng)期影響的看法:
- 如果 prompt-to-UI 和 prompt-to-image/video 編輯變得可靠(它們會(huì)變得可靠), 原型設(shè)計(jì)工具可能需要完全重塑自己 ;
- 如果 prompt-to-campaign 成為常態(tài), 營(yíng)銷團(tuán)隊(duì)將收縮,代理商將消失 ;
- 如果多模式生成成為基礎(chǔ),那么單模態(tài)應(yīng)用程序?qū)⒃谝灰怪g成為傳統(tǒng)技術(shù);
但需要明確的是:這并不是創(chuàng)造性工作的終點(diǎn)。它只是在變化。這是否會(huì)扼殺你周圍的藝術(shù)氛圍,我明白。無論你現(xiàn)在是否擔(dān)心你的工作,我也完全理解這一點(diǎn)。
然而,遺憾的是,市場(chǎng)并不關(guān)心你的感受,所以感到悲傷而無所作為對(duì)你沒有幫助。
幸運(yùn)的是,如果您是受影響的人之一,并不是所有的希望都消失了。
如前所述,AI 不會(huì)扼殺你的藝術(shù)天賦,而是在適應(yīng)它。每一次重大轉(zhuǎn)型都會(huì)讓那些快速適應(yīng)的人受益。
本文由 @來學(xué)習(xí)一下 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
在游戲設(shè)計(jì)里,GPT-4o 的原生圖像生成可以將像素化的角色或場(chǎng)景快速轉(zhuǎn)換為高清風(fēng)格,提升視覺效果,同時(shí)保持角色的原有特征和動(dòng)作。在游戲設(shè)計(jì)的應(yīng)用很有用!