被誤導(dǎo)兩天,GPT-4o文生圖模型強到可怕
GPT-4o文生圖模型展現(xiàn)驚人能力,從精準(zhǔn)細節(jié)到復(fù)雜融合,AI生成圖像的效率與質(zhì)量正重新定義創(chuàng)意邊界。本文通過多場景實測,揭示GPT-4o如何以非自回歸架構(gòu)顛覆傳統(tǒng)設(shè)計流程。
前天,寫了一篇關(guān)于 ChatGPT 文生圖功能的文章。
發(fā)到知乎后,一位 2021年的年度新知答主 提出了質(zhì)疑,認為我使用的可能不是最新的模型,因為新舊版本差距很大。
他指出,最新版文生圖能力很強,而我展示的結(jié)果提示詞理解差,生成的文字也錯誤很多。
他舉例說,像提示詞「兩個人相互推對方」這種簡單概念,真正最新版模型應(yīng)該能準(zhǔn)確表現(xiàn)。他還建議我檢查是否使用了新模型,并給了我一個鏈接,稱那是最新版的界面。
他還分享了一個驗證方法:
輸入100+個英文單詞,如果文字全亂就是其他模型(如DALL·E),如果只錯一兩個字母才是最新版的 ChatGPT。
他還曬出了兩次按我的提示詞生成的結(jié)果,質(zhì)疑不能都用“隨機性”來解釋。被他這么一說,我懷疑自己用錯了模型,我之前用的ChatGPT客戶端,拿它生成的來比,效果的確有有差異,于是,決定重新試一下。
首先,我用了這位新知答主給我的提示詞,如下:
Alright, here’s a shorter version:12 flowers in a 4×3 grid on a wooden tray with glass bottom and animal fat layer. From top to bottom
ylang-ylang, osmanthus, yellow champaca; tuberose, gardenia, jasmine; carnation, peony, pink hyacinth; blue iris, violet, wisteria. Photo taken on a sunny afternoon
英文原意比較長,翻譯成縮減的中文是:
從正上方俯拍的 12 種花,呈四行三列擺放。第一行有依蘭、桂花和黃緬梔子;第二行有晚香玉、梔子花和茉莉;
第三行有康乃馨、牡丹和粉色風(fēng)信子;第四行有藍鳶尾、紫羅蘭和紫藤。所有的花都放在一個帶玻璃底的木質(zhì)托盤上,玻璃上有一層透明的動物脂肪。照片拍攝于一個陽光明媚的下午,托盤被陽光完全照亮。
ChatGPT 很快給出了答案。這次生成與以往不同的是,它補充了一句話:根據(jù)你的描述,這是由 DALL·E 創(chuàng)建的。DALL·E 是 OpenAI 的圖像生成模型。
看來,不僅我遇到過前天提到的模型混淆問題,估計國外友人也遇到過類似情況。
從這里可以得出一個結(jié)論:ChatGPT 官方提到的免費試用最新的非自回歸模型(Non-autoregressive models)似乎并不支持,或者說做了一定限制。
于是,我直接把問題拋給了 ChatGPT:“如何運用最新的文生圖模型?”它給出了三種答案:
第一種是直接使用 ChatGPT 內(nèi)置的圖像生成功能,直接輸入詳細的描述,它會用最新的模型生成圖像。你可以優(yōu)化提示詞(Prompt),比如:
- 具體描述主體、背景、光照、風(fēng)格等
- 指定構(gòu)圖,比如“俯視圖”“廣角鏡頭”
- 選擇藝術(shù)風(fēng)格,如“油畫風(fēng)”“賽博朋克風(fēng)”
第二種是使用 API,你可以進行批量生成或?qū)⑵浼械阶髌分?;第三種則是純介紹,它提到新的文生圖模型做了多模態(tài)結(jié)合,生成帶有故事性的連續(xù)圖像,用 AI 先生成草圖,再細化成精美插畫等。
不想太多,我直接按照它的要求,把任務(wù)交給了 Kimi,讓 Kimi 幫我生成一個提示詞:
在昏暗的復(fù)古書房里,一盞臺燈散發(fā)著柔和的暖光,照亮了一張古老的木質(zhì)書桌。書桌上散落著幾本泛黃的書籍和一支羽毛筆,旁邊是一杯冒著熱氣的紅茶。畫面采用油畫風(fēng)格,營造出寧靜而懷舊的氛圍,仿佛時間在這里靜止。
ChatGPT生成的圖片如下,但是,它依然還是那句話,這是由 DALL·E 生成的圖像,展現(xiàn)了你描述的復(fù)古書房氛圍;很快,ChatGPT 將推出新的圖像生成模型,帶來更好的細節(jié)和風(fēng)格控制。
所以,結(jié)論是:ChatGPT模型是無法使用最新的文生圖模型的。怎么辦?為了驗證準(zhǔn)確度,好久沒有給ChatGPT充值的我,索性再來了一個月會員。
搞定后,切換到ChatGPT 4o對話界面,輸入提示詞:
在一片寧靜的海邊小鎮(zhèn),夕陽的余暉灑在古老的燈塔上,燈塔的影子拉得很長。遠處的海面上,幾艘小船在金色的波光中緩緩航行,天空中飄著幾朵粉色的云。畫面采用水彩畫風(fēng)格,色彩柔和而溫暖,營造出一種寧靜而夢幻的氛圍。
響應(yīng)速度有點慢,不過,生成的圖片的確有意境:
所以,必須ChatGPT 4o才可以用,GPT還是老版本的DALL·E模型。隨后,我又給它了一個卡通人物的提示詞:
一個活潑可愛的卡通小貓,有著大大的藍色眼睛和柔軟的粉色耳朵,身上穿著一件紅色的小背帶褲,腳上蹬著一雙黃色的小靴子。
它正站在一個充滿魔法的森林里,周圍是五顏六色的蘑菇和閃爍的螢火蟲。畫面采用卡通風(fēng)格,色彩鮮艷明亮,營造出一種奇幻又歡樂的氛圍。畫面比例為4:3。
我很好奇它能生成什么樣的畫面。你覺得怎么樣呢?
我確實不太好評價,只能說這張圖風(fēng)格可愛、充滿童趣,色彩溫馨。如果用在兒童讀物、繪本,或者早教、幼教的互動課件、手工素材里,肯定是足夠的。
接著我把圖片拿給豆包,讓他深度思考一下,說:你評價一下效果怎么樣?我用的是ChatGPT 4o的最新文生圖模型。
豆包說:
這幅圖還挺不錯。小貓的表情和衣服細節(jié)畫得挺生動,蘑菇和螢火蟲也很有感覺。暖色調(diào)的小貓配上冷色的夜景,色彩搭配和諧,營造出一種夢幻又可愛的氛圍。
小貓在畫面中間,構(gòu)圖看著很舒服,主題也很突出。畫面整體質(zhì)量挺高,能用到不少地方,這模型生成的效果挺好。
但是,問題來了,測試文生圖也看不出它的厲害之處,試試它兩張圖的融合能力怎么樣?
我從百度上隨機下載了兩個水杯的圖片,這兩個水杯都處于真實的場景中,且每個水杯都有手拿著。我想看看它是否能把手摳掉,把兩個杯子放在同一個平面上。
然后給到 Kimi,讓 Kimi 幫我寫個提示詞:
請將兩張水杯圖片中的手部部分去除,僅保留水杯本身,確保水杯的細節(jié)清晰完整。背景保持簡潔,以便用于電商海報設(shè)計。水杯的光影和質(zhì)感需要保留,確保整體畫面自然且具有吸引力。
第一次它好像卡住了,跟我說:抱歉,我處理不了你的要求,要不你再試試?
估計是用的人太多了。我重新開個窗口,這回它很快就有反應(yīng)了。問題是,第一張照片處理得挺干凈,但第二張直接被忽略了。
這下我可不干了,直接把要求說得清清楚楚,一共四點:
把兩只手都去掉,只留下水杯;水杯的細節(jié)、質(zhì)感和光影得保留好,看著得自然;背景要簡單干凈,突出水杯;兩個水杯放在一起,比例要協(xié)調(diào),畫面得好看。還特別提醒它,尺寸要4:3的。
結(jié)果它花了大概40秒,就搞定了??吹浇Y(jié)果時,真的只能驚嘆:“這也太厲害了”,設(shè)計師要下崗了。
你覺得怎么樣?速度、效率遠比人工摳圖搞的快。
我又試了試Chat GPT 4o新出的知識圖功能,官方吹的吹得神乎其神,說有了這功能,AI生成圖片能把現(xiàn)實世界里的知識用起來,更懂用戶想啥,做出來的圖也更靠譜、更合乎常理。
簡單說:AI畫畫會琢磨現(xiàn)實里的那些細節(jié),比如地方在哪兒、啥文化背景,還有物理規(guī)律那些。
這次,讓deepseek來,我說,你幫我寫一個帶因果邏輯的文生圖的提示詞。有一個細節(jié)就是圖片比例依然是4:3。這是它隨機給到的:
內(nèi)容是一個陽光明媚的下午,一個小男孩坐在公園的長椅上,手里拿著一個冰淇淋,臉上露出開心的笑容。
因為他剛在游樂場玩得很開心,現(xiàn)在正享受著美味的冰淇淋。畫面采用溫馨的色調(diào),背景是綠樹成蔭的公園,遠處有幾個小朋友在玩耍。圖片比例為4:3,整體風(fēng)格清新自然。
額,這看不出什么因果邏輯。怎么辦?重新來過。索性直接把「定律」加在圖中間。這是deepseek給我的兩個提示詞:
一個是杠桿定律:生成一張圖,一個小孩在蹺蹺板上,通過杠桿原理把一個重物抬起來。小孩用力往下壓,重物被抬高,體現(xiàn)杠桿原理。背景簡單,比例4:3。
如上圖。這看著像嗎?的確很杠桿。給豆包后,它說:
“這圖是說,有個小孩在壓蹺蹺板一頭,想把另一頭的大重物撬起來。就像玩蹺蹺板,坐一頭能把另一頭的人翹起來,利用這個方法,不用費老不用費老大勁就能把重東西抬起來,是一種省力的小竅門?!?/p>
的確有點強。不過興許有些簡單,換一個:就拿「相對論的時間膨脹效應(yīng)」來測試。
提示詞:
生成一張圖,展示兩個人:Alice 在地球上,Bob 在高速飛行的宇宙飛船里。因為相對論的時間膨脹效應(yīng),Bob 看起來比 Alice 年輕。地球上 Alice 在慢慢變老,而飛船里的 Bob 幾乎沒變。背景簡單,比例4:3。
你能看得出來嗎?
反正我能看得懂。不過,第一次生成時,Alice的名字被放在了腳下面,看起來有點奇怪。經(jīng)過二次對話微調(diào)后,成功地把名字放到了正確的位置。
我認為還能在進化,比如:指定人物的性別等等。
除了文生圖、圖片與圖片合成、以及生成理解物理世界規(guī)律的圖以外,還有沒有其他玩法呢?
試試風(fēng)格轉(zhuǎn)換。比如:將一張人物照片轉(zhuǎn)換為動漫風(fēng)格,或者將一張圖片的風(fēng)格與另一張圖片的內(nèi)容融合,這種技術(shù)在藝術(shù)創(chuàng)作和設(shè)計時非常受用。
問題是怎么轉(zhuǎn)換呢?我現(xiàn)在有一張個人形象照,把問題甩給DeepSeek,讓它幫我想想。
DeepSeek說:如果你想測試OpenAI的ChatGPT文生圖模型的能力,可以出一個稍微復(fù)雜一點但又具體明確的問題,這樣既能考驗?zāi)P偷睦斫饽芰Γ帜軠y試它的生成能力。
比如:我有一張個人形象照,我想把它變成動漫風(fēng)格。希望你能幫我把照片里的我變成一個動漫角色,頭發(fā)換成深藍色的,整體風(fēng)格有點賽博朋克那種酷酷的感覺。圖片比例是4:3就行。
不管了,一股腦甩給ChatGPT 4o來處理。這好像有點翻車了。不過,可能我要求太高了。
的確有點抽象,你怎么看?
不管怎么說,非自回歸模型(Non-autoregressive models)的進化速度確實很快,它改變了核心架構(gòu)。
這個架構(gòu)會先理解整個圖的結(jié)構(gòu)和細節(jié),有點像學(xué)生先聽完老師講完題目,把整張畫的輪廓勾勒出來,然后再一點點填充細節(jié)。
國內(nèi)很多產(chǎn)品也在用這種能力了,希望能抓緊時間趕上并超越它。
本文由人人都是產(chǎn)品經(jīng)理作者【王智遠】,微信公眾號:【王智遠】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!