老头晚上和老太同房视频,A久久精品国产精品亚洲,国产丝袜大长腿小视频

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

開通會(huì)員

發(fā)布

注冊(cè) | 登錄

第二個(gè)“ChatGPT 時(shí)刻”來了

來學(xué)習(xí)一下

2025-04-11

1 評(píng)論 750 瀏覽 0 收藏

ChatGPT 的更新帶來了新的變革，尤其是 GPT-4o 的原生圖像生成功能，標(biāo)志著 AI 技術(shù)的又一重大突破。本文深入探討了 GPT-4o 如何通過原生圖像生成改變多個(gè)行業(yè)和工作領(lǐng)域，從廣告設(shè)計(jì)到 UI/UX 設(shè)計(jì)，再到創(chuàng)意內(nèi)容的生產(chǎn)。文章不僅分析了 GPT-4o 的技術(shù)原理，還討論了其對(duì)圖像生成 AI 初創(chuàng)公司和創(chuàng)意工作者的深遠(yuǎn)影響。

ChatGPT 的最新更新已經(jīng)在改變世界。數(shù)百萬人已經(jīng)受到影響，還有更多人受到影響。

但是為什么？

他們展示了 GPT-4o 的原生圖像生成，使他們的模型不僅可以用文字表達(dá)自己，還可以用圖像來表達(dá)自己（這不是它之前所做的，正如您今天將學(xué)習(xí)的那樣）。

數(shù)百萬人的生活，不僅包括互聯(lián)網(wǎng)的產(chǎn)品經(jīng)理、開發(fā)、運(yùn)營(yíng)或設(shè)計(jì)師，還包括許多其他工作，已經(jīng)永遠(yuǎn)改變了。他們中的大多數(shù)人甚至還沒有意識(shí)到。

未來，我們將以與 2022 年 ChatGPT 發(fā)布時(shí)相同（或更多）的方式回顧這一點(diǎn)，作為技術(shù)的開創(chuàng)性時(shí)刻。

01 GPT-4o 原生圖像生成

好的，等等。實(shí)際上發(fā)生了什么？

簡(jiǎn)而言之，標(biāo)題是 ChatGPT 的主要 AI 模型 GPT-4o 現(xiàn)在可以本地生成圖像。這里的關(guān)鍵詞是 “原生”，因?yàn)?ChatGPT 之前做的事情不是現(xiàn)在做的事情。

AI 第一次可以使用圖像來表達(dá)自己。但這到底意味著什么呢？

如何定义B端产品及B端产品经理方法论

相较于C端产品，B端产品最大的特点是：面向特定领域用户，且数量少得多，但更注重对用户专业领域操作流程的深度挖掘——也就是专业性更强，与业务的结合更紧密。

查看详情 >

正如他們所說，一張圖片勝過千言萬語(yǔ)，所以我讓圖片來說話。需要注意的第一個(gè)強(qiáng)大功能是，該模型可以將任何圖像的樣式轉(zhuǎn)換為您請(qǐng)求的樣式。

例如，它可以將像素化角色轉(zhuǎn)換為任何樣式，同時(shí)尊重每個(gè)微小的空間細(xì)節(jié)，例如姿勢(shì)、顏色，甚至面部手勢(shì)：

但是，如果這讓您印象深刻，那么我們才剛剛開始。它還可以使視覺模板適應(yīng)您的產(chǎn)品或主題。下面，該模型接收了一個(gè)化妝品廣告，并將其轉(zhuǎn)換為面包店廣告。

當(dāng)然，您可能想知道：

用戶必須用速度和易用性來?yè)Q取控制，對(duì)吧？嗯，不完全是，因?yàn)槟梢韵蚰Ｐ桶l(fā)送清晰的空間指令，它完全符合：

而這只是人們正在做的事情的冰山一角。有趣的是，GPT-4o 圖像生成還可以將 HTML/CSS 代碼作為輸入并生成生成的 UI：

換句話說，您只需請(qǐng)求一個(gè)功能性的用戶界面，該模型將生成一個(gè)嚴(yán)格遵守您的確切代碼的 UI 圖像。

如果說 ChatGPT 使 AI 助手的訪問民主化，但除了有趣的對(duì)話之外，沒有給我們的生活帶來任何有意義的改變，那么GPT-4o 圖像生成實(shí)際上改變了許多工作和行業(yè)的生活。

現(xiàn)在，任何人都可以創(chuàng)建令人印象深刻的圖像、廣告、電影、Outpaints，只需使用自然語(yǔ)言提示即可。

如果您喜歡 AI，您就會(huì)知道圖像生成已經(jīng)存在多年。然而，它只是一個(gè)有趣的工具，而且只有在您是圖像/視頻編輯方面的專業(yè)人士時(shí)才是一個(gè)專業(yè)的工具，為您提供不錯(cuò)的世代，如下所示：

那時(shí)，像 Photoshop 或 Figma 這樣的工具是強(qiáng)制性的，可以做任何有價(jià)值的事情。但是現(xiàn)在，使用 GPT-4o 圖像生成，同樣的提示將為您提供以下內(nèi)容：

但是 OpenAI 做了什么來實(shí)現(xiàn)這樣的結(jié)構(gòu)性轉(zhuǎn)變呢？

簡(jiǎn)而言之，就像貝爾實(shí)驗(yàn)室這樣的傳奇公司曾經(jīng)所做的那樣，他們并沒有改進(jìn)現(xiàn)有的東西;他們重新定義了這項(xiàng)技術(shù)以及它可以做什么

02 這個(gè) “東西” 到底是什么

這一次，OpenAI 分享了他們?yōu)閷?shí)現(xiàn)如此行業(yè)定義性成果所做的工作的信息。他們以最 OpenAI 的方式做到了這一點(diǎn)，使用了由 new GPT-4o 生成的圖像：

一張圖片中的信息如此之多。其中大部分對(duì)你來說聽起來像是胡言亂語(yǔ)，但讓我把這張圖片的內(nèi)容翻譯給你：“每個(gè)人都在以一種方式拍攝圖像。好吧，他們錯(cuò)了，我們即將顛覆這個(gè)行業(yè)，并在此過程中殺死所有不是我們的圖像生成公司，包括 Google、xAI 或 Anthropic。

聽起來很大膽，但這正是那張圖片所暗示的。原因如下。

首先，在我們解釋每張圖片之前，我將描述該圖片的關(guān)鍵要點(diǎn)。這樣，如果這是您的情況，您可以跳過您已經(jīng)知道的部分：

生成式 AI 行業(yè)的未來是一個(gè)單一的自回歸轉(zhuǎn)換器：不再有模型拼接，一個(gè)真正的任意對(duì)任意模型。
不再有純擴(kuò)散模型。擴(kuò)散是生成圖像的主要方法，但并非未來趨勢(shì)。自回歸生成，ChatGPT 如何生成文本，也是我們應(yīng)該如何創(chuàng)建圖像。這是巨大的革命性。

為什么此模型的工作方式不同

GPT-4o 不僅進(jìn)行圖像生成——它還重新定義了它的完成方式。但要理解這種轉(zhuǎn)變，你需要了解架構(gòu)。

傳統(tǒng)上，像 DALL·E 或 MidJourney 依賴于擴(kuò)散：它們從噪聲開始，然后通過多個(gè)步驟對(duì)其進(jìn)行細(xì)化。

這些模型可以生成高質(zhì)量的輸出，但在指令遵循和多模態(tài)接地方面遇到困難，因?yàn)榕c ChatGPT 等模型不同，它們不是為了根據(jù)上下文生成輸出，而是以上下文為指導(dǎo)。

這樣想吧。ChatGPT 根據(jù)您提供給它的輸入來預(yù)測(cè)其輸出。輸入和輸出之間存在明顯的因果關(guān)系，即使是輸入中最微小的變化也會(huì)改變 ChatGPT 預(yù)測(cè)輸出的方式。

另一方面，擴(kuò)散模型生成由輸入引導(dǎo)的輸出。該模型經(jīng)過訓(xùn)練，可以逐步擦除噪聲（上圖，左）以發(fā)現(xiàn)圖像（右）。為了改變模型生成的內(nèi)容，我們提供了一個(gè)文本指令，模型在降噪過程中將其用作指導(dǎo)。

這將生成與輸入的語(yǔ)義含義匹配的圖像（cat）（“draw a cat”），如果這是您的指令，這已經(jīng)足夠好了，但如果您的輸入涉及多條指令，或者更糟的是，涉及多個(gè)圖像和文本的串聯(lián)，則這將是一項(xiàng)非常復(fù)雜的任務(wù)。

總結(jié)：

ChatGPT 總是根據(jù)你提供的上下文生成輸出;它經(jīng)過訓(xùn)練，可根據(jù)您的上下文進(jìn)行預(yù)測(cè)。；
擴(kuò)散模型經(jīng)過訓(xùn)練，可以對(duì)噪點(diǎn)圖像進(jìn)行降噪，同時(shí)希望生成的圖像在語(yǔ)義上與您的輸入匹配；

如果我們根據(jù)它們的學(xué)習(xí)目標(biāo)對(duì)這兩個(gè)模型進(jìn)行數(shù)學(xué)可視化，那么我所說的會(huì)更有意義。像 ChatGPT 這樣的自回歸模型本質(zhì)上是一個(gè)概率模型 P（ xt | x1，x2…，xt-1），它在給定所有先前的證據(jù)（輸入序列）的情況下預(yù)測(cè) ‘xt’。

擴(kuò)散模型經(jīng)過訓(xùn)練，可以看到圖像及其標(biāo)題，用噪聲破壞它，并嘗試恢復(fù)原始文件;它們從來都不是為了根據(jù)上下文進(jìn)行預(yù)測(cè)，而是輸出代表輸入文本所描述內(nèi)容的圖像。

它讀起來很相似，但結(jié)果卻大不相同。

我假設(shè)你現(xiàn)在知道我在說什么了：OpenAI 不做擴(kuò)散，而是提議將圖像生成視為與預(yù)測(cè)單詞幾乎相同的任務(wù)。

更正式地說，GPT-4o 被構(gòu)建為單個(gè)自回歸轉(zhuǎn)換器——就像 GPT 模型如何逐個(gè)令牌生成文本一樣。但在這里，每種數(shù)據(jù)類型（文本、圖像、音頻）都被標(biāo)記成統(tǒng)一的格式。這意味著圖像生成不是固定在語(yǔ)言模型上的單獨(dú)模式。兩者的主干是相同的。

這背后的關(guān)鍵原因是實(shí)現(xiàn)模態(tài)不可知論。但是，這是什么意思呢？

當(dāng)模態(tài)的重要性不再重要時(shí)

我希望你從這一切中學(xué)到的關(guān)鍵是，如果我們將每一代（文本、圖像、視頻、音頻、語(yǔ)音等）視為一個(gè)相同的預(yù)測(cè)過程，并同時(shí)在所有這些模態(tài)上訓(xùn)練模型，我們會(huì)遇到一個(gè)美麗的含義：

模態(tài)變得無關(guān)緊要，就像它與我們無關(guān)緊要一樣。

您是否在乎狗是如何被表現(xiàn)的，從而改變了您對(duì)狗的解釋？例如，閱讀關(guān)于狗的文字段落或聽到狗的吠叫是否意味著它們是不同的概念？

不，它們是相同的概念，以不同的方式表示，如聲音和文本，但基本概念是相同的。

對(duì)于 AI 來說，以前不是這種情況;他們沒有將兩個(gè)表示空間合二為一。借助像 GPT-4o 這樣的真正多模態(tài)模型，AI 也在建立這種聯(lián)系，強(qiáng)化狗不是單詞或聲音，而是一個(gè)可以通過文本、圖像、音頻描述的總體概念,…

一旦發(fā)生這種情況，并且如果架構(gòu)經(jīng)過調(diào)整以允許多模態(tài)預(yù)測(cè)（使用相同的預(yù)測(cè)方法預(yù)測(cè)多個(gè)模態(tài)中的數(shù)據(jù)），這正是 OpenAI 所做的，使模態(tài)能夠被“合并”，同時(shí)間接地使這種模態(tài)的想法與模型無關(guān);對(duì)于模型來說，數(shù)據(jù)類型并不重要，重要的是它們背后的內(nèi)容。

為了使圖像生成具有自回歸性（根據(jù)以前的上下文進(jìn)行預(yù)測(cè)），它們被認(rèn)為受到字節(jié)跳動(dòng)稱為次級(jí)預(yù)測(cè)的方法的嚴(yán)重影響。

總之，將這種架構(gòu)轉(zhuǎn)向自回歸圖像生成不僅新穎——它解決了擴(kuò)散模型無法解決的許多長(zhǎng)期問題。

它更擅長(zhǎng)遵循指令；
它更擅長(zhǎng)保持結(jié)構(gòu)；
它更擅長(zhǎng)集成多種模式；

換句話說，這不僅僅是一項(xiàng)新功能。這是一種全新的圖像生成方法。

這對(duì)圖像生成 AI 初創(chuàng)公司和數(shù)百萬藝術(shù)家、營(yíng)銷人員、UI/UX 設(shè)計(jì)師和廣告代理商意味著什么？

這一版本在整個(gè) AI 領(lǐng)域引發(fā)了沖擊波，視覺生成領(lǐng)域的初創(chuàng)公司最能感受到這種顛覆。

03 關(guān)于 AI 初創(chuàng)公司的殘酷真相

其中許多公司都是傳播優(yōu)先的文本到圖像專家，他們的核心優(yōu)勢(shì)是視覺質(zhì)量。

但 GPT-4o 增加了他們所缺乏的東西：跨模式智能。

因?yàn)?GPT-4o 是一個(gè)真正的多模態(tài)模型，所以它以前所未有的精度理解并遵守復(fù)雜的提示。不僅僅是“畫一只貓”，而是“以吉卜力風(fēng)格重新創(chuàng)建這張圖片的布局，同時(shí)保持姿勢(shì)和照明不變”。這種上下文保真度對(duì)于非多模態(tài)系統(tǒng)來說是遙不可及的。

不僅僅是 GPT-4o 產(chǎn)生了出色的視覺效果。而是它也可以對(duì)視覺效果進(jìn)行推理。這種差異使一切變得不同。

更最終地，OpenAI 已經(jīng)證明多模態(tài)訓(xùn)練允許更智能的圖像生成。簡(jiǎn)單來說，這意味著如果你要參加圖像或視頻生成比賽，你需要訓(xùn)練多模態(tài)模型，這是最昂貴和最難訓(xùn)練的模型。

那么接下來會(huì)發(fā)生什么呢？我預(yù)計(jì)會(huì)出現(xiàn)兩種結(jié)果之一。

這些以擴(kuò)散為先的初創(chuàng)公司努力轉(zhuǎn)向成本高昂、技術(shù)上棘手的多模態(tài)模型開發(fā)；
他們被已經(jīng)擁有基礎(chǔ)設(shè)施和愿景的大型參與者收購(gòu)；
然后是勞動(dòng)力市場(chǎng)；

殘酷的事實(shí)和你必須失去的最后一件事。

UI/UX 設(shè)計(jì)師、藝術(shù)家、廣告代理商、自由職業(yè)者 — 數(shù)以百萬計(jì)的視覺交易者剛剛看到了他們腳下的地面變化。

以前，創(chuàng)建出色的廣告布局或活動(dòng)圖像意味著使用 Figma、Photoshop，也許還要與團(tuán)隊(duì)合作?，F(xiàn)在，只需一個(gè)提示，至少可以獲得適度成功的結(jié)果，或者在某些情況下，獲得可用于生產(chǎn)的視覺效果。

然而，這并不意味著這些角色會(huì)消失。相反，他們正在適應(yīng)（可悲的是，他們正在收縮）。是的，現(xiàn)實(shí)情況是，曾經(jīng)花費(fèi) 3,000 美元和三周的東西現(xiàn)在可能要花費(fèi)一個(gè)句子和 30 秒的等待，這意味著這些地區(qū)對(duì)人類工作的需求將直線下降。

如果您現(xiàn)在感到害怕，或者從遠(yuǎn)處看到戰(zhàn)鼓，那么您并不孤單：

例如，我可以制作一個(gè)不錯(cuò)的廣告或引人注目的視覺效果，但我也可以保證，擁有詞匯和藝術(shù)創(chuàng)造力的藝術(shù)家和設(shè)計(jì)師，可以比我更好地傳達(dá)他們想要的東西，他們會(huì)看到巨大的需求，因?yàn)樵谝粋€(gè)充斥著 5/10 設(shè)計(jì)的世界里，那些產(chǎn)生 10/10 的設(shè)計(jì)仍然會(huì)有一席之地。

但我不會(huì)粉飾這樣一個(gè)事實(shí)，即與所有商品化市場(chǎng)一樣，如果您的產(chǎn)品沒有差異化，那么您現(xiàn)在的風(fēng)險(xiǎn)就會(huì)大大增加。

無論我們喜歡與否，我堅(jiān)信它的影響將比 ChatGPT 對(duì)寫作的影響更廣泛。純文本助手很有幫助。相比之下，GPT-4o 圖像生成直接蠶食了高價(jià)值的創(chuàng)意工作流程。

第二個(gè)“ChatGPT”時(shí)刻。

總結(jié)一下我對(duì)短期和長(zhǎng)期影響的看法：

如果 prompt-to-UI 和 prompt-to-image/video 編輯變得可靠（它們會(huì)變得可靠）， 原型設(shè)計(jì)工具可能需要完全重塑自己；
如果 prompt-to-campaign 成為常態(tài)， 營(yíng)銷團(tuán)隊(duì)將收縮，代理商將消失；
如果多模式生成成為基礎(chǔ)，那么單模態(tài)應(yīng)用程序?qū)⒃谝灰怪g成為傳統(tǒng)技術(shù)；

但需要明確的是：這并不是創(chuàng)造性工作的終點(diǎn)。它只是在變化。這是否會(huì)扼殺你周圍的藝術(shù)氛圍，我明白。無論你現(xiàn)在是否擔(dān)心你的工作，我也完全理解這一點(diǎn)。

然而，遺憾的是，市場(chǎng)并不關(guān)心你的感受，所以感到悲傷而無所作為對(duì)你沒有幫助。

幸運(yùn)的是，如果您是受影響的人之一，并不是所有的希望都消失了。

如前所述，AI 不會(huì)扼殺你的藝術(shù)天賦，而是在適應(yīng)它。每一次重大轉(zhuǎn)型都會(huì)讓那些快速適應(yīng)的人受益。

本文由 @來學(xué)習(xí)一下原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可，禁止轉(zhuǎn)載

題圖來自Unsplash，基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

來學(xué)習(xí)一下

AI智能客服

6篇作品 10196總閱讀量

支付人必看！交易、清算、結(jié)算、對(duì)賬鏈路一圖流

07-1913804 瀏覽

關(guān)于如何設(shè)計(jì)AI的方法變革——大模型的AI設(shè)計(jì)方法

07-078592 瀏覽

UI转产品，涨薪30%，只需90天：我的成功之路

刚刚

10張圖詳解“課程配置”模塊

03-286126 瀏覽

流量時(shí)代落幕，商家豪賭復(fù)購(gòu)

09-143411 瀏覽

如何使用Axure軟件設(shè)計(jì)數(shù)據(jù)可視化大屏？

05-237465 瀏覽

評(píng)論

汪仔9417

在游戲設(shè)計(jì)里，GPT-4o 的原生圖像生成可以將像素化的角色或場(chǎng)景快速轉(zhuǎn)換為高清風(fēng)格，提升視覺效果，同時(shí)保持角色的原有特征和動(dòng)作。在游戲設(shè)計(jì)的應(yīng)用很有用！

最近來自廣東回復(fù)