3個(gè)月估值10億,李飛飛空間智能首個(gè)模型誕生!一張圖生成3D世界,視頻游戲要變天

1 評(píng)論 1131 瀏覽 11 收藏 18 分鐘

李飛飛的World Labs首個(gè)「空間智能」模型,剛剛誕生了!一張圖生成一個(gè)3D世界,網(wǎng)友驚呼:太瘋狂了,我們進(jìn)入了下一輪革命,這就是視頻游戲、電影的未來。

AI生成3D世界成真了!

就在剛剛,AI教母李飛飛創(chuàng)立的World Labs首次官宣「空間智能」模型,一張圖,即可生成一個(gè)3D世界。

用李飛飛的話說,「無論怎樣理論化這個(gè)想法,都很難用語言描述一張照片或一句話生成3D場(chǎng)景的互動(dòng)體驗(yàn)。」

這是邁向空間智能的第一步。

交互傳送門:https://www.worldlabs.ai/blog#footnote1

所有場(chǎng)景都能在瀏覽器中實(shí)時(shí)渲染,還能實(shí)現(xiàn)可控的相機(jī)效果、可調(diào)節(jié)的模擬景深。

未來,游戲NPC的虛擬世界可以隨意切換,都是分分鐘生成的事情。

英偉達(dá)高級(jí)研究科學(xué)家、李飛飛高徒Jim Fan總結(jié)道,「GenAI正在創(chuàng)造越來越高維度的人類體驗(yàn)快照。Stable Diffusion是2D快照;Sora是2D+時(shí)間維度的快照;而World Labs是3D、完全沉浸式的快照」。

今年4月,李飛飛被曝出開始自創(chuàng)業(yè),專注于空間智能,新公司私下融資直接晉升10億美元獨(dú)角獸。直到9月,這家名為World Lab正式亮相,并在新一輪融資2.3億美金,得到了AI大牛Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt等人的鼎力支持。

World Labs創(chuàng)始人團(tuán)隊(duì),左起依次為Ben Mildenhall、Justin Johnson、Christoph Lassner和李飛飛

如今醞釀半年多,空間智能終見雛形。

網(wǎng)友們激動(dòng)地表示,太瘋狂了,我們即將迎來一個(gè)像是80年代、90年代那樣的革命。這將讓許多人實(shí)現(xiàn)他們的創(chuàng)意,有望降低開發(fā)成本,幫助工作室的新知識(shí)產(chǎn)權(quán)更大膽冒險(xiǎn)。

這就是視頻游戲、電影的未來。

VR從此有了更多可能性。

一、探索一個(gè)新世界

不論是Midjourney、FLUX,還是Runway、DreamMachine,我們熟知的大多數(shù)GenAI工具僅能制作圖像/視頻2D內(nèi)容。

若是實(shí)現(xiàn)了在3D中生成,視頻的控制性、一致性能得到極大的改善。

這也就意味著,制作電影、游戲、模擬器等其他物理世界的數(shù)字表現(xiàn)形式,將會(huì)發(fā)生翻天覆地的變化。

World Labs成立開始的初衷便是,空間智能的AI對(duì)世界進(jìn)行建模,還能3D時(shí)空中物體/地點(diǎn)/交互進(jìn)行推理。

這次,他們首次展示了這個(gè)3D生成的世界。

如下,是在瀏覽器中進(jìn)行的實(shí)時(shí)渲染演示(注:AI圖像均由FLUX 1.1 pro/Ideogram/Midjourney生成)。

輸入一張AI生成的古色古香的村莊圖像,然后就可以得到一個(gè)3D的世界。

提示:這是一個(gè)古色古香的村莊,鵝卵石鋪就的街道,茅草屋頂?shù)男∧疚?,中央廣場(chǎng)上有一口石井,周圍是花壇

一座富麗堂皇的宮殿,AI把光與影都展現(xiàn)得淋漓盡致。

一幅AI生成的折紙類圖片,立刻活靈活現(xiàn)了起來。

又或者輸入一張博物館取景照片,誰又能想到這周圍是什么樣子的呢?

AI幫你設(shè)想出了一切,出入門,下一間相鄰的展館、展品…..

再比如這張實(shí)景圖,AI也能想象出周圍的世界。

二、相機(jī)效果

你還可以體現(xiàn)不同相機(jī)效果,場(chǎng)景生成后,會(huì)使用虛擬相機(jī)在瀏覽器中進(jìn)行實(shí)時(shí)渲染。

通過對(duì)這個(gè)相機(jī)的精準(zhǔn)控制,便可以實(shí)現(xiàn)藝術(shù)攝影特效。

比如模擬不同的景深,讓只有在相機(jī)特定距離范圍內(nèi)的物體保持清晰:

還可以模擬滑動(dòng)變焦(dolly zoom),通過同時(shí)調(diào)整相機(jī)的位置和視場(chǎng)角來實(shí)現(xiàn)這一效果:

三、3D特效

大多數(shù)生成式模型都是預(yù)測(cè)像素的。而預(yù)測(cè)3D場(chǎng)景有很多好處:

  • 場(chǎng)景持久性:一旦生成了一個(gè)世界,它就會(huì)穩(wěn)定存在。即使你轉(zhuǎn)開視線后再次觀看,場(chǎng)景也不會(huì)在你看不見時(shí)發(fā)生變化。
  • 實(shí)時(shí)控制:生成場(chǎng)景后,你可以在其中實(shí)時(shí)移動(dòng)。你可以仔細(xì)觀察花朵的細(xì)節(jié),或是探頭查看角落后面有什么。
  • 幾何精確性:這個(gè)生成的世界遵循基本的3D幾何物理規(guī)則。它們具有真實(shí)的立體感和空間深度,與某些AI生成視頻的虛幻效果形成鮮明對(duì)比。

可視化3D場(chǎng)景最簡(jiǎn)單的方法是,就是使用深度圖(depth map)。在深度圖中,每個(gè)像素都會(huì)根據(jù)其到相機(jī)的距離來著色:

我們不僅可以利用3D場(chǎng)景結(jié)構(gòu)來創(chuàng)建交互特效:

還可以創(chuàng)建自動(dòng)運(yùn)行的動(dòng)態(tài)效果,為場(chǎng)景注入生命力:

名畫中的3D世界也可實(shí)時(shí)交互了。

四、走進(jìn)梵高的露天咖啡館

現(xiàn)在,我們可以以全新的方式,體驗(yàn)標(biāo)志性的藝術(shù)作品了!

原畫中沒有任何東西,是由模型生成的。

下面,就讓我們走進(jìn)從梵高、霍珀、修拉和康定斯基最喜歡的作品中生成的世界。

五、創(chuàng)意工作流

現(xiàn)在,3D世界生成可以十分自然地和其他AI工具組合在一起,創(chuàng)作者們可以使用已知的工具,獲得無比絲滑的全新體驗(yàn)了。

首先,可以通過使用文本到圖像模型生成圖像,來從文本創(chuàng)建世界。

不同的模型都有自己的不同風(fēng)格,而空間智能世界可以繼承這些風(fēng)格。

下面就是使用不同的文本到圖像模型生成同一場(chǎng)景的四個(gè)變體, 它們使用的都是相同的提示。

提示:一間充滿朝氣的動(dòng)漫風(fēng)格青少年臥室,床上鋪著五顏六色的毯子,書桌上雜亂地?cái)[著一臺(tái)電腦,墻上貼滿了海報(bào),各種運(yùn)動(dòng)器材隨意地散落在房間里。一把吉他斜靠在墻邊,房間中央鋪著一塊帶有精美圖案的舒適地毯。窗外透進(jìn)的陽光為整個(gè)房間營(yíng)造出溫馨活力的青春氛圍。

現(xiàn)在,已經(jīng)有一些創(chuàng)作者提前試用了。

比如Eric Solorio就使用這個(gè)模型,填補(bǔ)了自己創(chuàng)意工作流程中的空白,可以讓場(chǎng)景中的角色可以上陣,甚至還能指導(dǎo)攝像機(jī)精確移動(dòng)。

Brittani Natail則將World Labs技術(shù)與Midjourney、Runway、Suno、ElevenLabs、Blender和CapCut等工具相結(jié)合,在生成的世界中精心設(shè)計(jì)了攝像機(jī)路徑。因此,得以在三部短片中喚起不同的情緒。

現(xiàn)在,候補(bǔ)名單已經(jīng)開放了,話不多說了,趕快去申請(qǐng)吧。

六、空間智能,計(jì)算機(jī)視覺下一個(gè)前沿

此前,李飛飛在一次活動(dòng)中,首次詳細(xì)揭秘了何謂「空間智能」:

視覺化為洞察,看見成為理解,理解導(dǎo)致行動(dòng)。

她將人類智能歸結(jié)為兩大智能,一是語言智能,另一個(gè)便是空間智能。雖然語言智能備受關(guān)注,但空間智能將對(duì)AI產(chǎn)生重大的影響。

而在4月公開的TED演講中,李飛飛也分享了自己關(guān)于空間智能的更多思考,同時(shí)預(yù)示著World Labs的目標(biāo)所在。

她表示,「所有空間智能的生物所具備的行動(dòng)能力,是與生俱來的。因?yàn)椋軌驅(qū)⒏兄c行動(dòng)進(jìn)行關(guān)聯(lián)」。

「如果想讓AI超越其自身當(dāng)前的能力,我們需要的是,不僅僅能夠看到、會(huì)說話的AI,而是一個(gè)可以行動(dòng)的AI」。

就連英偉達(dá)高級(jí)計(jì)算機(jī)科學(xué)家Jim Fan稱,「空間智能,是計(jì)算機(jī)視覺和實(shí)體智能體的下一個(gè)前沿」。

正如World Labs的官博所闡述的那樣,人類智能包含了諸多方面。

語言智能,可以讓我們通過語言與他們進(jìn)行交流和聯(lián)系。而其中最為基礎(chǔ)的便是——空間智能,能夠讓我們理解,并與周圍世界進(jìn)行互動(dòng)。

此外,空間智能具備了極強(qiáng)的創(chuàng)造力,可以將我們腦海中的畫面,在現(xiàn)實(shí)中呈現(xiàn)。

正是有了空間智能,人類能夠推理、行動(dòng)和發(fā)明。從簡(jiǎn)單的沙堡到高聳的城市可視化設(shè)計(jì),都離不開它。

在接受彭博最新采訪中,李飛飛表示,人類的空間智能,實(shí)際上經(jīng)過了數(shù)百萬年的演化而來。

這是一種理解、推理、生成,甚至在一個(gè)3D世界中互動(dòng)的能力。不論是你觀賞美麗的花朵,嘗試觸摸蝴蝶,還是建造一座城市,所有這些皆是空間智能的一部分。

不僅是人類,動(dòng)物身上也可以看到這一點(diǎn)。

那么,如何讓計(jì)算機(jī)也能具備空間智能的能力呢?其實(shí)我們已經(jīng)取得了巨大的進(jìn)步,過去十年AI領(lǐng)域的發(fā)展相當(dāng)振奮人心。

一句提示,AI生成圖像、視頻,真知還能講述故事。這些模型已經(jīng)以全新的方式,重塑人類的工作和生活方式。

而我們僅是看到了GenAI革命前夜的第一章。

下一步,如何超越?

需要將這些能力,如何帶到3D領(lǐng)域。因?yàn)楝F(xiàn)實(shí)世界,就是3D的,同時(shí)人類空間智能是建立在非?!冈沟睦斫夂筒僮?D的能力之上的。

如今,單個(gè)圖像生成3D世界模型,讓我們對(duì)空間智能有了初步的理解。

參考資料:

https://x.com/DrJimFan/status/1863646433435586903

https://x.com/drfeifei/status/1863618536318345688

編輯:編輯部 HYZ

本文由人人都是產(chǎn)品經(jīng)理作者【新智元】,微信公眾號(hào):【新智元】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. AI生成游戲中的3D效果能降本增效的同時(shí),還能提高用戶體驗(yàn),促進(jìn)市場(chǎng)發(fā)展,一舉多得。

    來自廣東 回復(fù)