国产精品天干天干在线观,国产麻豆蜜桃果冻传媒视频

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

李飛飛最新 a16z 對(duì)話

有新Newin

2024-09-23

0 評(píng)論 1198 瀏覽 0 收藏

41 分鐘

李飛飛和其他AI領(lǐng)域的專家在a16z的對(duì)話中探討了AI的歷史、現(xiàn)狀和未來(lái)，特別強(qiáng)調(diào)了空間智能的重要性，并且還預(yù)測(cè)了AI技術(shù)將在未來(lái)帶來(lái)的變革性新應(yīng)用。

近日，李飛飛與 a16z 合伙人 Martin Casado 以及研究者 Justin Johnson 展開討論了 AI 領(lǐng)域的歷史、現(xiàn)狀以及未來(lái)發(fā)展方向，話題涵蓋了 AI 技術(shù)的各個(gè)層面，特別是生成式 AI 和空間智能的未來(lái)潛力。

李飛飛強(qiáng)調(diào)，生成式 AI 在她的研究生階段就已經(jīng)存在，但早期技術(shù)還不成熟。隨著深度學(xué)習(xí)和計(jì)算能力的飛躍，生成式 AI 在最近幾年取得了令人矚目的進(jìn)展，成為 AI 領(lǐng)域的核心突破之一。

她還介紹了最新創(chuàng)業(yè)項(xiàng)目 World Labs，專注于“空間智能”，即機(jī)器在 3D 和 4D 空間中的理解和互動(dòng)能力。

她指出，空間智能不僅適用于虛擬世界的生成，還可以融合現(xiàn)實(shí)世界，廣泛應(yīng)用于增強(qiáng)現(xiàn)實(shí)（AR）、虛擬現(xiàn)實(shí)（VR）和機(jī)器人領(lǐng)域，而 AI 技術(shù)的進(jìn)步將為我們帶來(lái)無(wú)法想象的新應(yīng)用場(chǎng)景，包括虛擬世界生成、增強(qiáng)現(xiàn)實(shí)和與物理世界的交互。

以下為這次對(duì)話主要內(nèi)容，enjoy～

Martin Casado

在過(guò)去的兩年里，我們看到了一波涌現(xiàn)的消費(fèi)級(jí) AI 公司和技術(shù)，這個(gè)過(guò)程非常瘋狂。而你們已經(jīng)在這個(gè)領(lǐng)域工作了幾十年。所以我們可能聊一下，你們?cè)谶@個(gè)過(guò)程中做出的關(guān)鍵貢獻(xiàn)以及洞見(jiàn)。

Feifei Li

這是一個(gè)非常激動(dòng)人心的時(shí)刻，回顧一下， AI 正處于一個(gè)令人興奮的時(shí)刻。我個(gè)人已經(jīng)從事這個(gè)領(lǐng)域超過(guò)二十年，我們走出了上一次的 AI 寒冬，見(jiàn)證了現(xiàn)代 AI 的誕生。隨后我們看到深度學(xué)習(xí)的興起，它向我們展示了各種可能性，比如下棋。

然后，我們開始看到技術(shù)的深入發(fā)展以及行業(yè)對(duì)早期可能性的應(yīng)用，比如語(yǔ)言模型。現(xiàn)在，我認(rèn)為我們正處在一次“寒武紀(jì)大爆發(fā)”中。

在某種意義上來(lái)說(shuō)，現(xiàn)在除了文本，我們還看到像素、視頻、音頻等都開始與 AI 應(yīng)用和模型結(jié)合，所以這是一個(gè)非常令人興奮的時(shí)刻。

Martin Casado

我認(rèn)識(shí)你們倆很久了，很多人也認(rèn)識(shí)你們，因?yàn)槟銈冊(cè)谶@個(gè)領(lǐng)域非常突出。但并不是所有人都了解你們?cè)?AI 領(lǐng)域的起步，所以或許我們可以簡(jiǎn)單介紹一下你們的背景，幫助觀眾建立基礎(chǔ)認(rèn)知。

Justin Johnson

好的，我最初接觸 AI 是在本科快結(jié)束時(shí)。我在加州理工學(xué)院（Caltech）學(xué)習(xí)數(shù)學(xué)和計(jì)算機(jī)科學(xué)，那段時(shí)間非常棒。在那期間，有一篇非常有名的論文發(fā)布了，那就是 Home Neck Lee 和 Andrew Ng 等人在 Google Brain 的“貓論文”，這是我第一次接觸深度學(xué)習(xí)的概念。

這種技術(shù)讓我感到驚艷，那是我第一次遇到這種配方：強(qiáng)大的通用學(xué)習(xí)算法、巨大的計(jì)算資源和大量的數(shù)據(jù)結(jié)合在一起時(shí)，會(huì)發(fā)生一些神奇的事情。

我大約在 2011 年、 2012 年左右接觸到這個(gè)想法，當(dāng)時(shí)我就覺(jué)得這將是我未來(lái)要做的事情。

顯然，要做這些工作必須去讀研究生，于是我發(fā)現(xiàn) Feifei 在斯坦福，她當(dāng)時(shí)是世界上少數(shù)幾位深入研究這一領(lǐng)域的人之一。

當(dāng)時(shí)是從事深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)的絕佳時(shí)機(jī)，因?yàn)檫@是技術(shù)從萌芽期走向成熟并廣泛應(yīng)用的時(shí)刻。

那段時(shí)間，我們看到了語(yǔ)言建模的開端，也看到了區(qū)分性計(jì)算機(jī)視覺(jué)的起步——

你可以通過(guò)圖片理解其中的內(nèi)容。這段時(shí)間還出現(xiàn)了我們今天稱之為生成式 AI 的早期發(fā)展，生成圖像、生成文本等算法核心部分也是在我讀博期間由學(xué)術(shù)界解決的。

當(dāng)時(shí)每天早上醒來(lái)，我都會(huì)打開 arXiv 查看最新的研究成果，就像拆圣誕禮物一樣，幾乎每天都有新的發(fā)現(xiàn)。

過(guò)去兩年里，世界其他人也開始意識(shí)到，每天通過(guò) AI 技術(shù)有新的“圣誕禮物”收到。但對(duì)我們這些從事這個(gè)領(lǐng)域十多年的人來(lái)說(shuō)，這種體驗(yàn)早就有了。

Feifei Li

顯然，我比Justin要年長(zhǎng)得多。我是從物理學(xué)進(jìn)入 AI 領(lǐng)域的，因?yàn)槲业谋究票尘笆俏锢韺W(xué)。物理學(xué)是一門教你思考大膽問(wèn)題的學(xué)科，比如世界上未解之謎。

在物理學(xué)中，這些問(wèn)題可能與原子世界、宇宙相關(guān)，但這種訓(xùn)練讓我產(chǎn)生了對(duì)另一個(gè)問(wèn)題的興趣——智能。因此，我在加州理工學(xué)院做了 AI 和計(jì)算神經(jīng)科學(xué)的博士研究。Justin和我雖然沒(méi)有在加州理工學(xué)院重疊過(guò)，但我們共享相同的母校。

Justin Johnson

還有相同的導(dǎo)師？

Feifei Li

是的，你的本科導(dǎo)師也是我的博士導(dǎo)師，Pietro Perona。在我讀博期間， AI 在公眾視野里正處于寒冬，但在我眼中并非如此。

這更像是春天前的冬眠期，機(jī)器學(xué)習(xí)和生成模型正在蓄積力量。我認(rèn)為我是機(jī)器學(xué)習(xí)領(lǐng)域的“本地人”，而 Justin 的那一代是深度學(xué)習(xí)的“原住民”。

機(jī)器學(xué)習(xí)是深度學(xué)習(xí)的前身，我們當(dāng)時(shí)實(shí)驗(yàn)了各種模型。

但在我博士結(jié)束時(shí)以及擔(dān)任助理教授期間，我的學(xué)生和我實(shí)驗(yàn)室意識(shí)到，有一個(gè)被忽視的 AI 元素在驅(qū)動(dòng)著泛化能力，這個(gè)領(lǐng)域當(dāng)時(shí)并未深入思考，那就是數(shù)據(jù)。我們當(dāng)時(shí)專注于貝葉斯模型等復(fù)雜模型，而忽略了讓數(shù)據(jù)驅(qū)動(dòng)模型的重要性。

這是我們押注 ImageNet 的原因之一。當(dāng)時(shí)所有領(lǐng)域的數(shù)據(jù)集規(guī)模都很小，計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的標(biāo)準(zhǔn)數(shù)據(jù)集都是幾千或幾萬(wàn)條數(shù)據(jù)，但我們意識(shí)到需要提升到互聯(lián)網(wǎng)規(guī)模。

幸運(yùn)的是，互聯(lián)網(wǎng)時(shí)代也正在崛起，我們乘上了這股浪潮，也正是在這個(gè)時(shí)候我來(lái)到了斯坦福。

Martin Casado

這些時(shí)代就像我們經(jīng)常談?wù)摰哪切?，比?ImageNet 顯然是推動(dòng)或至少是讓計(jì)算機(jī)視覺(jué)在生成式 AI 領(lǐng)域中流行并具備可行性的重要時(shí)代。

我們通常會(huì)提到兩個(gè)關(guān)鍵的突破：一個(gè)是 Transformer 的論文，即“注意力機(jī)制”（attention），另一個(gè)是較少談到的“穩(wěn)定擴(kuò)散”（stable diffusion）。

用這種方式來(lái)理解這兩個(gè)來(lái)自學(xué)術(shù)界（尤其是谷歌）的算法突破是否合理？或者說(shuō)這更是一個(gè)有意為之的過(guò)程？亦或是還有其他一些不常被提及的重大突破也推動(dòng)了我們走到今天？

Justin Johnson

是的，我認(rèn)為最大的突破在于計(jì)算能力。我知道 AI 的故事往往也是計(jì)算能力的故事，但即便人們經(jīng)常提到它，我認(rèn)為它的影響還是被低估了。

過(guò)去十年我們?cè)谟?jì)算能力上看到的增長(zhǎng)是驚人的。被認(rèn)為是深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域突破性時(shí)刻的第一篇論文是 AlexNet，這是一篇 2012 年的論文，深度神經(jīng)網(wǎng)絡(luò)在 ImageNet 挑戰(zhàn)賽中表現(xiàn)出色，遠(yuǎn)超其他當(dāng)時(shí)的算法。

在研究生期間你可能會(huì)接觸到的那些算法，和 AlexNet 相比相形見(jiàn)絀。AlexNet 是一個(gè)擁有 6000 萬(wàn)個(gè)參數(shù)的深度神經(jīng)網(wǎng)絡(luò)，它在兩張 GTX 580 顯卡上訓(xùn)練了六天，GTX 580 是當(dāng)時(shí)最強(qiáng)大的消費(fèi)級(jí)顯卡，發(fā)布于 2010 年。

我昨晚查了一些數(shù)據(jù)，想把這些放在一個(gè)更大的背景中看待。英偉達(dá)最新的顯卡是 GB200，你們猜一下 GTX 580 和 GB200 之間的計(jì)算能力差距有多大？

數(shù)量在幾千左右，所以我昨晚算了一下數(shù)據(jù)。像是那兩周的訓(xùn)練，那六天是在兩塊GTX 580上運(yùn)行的，如果擴(kuò)展一下，大概可以在一塊GB200上運(yùn)行不到五分鐘。

這樣想的話，真的有個(gè)很好的論點(diǎn)—— 2012 年 AlexNet 在 ImageNet 挑戰(zhàn)賽上的論文真的是一個(gè)非常經(jīng)典的模型，那就是卷積神經(jīng)網(wǎng)絡(luò)模型。

而實(shí)際上，這個(gè)概念早在 1980 年代就已經(jīng)出現(xiàn)了，我還記得作為研究生學(xué)習(xí)的第一篇論文，內(nèi)容也差不多，有六七層的網(wǎng)絡(luò)結(jié)構(gòu)。AlexNet 和卷積神經(jīng)網(wǎng)絡(luò)模型的唯一區(qū)別幾乎就是 GPU ——使用了兩個(gè) GPU 和海量的數(shù)據(jù)。

所以我本來(lái)要說(shuō)的是，大多數(shù)人現(xiàn)在都熟悉所謂的“痛苦的教訓(xùn)”（bitter lesson），這個(gè)教訓(xùn)說(shuō)的是，如果你開發(fā)一個(gè)算法，只要確保你能利用現(xiàn)有的計(jì)算資源，因?yàn)檫@些資源會(huì)逐漸變得可用。于是你只需要一個(gè)能夠不斷進(jìn)步的系統(tǒng)。

另一方面，似乎還有另一個(gè)同樣有說(shuō)服力的觀點(diǎn)，那就是新的數(shù)據(jù)源實(shí)際上解鎖了深度學(xué)習(xí)。ImageNet 就是一個(gè)很好的例子。雖然很多人認(rèn)為自注意力機(jī)制對(duì) Transformer 模型很重要，但他們也會(huì)說(shuō)這是利用人工標(biāo)注數(shù)據(jù)的一種方式。

因?yàn)槿祟悶榫渥咏Y(jié)構(gòu)提供了標(biāo)注，如果你看看 CLIP 模型，它實(shí)際上是通過(guò)互聯(lián)網(wǎng)讓人類使用alt標(biāo)簽來(lái)標(biāo)記圖片。

因此，這實(shí)際上是一個(gè)關(guān)于數(shù)據(jù)的故事，而不是關(guān)于計(jì)算的故事。那么答案是兩者兼有，還是更偏向某一方呢？我認(rèn)為是兩者兼有，但你也提到了另一個(gè)非常關(guān)鍵的點(diǎn)。

Martin Casado

我覺(jué)得在算法領(lǐng)域中，實(shí)際上有兩個(gè)明顯不同的時(shí)代。ImageNet 時(shí)代是監(jiān)督學(xué)習(xí)的時(shí)代。在這個(gè)時(shí)代，我們有很多數(shù)據(jù)，但我們不知道如何僅憑數(shù)據(jù)本身來(lái)訓(xùn)練。

ImageNet 和其他同時(shí)期的數(shù)據(jù)集的預(yù)期是，我們會(huì)有大量的圖像，但我們需要人類對(duì)每張圖像進(jìn)行標(biāo)注。而我們訓(xùn)練的所有數(shù)據(jù)，都是由人類標(biāo)注員逐一查看并標(biāo)注的。

而算法的重大突破在于，我們現(xiàn)在知道如何在不依賴人類標(biāo)注的數(shù)據(jù)上進(jìn)行訓(xùn)練。對(duì)于一個(gè)沒(méi)有 AI 背景的普通人來(lái)說(shuō)，似乎如果你在訓(xùn)練人類數(shù)據(jù)，人類實(shí)際上已經(jīng)進(jìn)行了標(biāo)注，只是這種標(biāo)注并不是顯式的。

Justin Johnson

是的，哲學(xué)上來(lái)說(shuō)，這是一個(gè)非常重要的問(wèn)題，但這個(gè)問(wèn)題在語(yǔ)言領(lǐng)域比在圖像領(lǐng)域更為真實(shí)。是的，但我確實(shí)認(rèn)為這是一個(gè)重要的區(qū)別。

CLIP 確實(shí)是由人類標(biāo)注的。我認(rèn)為自注意力機(jī)制是人類已經(jīng)理解了事物之間的關(guān)系，然后你通過(guò)這些關(guān)系進(jìn)行學(xué)習(xí)。

所以它仍然是由人類標(biāo)注的，只不過(guò)這種標(biāo)注是隱式的，而不是顯式的。區(qū)別在于，在監(jiān)督學(xué)習(xí)時(shí)代，我們的學(xué)習(xí)任務(wù)受到更多限制。我們必須設(shè)計(jì)出一套我們想要發(fā)現(xiàn)的概念本體論。

比如在 ImageNet 中，F(xiàn)ei-Fei Li和她的學(xué)生們花了很多時(shí)間思考 ImageNet 挑戰(zhàn)賽中的一千個(gè)類別應(yīng)該是什么。而在同時(shí)期的其他數(shù)據(jù)集，如用于目標(biāo)檢測(cè)的COCO數(shù)據(jù)集，他們也花了很多心思去決定放入哪些80個(gè)類別。

Martin Casado

那么讓我們談?wù)勆墒?AI 。當(dāng)我攻讀博士學(xué)位的時(shí)候，在你們出現(xiàn)之前，我上過(guò) Andrew Ng 的機(jī)器學(xué)習(xí)課程，還學(xué)過(guò) Daphne Koller 非常復(fù)雜的貝葉斯課程，對(duì)我來(lái)說(shuō)這些都很復(fù)雜。

當(dāng)時(shí)的很多內(nèi)容都是預(yù)測(cè)建模。我還記得你解鎖了整個(gè)視覺(jué)領(lǐng)域的東西，但是生成式 AI 大約是在過(guò)去四年中才出現(xiàn)的。

這對(duì)我來(lái)說(shuō)是一個(gè)完全不同的領(lǐng)域——你不再是識(shí)別物體，也不是在預(yù)測(cè)什么，而是在生成新的東西。

所以也許我們可以談?wù)勈鞘裁搓P(guān)鍵因素讓生成式 AI 得以實(shí)現(xiàn)，它和之前的不同之處，以及我們是否應(yīng)該以不同的方式去看待它，它是否是一個(gè)連續(xù)發(fā)展的部分還是另一個(gè)全新的領(lǐng)域？

Feifei Li

這非常有趣，即使在我研究生時(shí)代，生成模型就已經(jīng)存在了。我們當(dāng)時(shí)就想做生成，只不過(guò)沒(méi)人記得了，即使是用字母和數(shù)字做生成，我們也在嘗試一些事情。Jeff Hinton 當(dāng)時(shí)有一些關(guān)于生成的論文，我們也在思考如何生成。

實(shí)際上，如果你從概率分布的角度來(lái)看，數(shù)學(xué)上是可以進(jìn)行生成的，只是當(dāng)時(shí)生成的東西根本無(wú)法讓人感到驚艷。所以，盡管從數(shù)學(xué)理論上來(lái)看生成的概念是存在的，但實(shí)際上沒(méi)有任何生成效果讓人感到滿意。

然后我想特別提到一位博士生，他在深度學(xué)習(xí)方面有著濃厚的興趣，來(lái)到了我的實(shí)驗(yàn)室。這個(gè)博士生的整個(gè)博士學(xué)習(xí)經(jīng)歷幾乎可以說(shuō)是這個(gè)領(lǐng)域發(fā)展軌跡的縮影。

他的第一個(gè)項(xiàng)目是數(shù)據(jù)，我逼著他做，盡管他不喜歡，但事后他也承認(rèn)學(xué)到了很多有用的東西。“現(xiàn)在我很高興你能這么說(shuō)?！庇谑俏覀冝D(zhuǎn)向深度學(xué)習(xí)，核心問(wèn)題是如何從圖像生成文字。實(shí)際上，這個(gè)過(guò)程中有三個(gè)明確的階段。

第一個(gè)階段是將圖像和文字進(jìn)行匹配。我們有圖像，也有文字，接下來(lái)我們要看它們之間的關(guān)聯(lián)度。我的第一篇學(xué)術(shù)論文，也是我的第一篇博士論文，研究的就是基于場(chǎng)景圖的圖像檢索。

接下來(lái)，我們繼續(xù)深入研究，從像素生成文字，這方面他和 Andrej 都做了很多工作，但依然是一種非常有損的生成方式，信息從像素世界中獲取時(shí)損失很大。

中間階段有一個(gè)非常著名的工作，那個(gè)時(shí)候有人第一次實(shí)現(xiàn)了實(shí)時(shí)化。2015 年，一篇叫《神經(jīng)算法的藝術(shù)風(fēng)格》的論文由 Leon Gatys 領(lǐng)導(dǎo)發(fā)表。他們展示了將現(xiàn)實(shí)世界的照片轉(zhuǎn)換為梵高風(fēng)格的圖片。

我們現(xiàn)在可能習(xí)以為常，但那是在 2015 年，那篇論文突然出現(xiàn)在 arXiv 上，震驚了我。我感覺(jué)大腦中被注入了一種“生成 AI 的病毒”。我心想：“天哪，我需要理解這個(gè)算法，玩一玩，試著把自己的圖片變成梵高風(fēng)格。”

于是，我花了一個(gè)長(zhǎng)周末重新實(shí)現(xiàn)了這個(gè)算法，讓它能夠正常運(yùn)行。其實(shí)它是一個(gè)非常簡(jiǎn)單的算法，我的實(shí)現(xiàn)大概只有 300 行代碼，當(dāng)時(shí)是用Lua寫的，因?yàn)槟菚r(shí)候還沒(méi)有 PyTorch，我們用的是 Lua Torch。

不過(guò)盡管算法簡(jiǎn)單，它的速度很慢。每生成一張圖片，你都需要運(yùn)行優(yōu)化循環(huán)，耗費(fèi)很多時(shí)間。生成的圖片很漂亮，但我就是希望它能更快一點(diǎn)。最后，我們確實(shí)讓它變快了。

還有一點(diǎn)我非常自豪的是，在生成 AI 真正走向世界之前，他在博士研究的最后一部分做了一個(gè)非常前沿的工作。

這個(gè)項(xiàng)目是通過(guò)輸入自然語(yǔ)言來(lái)生成完整的圖像，這可以說(shuō)是最早的生成 AI 工作之一。我們使用的是GANs，但當(dāng)時(shí)它非常難用。問(wèn)題是，我們還沒(méi)有準(zhǔn)備好用自然語(yǔ)言來(lái)描述一幅完整的圖像。

于是，他采用了一個(gè)場(chǎng)景圖結(jié)構(gòu)輸入方式，輸入內(nèi)容是“羊群”、“草地”、“天空”等，并用這種方式生成了一幅完整的圖像。

從數(shù)據(jù)匹配到風(fēng)格轉(zhuǎn)換，再到生成圖像，我們逐漸看到了一個(gè)完整的轉(zhuǎn)變。你問(wèn)這是否是一個(gè)巨大的變化，對(duì)于像我們這樣的人來(lái)說(shuō)，這是一個(gè)持續(xù)的過(guò)程，但對(duì)于大眾而言，成果確實(shí)顯得突然且具有沖擊力。

Martin Casado

我讀了你的書，真是一本很棒的書，我強(qiáng)烈推薦大家去讀。而且，F(xiàn)ei-Fei，我想說(shuō)的是，長(zhǎng)期以來(lái)，你的很多研究和方向都聚焦于空間智能、像素處理等領(lǐng)域。

現(xiàn)在你在做的 World Labs 也和空間智能相關(guān)。能談?wù)勥@是你長(zhǎng)期旅程的一部分嗎？你為什么現(xiàn)在決定去做這個(gè)？這是否是某種技術(shù)突破或個(gè)人原因？你能否帶我們從 AI 研究的背景過(guò)渡到 World Labs？

Fei-Fei Li

對(duì)于我來(lái)說(shuō)，這既是個(gè)人的追求，也是智力上的旅程。你提到了我的書，我的整個(gè)智力旅程實(shí)際上是一種對(duì)“北極星”的追尋，同時(shí)也堅(jiān)信這些北極星對(duì)于我們領(lǐng)域的進(jìn)步至關(guān)重要。

在一開始的時(shí)候，我還記得研究生畢業(yè)后，我認(rèn)為我的北極星是“為圖像講故事”，因?yàn)閷?duì)我來(lái)說(shuō)，這是視覺(jué)智能的一個(gè)重要組成部分，也就是你所說(shuō)的 AI 的一部分。

但是，當(dāng) Justin 和 Andrej 完成他們的工作時(shí)，我想：“天哪，這就是我一生的夢(mèng)想，我接下來(lái)要做什么？”這個(gè)進(jìn)展比我預(yù)期的快得多——我本以為需要一百年才能實(shí)現(xiàn)這些。

視覺(jué)智能始終是我的熱情所在。我堅(jiān)信，對(duì)于每一個(gè)有智能的存在，比如人類、機(jī)器人，或者其他形式的存在，學(xué)會(huì)如何看待這個(gè)世界、如何推理、如何與世界互動(dòng)是至關(guān)重要的。

無(wú)論是導(dǎo)航、操控、制造，甚至是構(gòu)建文明，視覺(jué)和空間智能都在其中扮演著基礎(chǔ)性角色。

它的基礎(chǔ)性可能和語(yǔ)言一樣，甚至在某些方面更加古老和基本。因此，World Labs的北極星，就是解鎖空間智能，而現(xiàn)在是正確的時(shí)機(jī)。

就像 Justin 說(shuō)的那樣，我們已經(jīng)具備了所需的資源——計(jì)算能力和對(duì)數(shù)據(jù)更深的理解。與 ImageNet 時(shí)代相比，我們?cè)跀?shù)據(jù)理解上變得更加復(fù)雜。

我們也擁有了算法方面的進(jìn)展，比如我們的共同創(chuàng)始人 Ben Mildenhall 和 Christoph Lassner 在 Nerf 方面的前沿工作。我們覺(jué)得現(xiàn)在是下定決心、專注這一領(lǐng)域并解鎖其潛力的最佳時(shí)機(jī)。

Martin Casado

為了讓大家理解清楚，你現(xiàn)在創(chuàng)辦了這家公司——World Labs，而你們要解決的問(wèn)題就是“空間智能”。你能簡(jiǎn)明扼要地描述一下，什么是空間智能嗎？

Fei-Fei Li

空間智能指的是機(jī)器理解、感知、推理并在 3D 空間和時(shí)間中采取行動(dòng)的能力。具體來(lái)說(shuō)，它是指理解物體和事件如何在 3D 空間和時(shí)間中定位，以及世界中的交互如何影響這些 3D 位置。

這不僅僅是讓機(jī)器停留在數(shù)據(jù)中心或主機(jī)中，而是讓它走向現(xiàn)實(shí)世界，去理解這個(gè)豐富的 3D 、4D 世界。

Martin Casado

你說(shuō)的這個(gè)“世界”是指現(xiàn)實(shí)的物理世界，還是一種抽象概念上的世界？

Fei-Fei Li

我認(rèn)為兩者兼有。這也代表了我們長(zhǎng)期的愿景。即使你是在生成虛擬世界或內(nèi)容，定位于 3D 中仍然有很多好處?；蛘弋?dāng)你在識(shí)別現(xiàn)實(shí)世界時(shí)，能夠?qū)?3D 理解應(yīng)用到真實(shí)世界中也是其中的一部分。

Martin Casado

你們的共同創(chuàng)始人團(tuán)隊(duì)真是非常強(qiáng)大。那你覺(jué)得為什么現(xiàn)在是做這件事的合適時(shí)機(jī)呢？

Fei-Fei Li

這實(shí)際上是一個(gè)長(zhǎng)期進(jìn)化的過(guò)程。在博士畢業(yè)后，我開始尋找成為獨(dú)立研究員的道路，并且思考 AI 和計(jì)算機(jī)視覺(jué)領(lǐng)域中的大問(wèn)題。當(dāng)時(shí)我得出的結(jié)論是，過(guò)去十年主要是在理解已經(jīng)存在的數(shù)據(jù)，而接下來(lái)的十年將會(huì)是理解新的數(shù)據(jù)。

過(guò)去的數(shù)據(jù)，主要是網(wǎng)絡(luò)上已經(jīng)存在的圖像和視頻，而未來(lái)的數(shù)據(jù)則是全新的——智能手機(jī)出現(xiàn)了，這些手機(jī)有相機(jī)，有新的傳感器，并且可以在 3D 世界中定位。這不僅僅是你從互聯(lián)網(wǎng)上獲取一堆像素并試圖判斷這是一只貓還是一只狗的問(wèn)題了。

我們希望把這些圖像當(dāng)作與物理世界的通用傳感器，幫助我們理解世界的 3D 和4D 結(jié)構(gòu)，無(wú)論是在物理空間還是生成空間中。

博士畢業(yè)后，我做了一個(gè)很大的轉(zhuǎn)變，進(jìn)入了 3D 計(jì)算機(jī)視覺(jué)領(lǐng)域，與我的同事們一起研究如何預(yù)測(cè)物體的 3D 形狀。后來(lái)，我對(duì)通過(guò) 2D 數(shù)據(jù)學(xué)習(xí) 3D 結(jié)構(gòu)的想法產(chǎn)生了濃厚的興趣。

我們討論數(shù)據(jù)時(shí)常會(huì)提到，獲取 3D 數(shù)據(jù)很難，但實(shí)際上 2D 圖像是 3D 世界的投影，這里有很多可以利用的數(shù)學(xué)結(jié)構(gòu)。即便你有大量的 2D 數(shù)據(jù)，你也可以通過(guò)這些數(shù)學(xué)結(jié)構(gòu)推導(dǎo)出 3D 世界的結(jié)構(gòu)。

2020年是一個(gè)突破性時(shí)刻。我們的共同創(chuàng)始人 Ben Mildenhall 提出了 Nerf （神經(jīng)輻射場(chǎng)）方法。這是一種非常簡(jiǎn)單、清晰的方式，可以通過(guò) 2D 觀測(cè)推導(dǎo)出 3D 結(jié)構(gòu)，點(diǎn)燃了整個(gè) 3D 計(jì)算機(jī)視覺(jué)領(lǐng)域。

與此同時(shí)， LLM 也開始嶄露頭角。很多語(yǔ)言建模的工作實(shí)際上在學(xué)術(shù)界已經(jīng)發(fā)展了很長(zhǎng)時(shí)間。即使在我的博士階段，我也與 Andrej Karpathy 在 2014 年進(jìn)行了一些語(yǔ)言建模工作。

Justin Johnson

這其實(shí)是出現(xiàn)在 Transformer 之前的事情，但到了 GPT-2 的時(shí)代，你在學(xué)術(shù)界已經(jīng)很難再做這樣的模型了，因?yàn)樗鼈冃枰挠?jì)算資源太大了。然而，有趣的是，Ben 提出的 Nerf 方法，只需要在單個(gè) GPU 上訓(xùn)練幾個(gè)小時(shí)。

這讓很多學(xué)術(shù)研究者開始重新聚焦于這些問(wèn)題，因?yàn)榭梢栽谟邢薜挠?jì)算資源下解決一些核心算法問(wèn)題，而且你可以在單個(gè) GPU 上獲得最先進(jìn)的成果。

所以當(dāng)時(shí)很多學(xué)術(shù)研究者都在思考：我們?nèi)绾瓮ㄟ^(guò)核心算法來(lái)推動(dòng)這個(gè)領(lǐng)域的發(fā)展？我和Fei-Fei聊了很多，我們都非常確信這一點(diǎn)。

Fei-Fei Li

是的，我們發(fā)現(xiàn)我們的研究方向在某種程度上正朝著相似的目標(biāo)前進(jìn)。我還想講述一個(gè)很有趣的技術(shù)問(wèn)題，或者說(shuō)一個(gè)關(guān)于像素的技術(shù)故事。

很多從事語(yǔ)言研究的人可能不知道，在生成 AI 時(shí)代之前，我們這些從事計(jì)算機(jī)視覺(jué)領(lǐng)域的人，實(shí)際上有一個(gè)很長(zhǎng)的歷史，叫做 3D 重建的研究。

這可以追溯到上世紀(jì)70年代，你可以通過(guò)拍攝照片——因?yàn)槿祟愑袃芍谎劬?，所以可以用立體照片來(lái)嘗試三角測(cè)量，構(gòu)建 3D 形狀。然而這是一個(gè)非常難的問(wèn)題，至今尚未完全解決，因?yàn)榇嬖谄ヅ鋯?wèn)題等復(fù)雜情況。

這個(gè)領(lǐng)域有著長(zhǎng)期的進(jìn)展，但是當(dāng) Nerf 和生成方法結(jié)合，尤其是在擴(kuò)散模型的背景下， 3D 重建與生成突然開始融合。

在計(jì)算機(jī)視覺(jué)領(lǐng)域內(nèi)，我們突然發(fā)現(xiàn)，如果我們看到某個(gè)東西，或者想象某個(gè)東西，二者都可以匯聚到生成它的方向。這是一個(gè)非常重要的時(shí)刻，但很多人可能沒(méi)有注意到這一點(diǎn)，因?yàn)槲覀儧](méi)有像談?wù)?LLM 那樣廣泛討論它。

Justin Johnson

對(duì)，在像素空間中有重建，例如你重建一個(gè)真實(shí)的場(chǎng)景；而如果你看不到那個(gè)場(chǎng)景，則會(huì)使用生成技術(shù)。這兩者實(shí)際上是非常相似的。

整個(gè)對(duì)話中你一直在談?wù)撜Z(yǔ)言和像素，或許這是一個(gè)好時(shí)機(jī)來(lái)討論空間智能與語(yǔ)言方法的對(duì)比，比如它們是互補(bǔ)的，還是完全不同的？

Fei-Fei Li

我認(rèn)為它們是互補(bǔ)的。我不確定如何定義“完全不同”，但我可以嘗試做個(gè)對(duì)比。如今，很多人都在談?wù)揋PT、開放 AI 以及多模態(tài)模型。

大家覺(jué)得這些模型既能處理像素，也能處理語(yǔ)言。那么它們是否能實(shí)現(xiàn)我們想要的空間推理呢？為了回答這個(gè)問(wèn)題，我們需要打開這些系統(tǒng)的“黑箱”，看看它們是如何在底層工作的。

語(yǔ)言模型和我們現(xiàn)在看到的多模態(tài)語(yǔ)言模型，其底層的表示是“一維的”。我們談?wù)撋舷挛拈L(zhǎng)度、 Transformer 、序列、注意力機(jī)制，但歸根結(jié)底，這些模型的表示是基于一維的序列化令牌。

這種表示在處理語(yǔ)言時(shí)是非常自然的，因?yàn)槲谋颈旧砭褪怯梢痪S的離散字母序列組成的。這種一維表示是 LLM 成功的基礎(chǔ)，現(xiàn)在我們看到的多模態(tài) LLM 也是如此，它們將其他模態(tài)（如圖像）“硬塞進(jìn)”這種一維的表示中。

而在空間智能領(lǐng)域，我們的思路正好相反——我們認(rèn)為世界的三維本質(zhì)應(yīng)該成為表示的核心。從算法的角度來(lái)看，這為我們處理數(shù)據(jù)和獲得不同類型的輸出提供了新的機(jī)會(huì)，幫助我們解決一些截然不同的問(wèn)題。

即使從一個(gè)粗略的層面來(lái)看，你可能會(huì)說(shuō)：“多模態(tài) LLM 也能看圖像。”確實(shí)可以，但它們?cè)谔幚韴D像時(shí)沒(méi)有將三維的本質(zhì)置于其方法的核心。

Justin Johnson

我完全同意，討論一維與三維表示的根本性區(qū)別是非常核心的。此外，還有一個(gè)稍微哲學(xué)化的觀點(diǎn)，但對(duì)我來(lái)說(shuō)同樣重要：語(yǔ)言本質(zhì)上是一種純生成的信號(hào)，世界上不存在語(yǔ)言。你走到大自然中不會(huì)看到天上寫著文字。

無(wú)論你輸入什么數(shù)據(jù)，語(yǔ)言模型幾乎都可以通過(guò)足夠的泛化將相同的數(shù)據(jù)吐出來(lái)，這就是語(yǔ)言生成的特質(zhì)。

但 3D 世界不同，它遵循物理法則，擁有自己的結(jié)構(gòu)和材料。能夠從根本上提取這些信息，進(jìn)行表示和生成，這是一種完全不同的問(wèn)題。盡管我們會(huì)借鑒語(yǔ)言模型中的一些有用的想法，但從根本上來(lái)說(shuō)，這是一個(gè)不同的哲學(xué)問(wèn)題。

Martin Casado

對(duì)，所以語(yǔ)言模型是一維的，可能是對(duì)物理世界的不良表示，因?yàn)樗侨祟惿傻?，帶有損失。而另一個(gè)生成模型的模態(tài)是像素，即 2D 圖像和視頻。

如果你看視頻，可以看到 3D 場(chǎng)景，因?yàn)閿z像機(jī)可以平移。那么空間智能與 2D 視頻有什么不同呢？

Fei-Fei Li

這里有兩點(diǎn)值得思考。一是底層的表示，二是用戶體驗(yàn)的便利性。這兩者有時(shí)會(huì)讓人混淆。我們感知的是 2D ——我們的視網(wǎng)膜是二維的結(jié)構(gòu)，但我們的大腦將其視為三維世界的投影。

你可能希望移動(dòng)物體、移動(dòng)攝像機(jī)，原則上你可以用二維的表示和模型來(lái)做這些事情，但它并不適合解決你提出的問(wèn)題。動(dòng)態(tài)三維世界的二維投影可能可以建模，但將三維表示放在模型的核心，能夠更好地適應(yīng)問(wèn)題的需求。

我們的目標(biāo)是將更多的三維表示融入模型的核心，從而為用戶提供更好的體驗(yàn)。這也與我的“北極星”相關(guān)。為什么我們強(qiáng)調(diào)“空間智能”，而不是“平面像素智能”？

因?yàn)橹悄艿陌l(fā)展軌跡，如果你回顧進(jìn)化史，它的最終目的是讓動(dòng)物和人類能夠在世界中自由移動(dòng)、互動(dòng)，進(jìn)而創(chuàng)造文明，甚至是做一片三明治。

因此，將這種 3D 的本質(zhì)轉(zhuǎn)化為技術(shù)，是釋放無(wú)數(shù)潛在應(yīng)用的關(guān)鍵，即便有些看起來(lái)只是表面上的進(jìn)步。

Martin Casado

我認(rèn)為這是一個(gè)非常微妙卻至關(guān)重要的觀點(diǎn)?；蛟S我們可以通過(guò)談?wù)撘恍?yīng)用場(chǎng)景來(lái)進(jìn)一步深入討論。當(dāng)我們談?wù)撻_發(fā)一種可以實(shí)現(xiàn)空間智能的技術(shù)模型時(shí)，它可能具體是什么樣子的？有哪些潛在的應(yīng)用場(chǎng)景？

Fei-Fei Li

我們?cè)O(shè)想的空間智能模型可以做很多事情，其中一個(gè)讓我特別興奮的是“世界生成”。類似于文本-圖像生成器，我們現(xiàn)在已經(jīng)有了文本-視頻生成器——輸入一張圖像或一段視頻，系統(tǒng)就能生成一個(gè)兩秒鐘的驚人片段。但我認(rèn)為我們可以將這一體驗(yàn)提升到 3D 世界。

我們可以想象空間智能未來(lái)幫助我們將這些體驗(yàn)提升到 3D ，不僅僅生成一張圖片或一段視頻，而是生成一個(gè)完整的、模擬的、豐富的互動(dòng) 3D 世界。也許用于游戲，也許用于虛擬攝影，應(yīng)用領(lǐng)域廣泛得令人難以想象。

Justin Johnson

我覺(jué)得這項(xiàng)技術(shù)會(huì)隨著時(shí)間的推移逐漸進(jìn)步。構(gòu)建這些東西非常困難，所以靜態(tài)問(wèn)題可能會(huì)相對(duì)簡(jiǎn)單一些，但從長(zhǎng)遠(yuǎn)來(lái)看，我們希望它是完全動(dòng)態(tài)的、可交互的，正如你剛才所描述的一切。

Fei-Fei Li

是的，這正是空間智能的定義。我們會(huì)從更多的靜態(tài)問(wèn)題開始，但你提到的所有內(nèi)容都在空間智能的未來(lái)規(guī)劃中。

Justin Johnson

這也體現(xiàn)在我們公司“World Labs”的名字上——這個(gè)名字的含義是關(guān)于構(gòu)建和理解世界。起初我們告訴別人這個(gè)名字時(shí)，他們并不總是能理解，因?yàn)樵谟?jì)算機(jī)視覺(jué)、重建和生成領(lǐng)域，我們通常會(huì)對(duì)所能做的事情進(jìn)行區(qū)分。

第一級(jí)是識(shí)別物體，比如麥克風(fēng)、椅子等這些世界上的離散物體。許多 ImageNet 的工作都與識(shí)別物體有關(guān)。

但接下來(lái)我們提升到了場(chǎng)景的層次——場(chǎng)景是由物體組成的。例如，現(xiàn)在我們有一個(gè)錄音室，里面有桌子、麥克風(fēng)和坐在椅子上的人，這是物體的組合。

但我們想象的“世界”是超越場(chǎng)景的。場(chǎng)景可能是單一的東西，但我們希望打破這些界限，走出門外，走到街上，看到車流穿梭，看到樹葉在風(fēng)中搖動(dòng)，并能夠與這些東西互動(dòng)。

Fei-Fei Li

另一件非常令人興奮的事情是關(guān)于“新媒體”這個(gè)詞。借助這項(xiàng)技術(shù)，現(xiàn)實(shí)世界、虛擬想象世界或增強(qiáng)世界、預(yù)測(cè)世界之間的界限變得模糊。

真實(shí)世界是 3D 的，所以在數(shù)字世界中，必須有 3D 表示才能與真實(shí)世界融合。你不能只用 2D 甚至 1D 來(lái)有效地與真實(shí)的 3D 世界交互。

這種能力解鎖了無(wú)限的應(yīng)用場(chǎng)景。就像 Justin 提到的第一個(gè)應(yīng)用場(chǎng)景，虛擬世界的生成可以用于任何用途。第二個(gè)可能是增強(qiáng)現(xiàn)實(shí)。就在 World Labs 成立的那段時(shí)間，蘋果發(fā)布了 Vision Pro，他們使用了“空間計(jì)算”這個(gè)詞。

我們幾乎也在講同樣的事情，我們強(qiáng)調(diào)的是“空間智能”?？臻g計(jì)算需要空間智能，這一點(diǎn)是毫無(wú)疑問(wèn)的。

我們不知道未來(lái)的硬件形式會(huì)是什么樣子——可能是護(hù)目鏡、眼鏡，甚至隱形眼鏡。但在真實(shí)世界與虛擬世界之間的界面，無(wú)論是增強(qiáng)你的工作能力、幫助你修理汽車，哪怕你不是專業(yè)技工，或者只是為娛樂(lè)提供一個(gè)類似于“Pokemon Go++”的體驗(yàn)，這項(xiàng)技術(shù)將成為 AR/VR 的操作系統(tǒng)。

Justin Johnson

極限情況下，AR 設(shè)備需要做的事情就是一直陪伴著你，實(shí)時(shí)理解你所看到的世界，幫助你完成日常生活中的任務(wù)。我對(duì)此感到非常興奮，尤其是虛擬與現(xiàn)實(shí)之間的融合。當(dāng)你能夠?qū)崟r(shí)完美地理解周圍環(huán)境中的 3D 時(shí)，它甚至可能取代現(xiàn)實(shí)世界中的一些事物。

比如說(shuō)，現(xiàn)在我們有各種不同尺寸的屏幕—— iPad、電腦顯示器、電視、手表等，它們?cè)诓煌膱?chǎng)景中呈現(xiàn)信息。但如果我們能夠無(wú)縫地將虛擬內(nèi)容與物理世界融合，這些設(shè)備就不再必要了。虛擬世界可以在正確的時(shí)刻用最合適的方式向你展示所需的信息。

另一項(xiàng)巨大的應(yīng)用是混合數(shù)字虛擬世界與 3D 物理世界，尤其是機(jī)器人領(lǐng)域。機(jī)器人必須在物理世界中行動(dòng)，而它們的計(jì)算和大腦在數(shù)字世界中。學(xué)習(xí)與行為之間的橋梁，必須由空間智能來(lái)搭建。

Martin Casado

你提到了虛擬世界、增強(qiáng)現(xiàn)實(shí)，現(xiàn)在你又談到了純粹的物理世界，比如用于機(jī)器人領(lǐng)域。這個(gè)方向非常廣泛，尤其是如果你計(jì)劃涉足這些不同的領(lǐng)域。你們?nèi)绾慰创疃燃夹g(shù)與這些具體應(yīng)用領(lǐng)域的關(guān)系？

Fei-Fei Li

我們認(rèn)為自己是一家深度技術(shù)公司，作為一個(gè)平臺(tái)公司，提供能夠服務(wù)于這些不同應(yīng)用場(chǎng)景的模型。至于哪個(gè)應(yīng)用場(chǎng)景更適合我們一開始關(guān)注的，我覺(jué)得現(xiàn)在的設(shè)備還不夠完善。

實(shí)際上，我在研究生時(shí)期就擁有了我的第一臺(tái) VR 頭戴設(shè)備。當(dāng)我戴上它時(shí)，我心里想：“天哪，這太瘋狂了！”我相信很多人第一次使用VR時(shí)都有類似的體驗(yàn)。

我非常喜歡 Vision Pro，發(fā)布的那天我熬夜搶購(gòu)了一個(gè)，但現(xiàn)在作為大眾市場(chǎng)的平臺(tái)，它還未完全成熟。因此，我們作為公司，可能會(huì)選擇一個(gè)已經(jīng)更為成熟的市場(chǎng)進(jìn)入。

有時(shí)通用性中也會(huì)有簡(jiǎn)潔性。我們有一個(gè)作為深度技術(shù)公司的愿景，相信有一些根本性的問(wèn)題需要被很好地解決，如果解決得好，可以應(yīng)用于多個(gè)不同的領(lǐng)域。我們視公司的長(zhǎng)期目標(biāo)為構(gòu)建和實(shí)現(xiàn)空間智能的夢(mèng)想。

Justin Johnson

事實(shí)上，我認(rèn)為這就是你們所做的影響所在。我不認(rèn)為我們會(huì)真正完全到達(dá)那個(gè)終點(diǎn)，因?yàn)檫@是一個(gè)如此根本的事物——宇宙本質(zhì)上是一個(gè)不斷演化的四維結(jié)構(gòu)，而廣義上的空間智能就是理解這個(gè)結(jié)構(gòu)的全部深度，并找到其中所有的應(yīng)用。

所以，雖然我們今天有一套特定的想法，但我相信這段旅程會(huì)帶我們?nèi)ヒ恍┪覀儸F(xiàn)在根本無(wú)法想象的地方。