国产嘿嘿嘿视频在线观看,日韩人妻av无码一区二区

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

深度｜紅杉美國對話英偉達(dá)科學(xué)家 Jim Fan：十年內(nèi)人形機(jī)器人將超越人類的敏捷性和可靠性，所有可移動的東西終將實(shí)現(xiàn)自主化

有新Newin

2024-09-20

0 評論 3257 瀏覽 2 收藏

51 分鐘

在人工智能的不斷進(jìn)步中，人形機(jī)器人的發(fā)展前景成為了科技界熱議的話題。英偉達(dá)高級研究科學(xué)家Jim Fan與紅杉美國投資人的對話，為我們揭示了這一領(lǐng)域的未來趨勢。從虛擬世界的模擬訓(xùn)練到現(xiàn)實(shí)世界的應(yīng)用，人形機(jī)器人的敏捷性和可靠性有望在未來十年內(nèi)超越人類。本文將帶您深入了解這一激動人心的領(lǐng)域，探討人形機(jī)器人如何改變我們的生活和工作。

近日，英偉達(dá)高級研究科學(xué)家 Jim Fan 與紅杉美國投資人展開了一場關(guān)于具身智能、機(jī)器人技術(shù)以及虛擬世界領(lǐng)域的前沿思考。

Jim Fan 展示了英偉達(dá)在構(gòu)建智能機(jī)器人方面的長期愿景，并討論了推動這項(xiàng)技術(shù)的核心挑戰(zhàn)和突破機(jī)會。

Jim 指出，英偉達(dá)正在押注具身智能和人形機(jī)器人技術(shù)的發(fā)展。他認(rèn)為，未來十年內(nèi)，人形機(jī)器人將達(dá)到甚至超越人類的敏捷性和可靠性。他們的目標(biāo)是為日常生活開發(fā)可以承擔(dān)家庭瑣事（如洗衣）的機(jī)器人，從而極大地提升生活質(zhì)量和經(jīng)濟(jì)價(jià)值。

他特別強(qiáng)調(diào)了虛擬世界與物理世界的交叉影響。虛擬世界提供了一個(gè)強(qiáng)大的“世界模擬器”，讓研究者能夠通過模擬數(shù)據(jù)和領(lǐng)域隨機(jī)化技術(shù)加速機(jī)器人在現(xiàn)實(shí)中的應(yīng)用。

他提出，通過在虛擬環(huán)境中訓(xùn)練，智能體可以無縫泛化到物理世界，達(dá)到“零次微調(diào)”的轉(zhuǎn)移效果。

Jim 認(rèn)為，視頻生成是未來 AI 的重要方向，因?yàn)樗軌蛞詳?shù)據(jù)驅(qū)動的方式模擬世界，為 AI 模型提供真實(shí)的物理和渲染數(shù)據(jù)。他同時(shí)對 AI 模型的推理能力（特別是編程能力）充滿期待，認(rèn)為在未來十年內(nèi)，AI 智能體將在自動編程和加速軟件開發(fā)方面取得重大進(jìn)展。

此外，Jim 還特別提到研究中的“品味”，即確定值得解決的問題比尋找解決方案更難且更重要。

他提到了自己在李飛飛等導(dǎo)師的指導(dǎo)下，培養(yǎng)了識別哪些問題能夠產(chǎn)生最大影響的能力，并認(rèn)為具身智能是未來 AI 智能體的重要方向。他也建議 AI 創(chuàng)業(yè)者保持對最新文獻(xiàn)和工具的敏銳洞察，尋找能夠長遠(yuǎn)發(fā)展的領(lǐng)域。

Jim 引用了英偉達(dá) CEO 黃仁勛的話 —— 所有能夠移動的東西最終都會實(shí)現(xiàn)自主化。他認(rèn)為，隨著硬件技術(shù)和制造成本的下降，未來機(jī)器人將像 iPhone 一樣普及。英偉達(dá)正著手構(gòu)建一個(gè)從硬件到軟件的完整技術(shù)棧，以支持智能機(jī)器人的發(fā)展。

以下為這次對談的全部內(nèi)容，enjoy～

Sonya Huang

今天我們邀請到了 Nvidia 的高級研究科學(xué)家Jim Fan。Jim領(lǐng)導(dǎo) Nvidia 的具身智能（Embodied AI ）智能體研究工作，涉及物理世界中的機(jī)器人技術(shù)和虛擬世界中的游戲智能體。

Jim 的團(tuán)隊(duì)負(fù)責(zé)了Project Groot項(xiàng)目，你可能在今年的 GTC 大會上看到過和Jensen同臺展示的視頻中出現(xiàn)的人形機(jī)器人。

今天我們很高興能和Jim討論關(guān)于機(jī)器人技術(shù)的一切問題。為什么選擇現(xiàn)在？為什么是人形機(jī)器人？以及如何實(shí)現(xiàn)機(jī)器人領(lǐng)域的 GPT-3 時(shí)刻？

非常激動能夠和大家分享關(guān)于機(jī)器人技術(shù)和具身智能的各種內(nèi)容。在我們深入討論之前，您的個(gè)人故事非常有趣。

你是 OpenAI 的第一位實(shí)習(xí)生，能不能給我們講一下你的個(gè)人經(jīng)歷，以及你是如何走到今天這一步的？

Jim Fan

當(dāng)然，我很愿意和大家分享這些故事。2016 年夏天，我的一些朋友告訴我，城里有一家新的初創(chuàng)公司讓我去看看。

我當(dāng)時(shí)心想：“嗯，我沒什么別的事情可做，因?yàn)槲乙呀?jīng)被錄取為博士生了?！?那個(gè)夏天我很空閑，所以我決定加入這家初創(chuàng)公司，而那家公司就是 OpenAI 。

在我加入 OpenAI 的那段時(shí)間，我們已經(jīng)在討論 AGI 了，而我的實(shí)習(xí)導(dǎo)師是 Andrej Karpathy 和 Iliya Sotskever。

我們一起討論并展開了一個(gè)項(xiàng)目，叫做“World of Bits”。這個(gè)項(xiàng)目的想法非常簡單，我們希望建立一個(gè) AI 智能體，它能夠讀取電腦屏幕上的像素信息，然后控制鍵盤和鼠標(biāo)。如果你仔細(xì)想想，這種界面是最通用的。

我們在電腦上做的所有事情，比如回復(fù)郵件、玩游戲或?yàn)g覽網(wǎng)頁，都可以通過這個(gè)界面完成，將屏幕像素映射到鍵盤和鼠標(biāo)的控制。

這其實(shí)是我在 OpenAI 的第一次 AGI 嘗試，也是我 AI 智能體旅程的第一個(gè)篇章。

Stephanie Zhan

我記得“World of Bits”這個(gè)項(xiàng)目，我不知道你也參與其中，真是太有趣了。

Jim Fan

是的，那是一個(gè)非常有趣的項(xiàng)目，它也是 OpenAI Universe 平臺的一部分，這是一個(gè)將所有應(yīng)用程序和游戲整合到這個(gè)框架中的更大計(jì)劃。

Stephanie Zhan

你覺得當(dāng)時(shí)有哪些突破？另外，你認(rèn)為當(dāng)時(shí)在智能體領(lǐng)域面臨的主要挑戰(zhàn)是什么？

Jim Fan

是的，當(dāng)時(shí)我們主要使用的方法是強(qiáng)化學(xué)習(xí)。在 2016 年，還沒有 LLM 或 Transformer 模型。

強(qiáng)化學(xué)習(xí)在特定任務(wù)上確實(shí)有效，但它不具備廣泛的泛化能力。比如我們無法給智能體任何一種指令，要求它完成各種通過鍵盤和鼠標(biāo)操作的任務(wù)。當(dāng)時(shí)，它在我們設(shè)計(jì)的特定任務(wù)上有效，但沒有真正實(shí)現(xiàn)泛化。

這促使我進(jìn)入了下一個(gè)階段，我去了斯坦福大學(xué)。我開始在斯坦福跟隨 Favilly 教授攻讀博士學(xué)位，主要研究計(jì)算機(jī)視覺和具身智能（Embodied AI ）。

在 2016 年到 2021 年我在斯坦福期間，我見證了斯坦福視覺實(shí)驗(yàn)室的轉(zhuǎn)變，從 Favilly 教授帶領(lǐng)的靜態(tài)計(jì)算機(jī)視覺，如識別圖像和視頻，轉(zhuǎn)變?yōu)榫呱碛?jì)算機(jī)視覺，即智能體在交互環(huán)境中學(xué)習(xí)感知并采取行動。

這個(gè)環(huán)境可以是虛擬的（在模擬中），也可以是物理世界中的。所以這是我的博士階段，主要是從靜態(tài)視覺過渡到具身智能的研究。

在我博士畢業(yè)后，我加入了 Nvidia ，并一直工作到現(xiàn)在。我將博士論文中的研究內(nèi)容帶到了 Nvidia ，并繼續(xù)從事具身智能的研究工作，直到今天。

Sonya Huang

你目前負(fù)責(zé) Nvidia 的具身智能計(jì)劃，可以簡單介紹一下這個(gè)項(xiàng)目的含義，以及你們希望實(shí)現(xiàn)的目標(biāo)嗎？

Jim Fan

當(dāng)然。目前我共同領(lǐng)導(dǎo)的團(tuán)隊(duì)叫做 GER，代表具身智能體研究（Generalist Embodied Agent Research）。簡單來說，我們團(tuán)隊(duì)的工作可以總結(jié)為三個(gè)字：“生成行動”。

因?yàn)槲覀儤?gòu)建具身智能智能體，而這些智能體會在不同的世界中采取行動。如果這些行動是在虛擬世界中進(jìn)行的，那就是游戲 AI 和模擬；如果是在物理世界中進(jìn)行的，那就是機(jī)器人技術(shù)。

事實(shí)上，今年 3 月的 GTC 大會上，Jensen 在他的主題演講中展示了一個(gè)叫做 Project Groot 的項(xiàng)目，這是 Nvidia 在構(gòu)建人形機(jī)器人基礎(chǔ)模型上的一項(xiàng)重要努力，而這正是 GER 團(tuán)隊(duì)目前的重點(diǎn)工作。我們希望為人形機(jī)器人乃至更廣泛的領(lǐng)域構(gòu)建 AI 大腦。

Stephanie Zhan

你認(rèn)為 Nvidia 在構(gòu)建這些技術(shù)上有什么競爭優(yōu)勢？

Jim Fan

這是個(gè)很好的問題。首先，毫無疑問的是計(jì)算資源。所有這些基礎(chǔ)模型都需要大量的計(jì)算資源來擴(kuò)展。我們相信“Scaling Law”，類似于 LLM Scaling Law，但具身智能和機(jī)器人技術(shù)的 Scaling Law 尚待研究，所以我們正在這方面做出努力。

Nvidia 的第二個(gè)優(yōu)勢是模擬技術(shù)。Nvidia 在成為一家 AI 公司之前，是一家圖形公司，所以我們在構(gòu)建模擬（如物理模擬、渲染）和GPU實(shí)時(shí)加速方面擁有多年的專業(yè)知識。因此，在構(gòu)建機(jī)器人技術(shù)時(shí)，我們大量使用模擬技術(shù)。

Stephanie Zhan

模擬策略非常有趣。你認(rèn)為為什么大多數(shù)行業(yè)仍然非常專注于現(xiàn)實(shí)世界的數(shù)據(jù)，而采用相反的策略呢？

Jim Fan

是的，我認(rèn)為我們需要各種數(shù)據(jù)。僅僅依靠模擬或現(xiàn)實(shí)世界的數(shù)據(jù)是不夠的。因此在GER（具身智能體研究團(tuán)隊(duì)）中，我們將數(shù)據(jù)策略大致分為三個(gè)部分：

第一是互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)，比如網(wǎng)上的標(biāo)簽和視頻。

第二是模擬數(shù)據(jù)，我們使用 Nvidia 的模擬工具生成大量的合成數(shù)據(jù)。

第三是實(shí)際機(jī)器人數(shù)據(jù)，我們通過在機(jī)器人平臺上操作機(jī)器人，收集并記錄這些數(shù)據(jù)。

我相信一個(gè)成功的機(jī)器人策略需要有效地利用這三種數(shù)據(jù)，混合它們并提供統(tǒng)一的解決方案。

Sonya Huang

你剛才提到的數(shù)據(jù)是實(shí)現(xiàn)機(jī)器人基礎(chǔ)模型工作的關(guān)鍵瓶頸，你能不能多談?wù)勀銓@個(gè)觀點(diǎn)的信念，以及需要什么樣的優(yōu)秀數(shù)據(jù)來突破這個(gè)問題？

Jim Fan

好的，我認(rèn)為我剛才提到的三種不同類型的數(shù)據(jù)各有優(yōu)缺點(diǎn)。首先是互聯(lián)網(wǎng)數(shù)據(jù)，它們是最具多樣性的，包含了大量的常識性先驗(yàn)知識。

比如大多數(shù)網(wǎng)上的視頻都是以人為中心的，因?yàn)槲覀兿矚g自拍，喜歡記錄彼此進(jìn)行各種活動，也有很多教學(xué)視頻。

我們可以利用這些數(shù)據(jù)來學(xué)習(xí)人類如何與物體交互，以及物體在不同情況下的行為，這為機(jī)器人基礎(chǔ)模型提供了常識性先驗(yàn)知識。

但是，互聯(lián)網(wǎng)數(shù)據(jù)沒有行動信號，我們無法從互聯(lián)網(wǎng)上下載機(jī)器人的運(yùn)動控制信號。

這就引出了第二種數(shù)據(jù)策略，即使用模擬。在模擬中，你可以擁有所有的動作，并且可以觀察這些動作在特定環(huán)境中的結(jié)果。

模擬的優(yōu)勢在于它基本上是無限的數(shù)據(jù)，數(shù)據(jù)量隨計(jì)算資源的增加而擴(kuò)展。投入越多的GPU，產(chǎn)生的數(shù)據(jù)就越多，而且數(shù)據(jù)是實(shí)時(shí)的。如果僅在真實(shí)機(jī)器人上收集數(shù)據(jù)，那么你會受到每天 24 小時(shí)的限制。

而通過GPU加速的模擬器，我們可以將實(shí)際時(shí)間加速到 1 萬倍以上。在同樣的工作時(shí)間內(nèi)，我們能夠以更高的速度收集數(shù)據(jù)。

但模擬的弱點(diǎn)是無論圖形管道多么好，模擬與現(xiàn)實(shí)總會有差距。物理規(guī)律和視覺效果都與現(xiàn)實(shí)世界有所不同，且內(nèi)容的多樣性不如我們在現(xiàn)實(shí)世界中遇到的情景。

最后是實(shí)際機(jī)器人數(shù)據(jù)，這些數(shù)據(jù)沒有模擬與現(xiàn)實(shí)的差距，因?yàn)樗鼈兪窃谡鎸?shí)機(jī)器人上收集的，但收集成本要高得多，因?yàn)樾枰腿瞬僮鳈C(jī)器人。

而且它們依然受限于現(xiàn)實(shí)世界的時(shí)間，每天只有 24 小時(shí)，還需要人類來收集這些數(shù)據(jù)，成本非常高。

因此，我們認(rèn)為這三種類型的數(shù)據(jù)各有優(yōu)勢，成功的策略是結(jié)合它們的優(yōu)勢，消除它們的劣勢。

Sonya Huang

那些在 Jensen 演講臺上的可愛機(jī)器人真是一個(gè)精彩的時(shí)刻。如果你有一個(gè)五年或十年的夢想，你認(rèn)為你的團(tuán)隊(duì)會實(shí)現(xiàn)什么？

Jim Fan

這純粹是推測，但我希望我們能在接下來的兩到三年內(nèi)看到機(jī)器人基礎(chǔ)模型的研究突破，這就是我們所謂的機(jī)器人領(lǐng)域的 GPT-3 時(shí)刻。

之后就不確定了，因?yàn)橐寵C(jī)器人進(jìn)入人們的日常生活，不僅僅是技術(shù)問題。機(jī)器人需要價(jià)格合理，并且能夠量產(chǎn)。我們還需要確保硬件的安全性以及隱私和法規(guī)方面的考慮。

這些問題可能需要更長的時(shí)間才能使機(jī)器人進(jìn)入大眾市場，所以這比較難以預(yù)測。但我希望研究突破能夠在未來兩三年內(nèi)到來。

Stephanie Zhan

你認(rèn)為 AI 機(jī)器人領(lǐng)域的 GPT-3 時(shí)刻會是什么樣子的？

Jim Fan

這是個(gè)好問題。我喜歡將機(jī)器人技術(shù)分為兩個(gè)系統(tǒng)：系統(tǒng)一和系統(tǒng)二，這個(gè)概念來自《思考，快與慢》這本書。

系統(tǒng)一是低級的運(yùn)動控制，它是無意識且快速的。例如，當(dāng)我拿起這杯水時(shí)，我不會真的思考每毫秒如何移動手指。這就是系統(tǒng)一。

而系統(tǒng)二則是緩慢且深思熟慮的，它更像是推理和規(guī)劃，使用的是我們的有意識思維。我認(rèn)為 GPT-3 時(shí)刻將出現(xiàn)在系統(tǒng)一上。

我最喜歡的例子是“打開”這個(gè)動詞。想象一下“打開”這個(gè)詞的復(fù)雜性。打開門與打開窗戶不同，打開瓶子或手機(jī)的方式也不同。

但對人類來說，理解“打開”在與不同物體交互時(shí)意味著不同的動作并沒有任何問題。但

是到目前為止，我們還沒有看到一個(gè)機(jī)器人模型能夠在低級別運(yùn)動控制上對這些動詞進(jìn)行泛化。

我希望能看到一個(gè)模型能夠理解這些動詞的抽象含義，并能夠在各種對人類有意義的場景中進(jìn)行泛化。我們還沒有看到這種情況，但我對未來兩三年內(nèi)出現(xiàn)這個(gè)時(shí)刻持樂觀態(tài)度。

Sonya Huang

關(guān)于“系統(tǒng)二”思維呢？你認(rèn)為我們?nèi)绾尾拍軐?shí)現(xiàn)這個(gè)目標(biāo)？你認(rèn)為在 LLM 領(lǐng)域的推理工作也會與機(jī)器人領(lǐng)域相關(guān)嗎？

Jim Fan

是的，絕對相關(guān)。我認(rèn)為在“系統(tǒng)二”方面，我們已經(jīng)看到了一些非常強(qiáng)大的模型，它們可以進(jìn)行推理、規(guī)劃，甚至編程。

這些正是我們今天看到的 LLM 和前沿模型。但將“系統(tǒng)二”模型與“系統(tǒng)一”整合起來，本身就是一個(gè)研究挑戰(zhàn)。

所以問題是，針對機(jī)器人基礎(chǔ)模型，我們是否應(yīng)該有一個(gè)單一的大模型，還是采用某種級聯(lián)方法，保持“系統(tǒng)一”和“系統(tǒng)二”模型的獨(dú)立性，并讓它們通過某種方式進(jìn)行溝通？這仍然是一個(gè)懸而未決的問題，它們各有優(yōu)缺點(diǎn)。

如果是第一個(gè)想法，模型會更簡潔，只有一個(gè)模型，一個(gè) API 來維護(hù)。但這也更難控制，因?yàn)樗鼈兊目刂祁l率不同。

“系統(tǒng)二”模型的控制頻率較低，比如每秒一次決策（1Hz），而“系統(tǒng)一”則需要更高的控制頻率，比如每秒 1000 次決策（1000Hz），像我握住這杯水的微小運(yùn)動就是每秒數(shù)千次的決策。這種不同頻率的控制難以通過單一模型實(shí)現(xiàn)。

所以，可能級聯(lián)的方法會更好。但問題是，系統(tǒng)一和系統(tǒng)二之間如何溝通？它們通過文本交流還是通過某種潛在變量？目前還不清楚，我認(rèn)為這是一個(gè)非常令人興奮的新研究方向。

Sonya Huang

你覺得我們能夠通過擴(kuò)展和 Transformer 技術(shù)突破“系統(tǒng)一”思維嗎？還是說要祈禱好運(yùn)、看事態(tài)發(fā)展？

Jim Fan

我當(dāng)然希望我之前描述的數(shù)據(jù)策略能幫助我們實(shí)現(xiàn)這一目標(biāo)。因?yàn)槲矣X得我們還沒有完全發(fā)揮出 Transformer 的潛力。

從本質(zhì)上講， Transformer 是通過輸入和輸出 token 來工作的。最終， token 的質(zhì)量決定了這些大型 Transformer 模型的質(zhì)量。

對于機(jī)器人來說，正如我提到的，數(shù)據(jù)策略非常復(fù)雜。我們既有互聯(lián)網(wǎng)數(shù)據(jù)，也需要模擬數(shù)據(jù)和真實(shí)機(jī)器人數(shù)據(jù)。

一旦我們能夠擴(kuò)展數(shù)據(jù)管道，并獲得高質(zhì)量的動作數(shù)據(jù)，我們就可以將這些數(shù)據(jù) token 化，并將其輸入 Transformer 進(jìn)行壓縮。所以我覺得 Transformer 的潛力還未完全發(fā)揮出來。

一旦我們解決了數(shù)據(jù)策略問題，我們可能會看到一些隨著數(shù)據(jù)和模型規(guī)模擴(kuò)展而出現(xiàn)的涌現(xiàn)現(xiàn)象。我稱之為具身智能的“Scaling Law”，這才剛剛開始。

Stephanie Zhan

我對此非常樂觀。很好奇的是，當(dāng)我們到達(dá)那個(gè)突破點(diǎn)時(shí)，你個(gè)人最期待看到的是什么？你認(rèn)為哪個(gè)行業(yè)、應(yīng)用或用例會完全改變今天的機(jī)器人世界？

Jim Fan

是的。實(shí)際上，我們選擇人形機(jī)器人作為主要研究方向有幾個(gè)原因。一個(gè)原因是，世界是圍繞人體形態(tài)設(shè)計(jì)的，所有的餐館、工廠、醫(yī)院以及我們的設(shè)備和工具都是為人類及其手形設(shè)計(jì)的。

因此，原則上，一個(gè)足夠先進(jìn)的人形機(jī)器人硬件應(yīng)該能夠完成任何一個(gè)普通人類可以完成的任務(wù)。

雖然當(dāng)前的人形機(jī)器人硬件還沒有達(dá)到那個(gè)水平，但我相信在未來兩到三年內(nèi)，人形機(jī)器人硬件生態(tài)系統(tǒng)將會成熟。

屆時(shí)，我們將擁有可負(fù)擔(dān)得起的人形機(jī)器人硬件，問題將變成如何為這些人形機(jī)器人提供 AI 大腦。

一旦我們擁有了能夠接受任何語言指令并完成任何人類能做的任務(wù)的通用基礎(chǔ)模型，我們就可以釋放大量經(jīng)濟(jì)價(jià)值。比如我們可以在家庭中擁有機(jī)器人，幫助我們做家務(wù)、洗衣、洗碗、做飯，或者照顧老人。

我們還可以在餐館、醫(yī)院、工廠中使用它們，幫助完成各種人類的工作。我希望這能在未來十年內(nèi)實(shí)現(xiàn)。

不過正如我之前提到的，這不僅僅是技術(shù)問題，還涉及許多技術(shù)之外的問題，我對此充滿期待。

Sonya Huang

你們選擇專注于人形機(jī)器人還有其他原因嗎？

Jim Fan

是的。還有一些更實(shí)際的原因，比如訓(xùn)練管道方面。關(guān)于人類的數(shù)據(jù)在網(wǎng)上有很多，視頻中的內(nèi)容大多是以人為中心的，人類在執(zhí)行日常任務(wù)或娛樂活動。

人形機(jī)器人的外形最接近人類的形態(tài)，這意味著我們用這些數(shù)據(jù)訓(xùn)練的模型可以更容易地遷移到人形機(jī)器人形態(tài)，而不是其他形態(tài)。

比如說，關(guān)于機(jī)器人手臂和夾爪的視頻有多少？很少見吧。但我們能看到很多關(guān)于人類用五指手工作的視頻。

因此，訓(xùn)練人形機(jī)器人可能更容易。一旦我們擁有了這些基礎(chǔ)模型，我們可以進(jìn)一步專門化它們，應(yīng)用到機(jī)器人手臂等更具體的機(jī)器人形態(tài)上。這就是為什么我們首先追求全面的解決方案。

Stephanie Zhan

你們目前只專注于人形機(jī)器人嗎，還是也會涉及機(jī)器人手臂或機(jī)器狗？

Jim Fan

Project Groot 目前主要專注于人形機(jī)器人。但我們構(gòu)建的管道，包括模擬工具和真實(shí)機(jī)器人工具，足夠通用，將來也可以適應(yīng)其他平臺。因此，我們正在構(gòu)建這些工具，以便廣泛適用。

Sonya Huang

你多次提到“通用”這個(gè)詞。我認(rèn)為機(jī)器人領(lǐng)域的一些人認(rèn)為通用方法行不通，必須針對特定領(lǐng)域和環(huán)境。為什么你們選擇了通用的方法？我們節(jié)目里經(jīng)常提到Richard Sutton的“苦澀教訓(xùn)”。你認(rèn)為這在機(jī)器人領(lǐng)域也適用嗎？

Jim Fan

絕對適用。我想首先談?wù)勎覀冊谧匀徽Z言處理（ NLP ）領(lǐng)域看到的成功案例。在ChaggbT和 GPT-3 出現(xiàn)之前， NLP 領(lǐng)域有很多專門針對不同應(yīng)用的模型和管道，比如翻譯、編程、數(shù)學(xué)運(yùn)算和創(chuàng)意寫作，它們都使用了不同的模型和訓(xùn)練管道。但ChaggbT出現(xiàn)后，將所有這些應(yīng)用統(tǒng)一到了一個(gè)單一的模型中。

我們稱這些為“通才”模型。而一旦有了通才模型，我們就可以通過提示、精煉等方式將它們專用于具體任務(wù)，形成“專才”模型。

根據(jù)歷史趨勢，幾乎總是專才通才模型比原始的專才模型要強(qiáng)大得多，而且維護(hù)起來更簡單，因?yàn)橹挥幸粋€(gè) API ，它輸入文本，輸出文本。因此，我認(rèn)為我們可以遵循 NLP 領(lǐng)域的成功路徑，這在機(jī)器人領(lǐng)域也將如此。

到 2024 年，大多數(shù)機(jī)器人應(yīng)用仍處于專才階段，即針對特定任務(wù)、特定硬件、特定數(shù)據(jù)管道的專門模型。

但 Project Groot 的目標(biāo)是構(gòu)建一個(gè)通用的基礎(chǔ)模型，首先用于人形機(jī)器人，然后推廣到各種機(jī)器人形態(tài)或具身形式。這就是我們追求的通才時(shí)刻。

一旦我們有了通才模型，我們可以對其進(jìn)行定制，使其適用于具體的機(jī)器人任務(wù)。而這些將成為專才通才模型的體現(xiàn)。

但在擁有通才模型之前，這一切還不會發(fā)生。因此，從短期來看，追求專才模型會更容易，因?yàn)槟阒恍鑼Ｗ⒂诜浅＊M窄的任務(wù)領(lǐng)域。

但我們在 Nvidia 相信未來屬于通才模型，盡管它需要更長的開發(fā)時(shí)間，也有更多的研究難題要解決，但這是我們首先追求的目標(biāo)。

Stephanie Zhan

Nvidia 構(gòu)建 Project Groot 的另一個(gè)有趣之處在于，正如你之前提到的， Nvidia 既擁有芯片也擁有模型。你認(rèn)為 Nvidia 可以做些什么來在自家芯片上優(yōu)化Groot模型？

Jim Fan

是的，在今年 3 月的 GTC 大會上，Jensen還發(fā)布了下一代邊緣計(jì)算芯片，稱為Jensen Source芯片，它實(shí)際上是與Project Groot一起發(fā)布的。

我們的想法是，向客戶提供一個(gè)從芯片級別（Jensen Source系列芯片）到基礎(chǔ)模型（Project Groot），再到模擬工具和沿途開發(fā)的其他實(shí)用工具的完整技術(shù)棧。這將成為一個(gè)面向人形機(jī)器人以及智能機(jī)器人的計(jì)算平臺。

我想引用 Jensen 的一句名言，這是我最喜歡的之一：“所有能夠移動的東西最終都會實(shí)現(xiàn)自主化?！蔽乙蚕嘈胚@一點(diǎn)。

雖然現(xiàn)在還沒有實(shí)現(xiàn)，但我們可以預(yù)見，在未來十年或更長時(shí)間內(nèi)，如果我們相信將來會有和 iPhone 一樣多的智能機(jī)器人，我們最好從今天開始建設(shè)。

Sonya Huang

太棒了！你們的研究目前是否有特別值得強(qiáng)調(diào)的成果？有什么讓你對你們的方法充滿信心或樂觀的嗎？

Jim Fan

是的，我們可以談?wù)勔恍┲暗墓ぷ鳌Ｆ渲形曳浅M意的一項(xiàng)工作叫做URAC。我們在這個(gè)項(xiàng)目中做了一個(gè)演示，訓(xùn)練一個(gè)五指機(jī)器人手進(jìn)行轉(zhuǎn)筆的動作。

對我個(gè)人來說，這特別幽默，因?yàn)槲乙呀?jīng)放棄了轉(zhuǎn)筆這個(gè)技能。所以我自己做不到，但機(jī)器人手卻可以。而我們用來訓(xùn)練它的方法是，我們使用 LLM 來編寫代碼，控制由 Nvidia 構(gòu)建的模擬 API ，稱為 i6M API 。LLM 輸出代碼來定義獎(jiǎng)勵(lì)函數(shù)。

獎(jiǎng)勵(lì)函數(shù)基本上就是我們希望機(jī)器人完成的理想行為的規(guī)范。如果機(jī)器人走在正確的軌道上，它就會獲得獎(jiǎng)勵(lì)；如果做錯(cuò)了事，就會受到懲罰。

通常，獎(jiǎng)勵(lì)函數(shù)是由一個(gè)非常了解 API 的機(jī)器人專家設(shè)計(jì)的，這是一個(gè)需要高度專業(yè)知識的工作，而且過程非常繁瑣和手動。

我們開發(fā)了一種算法，使用 LLM 來自動化獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)，讓機(jī)器人能夠完成復(fù)雜的任務(wù)，比如轉(zhuǎn)筆。

這是一種通用技術(shù)，我們計(jì)劃將其擴(kuò)展到不僅僅是轉(zhuǎn)筆，它應(yīng)該能夠?yàn)楦鞣N任務(wù)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)，甚至可以通過 Nvidia 的模擬 API 生成新的任務(wù)。這為我們的進(jìn)一步發(fā)展提供了廣闊的空間。

Sonya Huang

我記得五年前有一些研究團(tuán)隊(duì)在解決魔方問題，用機(jī)器人手來完成，當(dāng)時(shí)感覺機(jī)器人領(lǐng)域經(jīng)歷了一個(gè)“幻滅期”。而在過去一年左右，這個(gè)領(lǐng)域似乎又熱起來了。

你認(rèn)為為什么現(xiàn)在是機(jī)器人領(lǐng)域的“時(shí)機(jī)”？有什么不同的地方嗎？我們聽說 OpenAI 也在重新進(jìn)入機(jī)器人領(lǐng)域，大家都在加大努力。你覺得有什么變化嗎？

Jim Fan

是的，我認(rèn)為現(xiàn)在有幾個(gè)關(guān)鍵因素與之前不同。首先是機(jī)器人硬件。從去年年底開始，我們看到了機(jī)器人硬件生態(tài)系統(tǒng)的激增。

像特斯拉在開發(fā) Optimus，波士頓動力（Boston Dynamics）等，還有很多初創(chuàng)公司。我們看到硬件越來越強(qiáng)大，具有更好的靈活手和全身可靠性。第二個(gè)因素是價(jià)格下降。

我們看到人形機(jī)器人的制造成本顯著下降。比如 2001 年，NASA 開發(fā)了一個(gè)人形機(jī)器人，叫做 Robonaut，如果我沒記錯(cuò)的話，每個(gè)機(jī)器人成本超過 150 萬美元。

最近一些公司能夠?qū)⑷δ苋诵螜C(jī)器人的價(jià)格定在大約 3 萬美元左右，大致相當(dāng)于一輛車的價(jià)格。

而且隨著產(chǎn)品的成熟，它的價(jià)格通常會趨向于原材料成本。對于人形機(jī)器人，原材料成本通常只有汽車的4%左右。

所以未來幾年，我們可能會看到成本急劇下降。這使得這些硬件越來越負(fù)擔(dān)得起，這是人形機(jī)器人再次獲得動能的第二個(gè)因素。

第三個(gè)因素是在基礎(chǔ)模型方面。我們看到 LLM （如GPT、Claude、Llama等）在解決推理和規(guī)劃問題方面表現(xiàn)得非常出色。這些模型能夠很好地泛化，能夠編寫代碼。

我們提到的 URAC 項(xiàng)目正是利用了這些語言模型的編程能力來開發(fā)新的機(jī)器人解決方案。還有多模態(tài)模型的興起，提升了計(jì)算機(jī)視覺和感知能力。

我認(rèn)為這些成功也鼓勵(lì)我們追求機(jī)器人基礎(chǔ)模型，因?yàn)槲覀兛梢岳眠@些前沿模型的泛化能力，并在其上添加動作層，生成最終驅(qū)動人形機(jī)器人的動作 token 。

Stephanie Zhan

我完全理解這一切。你提到的很多研究進(jìn)展，許多是你自己在Centauril等項(xiàng)目中做出的貢獻(xiàn)，再加上 Nvidia 的工具（如IZX等）極大地加速了該領(lǐng)域的進(jìn)展，尤其是在傳感和更便宜的傳感設(shè)備等方面。所以我覺得現(xiàn)在是從事這個(gè)領(lǐng)域工作的非常激動人心的時(shí)刻。

Jim Fan

是的，我同意。

Sonya Huang

我記得你最初的研究更多是在虛擬世界領(lǐng)域。你能不能談?wù)勈鞘裁醋屇銓?Minecraft 和機(jī)器人產(chǎn)生了興趣？在你看來，它們是否是相關(guān)的？是什么讓你對虛擬世界產(chǎn)生了興趣？

Jim Fan

這是個(gè)好問題。對我來說，我的個(gè)人使命是解決具身智能問題，而虛擬世界中的具身智能智能體就是像游戲和模擬中的那些智能體。因此我對游戲也有非常特別的情感。我自己也很喜歡玩游戲。

Stephanie Zhan

你玩什么游戲？

Jim Fan

我玩 Minecraft ，我試過，但我并不是一個(gè)非常好的玩家。所以我希望我的 AI 能彌補(bǔ)我糟糕的游戲技巧。我之前參與了幾個(gè)游戲項(xiàng)目。第一個(gè)是叫做Mind Dojo的項(xiàng)目，我們在 Minecraft 游戲中開發(fā)了一種通用智能體平臺。

對于不熟悉的觀眾來說， Minecraft 是一個(gè)開放的體素世界，你可以在其中做任何你想做的事情。你可以制作各種工具，冒險(xiǎn)，它是一個(gè)開放式游戲，沒有特定的得分目標(biāo)，也沒有固定的劇情。

我們從互聯(lián)網(wǎng)上收集了大量數(shù)據(jù)，有人玩 Minecraft 的視頻，也有解釋游戲機(jī)制的wiki頁面，這些是多模態(tài)文檔，還有像 Reddit 的 Minecraft 子論壇，那里有很多人用自然語言討論游戲。

我們收集了這些多模態(tài)數(shù)據(jù)集，訓(xùn)練模型來玩 Minecraft 。這個(gè)項(xiàng)目叫做 Mind Dojo。后來第二個(gè)項(xiàng)目叫做 Voyager 。這個(gè)想法是在 GPT-4 發(fā)布后產(chǎn)生的，因?yàn)樗钱?dāng)時(shí)最好的編程模型。

于是我們想，如果我們將編程作為行動呢？基于這個(gè)想法，我們開發(fā)了 Voyager 智能體，它通過編寫代碼與 Minecraft 世界互動。

我們使用一個(gè) API 將 3D 的 Minecraft 世界轉(zhuǎn)換為文本表示，然后讓智能體使用行動 API 編寫代碼。就像人類開發(fā)者一樣，智能體并不總是能在第一次寫出正確的代碼。

所以我們給它一個(gè)自我反思循環(huán)，如果它在 Minecraft 世界中遇到錯(cuò)誤或做錯(cuò)了事，它會收到反饋并修正它的程序。一旦它寫出了正確的程序，我們稱之為技能，它會將其保存到一個(gè)技能庫中。

以后當(dāng)智能體遇到類似的情況時(shí)，它不需要再次經(jīng)歷試錯(cuò)過程，可以直接從技能庫中調(diào)用技能。

你可以將這個(gè)技能庫視為一個(gè)代碼庫，它是由 Voyager 自己互動地構(gòu)建的，完全沒有人類干預(yù)。整個(gè)代碼庫都是 Voyager 自己開發(fā)的。

這是第二個(gè)機(jī)制，技能庫。第三個(gè)機(jī)制是我們稱之為自動課程生成。智能體知道它知道什么，也知道它不知道什么。

因此它能夠提出下一個(gè)任務(wù)，這個(gè)任務(wù)既不會太難也不會太簡單，然后它能夠沿著這條路徑發(fā)現(xiàn)各種技能、工具，并在 Minecraft 的廣闊世界中旅行。

因?yàn)樗眯械煤芏?，所以我們稱之為 Voyager 。所以這就是我們團(tuán)隊(duì)最早構(gòu)建具身智能體與虛擬世界交互的嘗試之一。

Sonya Huang

談?wù)勀銊偛盘岬降恼n程生成機(jī)制，我覺得這非常有趣，因?yàn)檫@似乎是推理和 LLM 世界中尚未完全解決的問題之一。

如何讓這些模型自我意識到下一步該做什么以提高自己？你能否再詳細(xì)談?wù)勀銈冊谡n程生成和推理方面的構(gòu)建？

Jim Fan

當(dāng)然。我認(rèn)為這些前沿模型展示了一種非常有趣的涌現(xiàn)特性，它們能夠反思自己的行為，并且它們似乎知道自己掌握了什么、還不知道什么，能夠據(jù)此提出任務(wù)。

在 Voyager 中，我們給智能體設(shè)定了一個(gè)高層指令，那就是盡可能多地發(fā)現(xiàn)新的物品。

我們只給了這個(gè)一句話的目標(biāo)，沒給出任何關(guān)于先發(fā)現(xiàn)哪些物品、先解鎖哪些工具的指令。

智能體通過編碼、提示和技能庫自己發(fā)現(xiàn)了這些。這種系統(tǒng)的工作方式非常驚人，我認(rèn)為這是一種在擁有強(qiáng)大推理引擎后自然涌現(xiàn)的特性。

Sonya Huang

你認(rèn)為為什么這么多的虛擬世界研究都集中在虛擬世界？我相信不僅僅是因?yàn)樵S多深度學(xué)習(xí)研究人員喜歡玩電子游戲，雖然這可能也有點(diǎn)幫助。你覺得在虛擬世界中解決問題與物理世界中的問題有什么聯(lián)系？兩者如何相互影響？

Jim Fan

是的，我一直認(rèn)為游戲和機(jī)器人之間有很多相似的原則。對于具身智能體來說，它們的輸入是感知信息，比如視頻流和一些感官輸入，輸出則是行動。

在游戲中，這可能是鍵盤和鼠標(biāo)的動作，而在機(jī)器人中則是低級別的運(yùn)動控制。所以從 API 的角度看，這兩者是相似的。

這些智能體需要探索世界，某種程度上需要自己收集數(shù)據(jù)，這就是我們所謂的強(qiáng)化學(xué)習(xí)和自我探索，而這一原則在物理智能體和虛擬智能體中都是共享的。但不同之處在于，機(jī)器人技術(shù)更難，因?yàn)槟阈枰缭侥M與現(xiàn)實(shí)的差距。

在模擬中，物理和渲染永遠(yuǎn)無法完美，所以將模擬中學(xué)到的東西轉(zhuǎn)移到現(xiàn)實(shí)世界是一大挑戰(zhàn)，這是一個(gè)開放的研究問題。

因此，機(jī)器人技術(shù)有一個(gè)“模擬與現(xiàn)實(shí)差距”問題，而游戲則沒有。你是在同一個(gè)環(huán)境中訓(xùn)練和測試。因此，這是它們之間的區(qū)別之一。

去年我提出了一個(gè)概念，叫做基礎(chǔ)智能體（Foundation Agent），我相信最終我們會擁有一個(gè)可以同時(shí)應(yīng)用于虛擬和物理智能體的模型。

基礎(chǔ)智能體將能夠在三個(gè)方面實(shí)現(xiàn)泛化：第一是它能夠執(zhí)行的技能，第二是它能夠控制的具身形態(tài)，第三是它能夠掌握的世界，無論是虛擬世界還是現(xiàn)實(shí)世界。這就是我們GER團(tuán)隊(duì)想要追求的終極愿景，基礎(chǔ)智能體。

Stephanie Zhan

談到虛擬世界和游戲領(lǐng)域，你已經(jīng)在開放環(huán)境中解鎖了一些推理和涌現(xiàn)行為。在游戲世界里，你個(gè)人的夢想是什么？你希望 AI 智能體在游戲領(lǐng)域帶來怎樣的創(chuàng)新？

Jim Fan

是的，我對兩個(gè)方面特別興奮。首先是游戲中的智能體?，F(xiàn)在的 NPC （非玩家角色）有固定的腳本，都是手動編寫的。但如果我們有真正“活著”的 NPC 呢？

他們能夠記住你之前告訴他們的事情，并且可以在游戲世界中采取行動，改變游戲的敘事和故事發(fā)展。這是我們還沒有見到的，但我覺得這里有巨大的潛力。

這樣一來，每個(gè)人玩同一個(gè)游戲都會有不同的體驗(yàn)，甚至一個(gè)人兩次玩同一個(gè)游戲，故事也不一樣，這樣每個(gè)游戲都有無限的重玩價(jià)值。

第二個(gè)方面是游戲世界本身的生成。我們已經(jīng)看到了許多工具在做這方面的部分工作，比如從文本生成 3D 資產(chǎn)，或者從文本生成視頻的模型，還有能夠生成故事情節(jié)的語言模型。

如果我們把這些工具結(jié)合起來，那么游戲世界可以在你玩的時(shí)候即時(shí)生成，并與你互動。這將是非常令人驚嘆的，也是一個(gè)真正開放式的體驗(yàn)。

Stephanie Zhan

特別有趣。關(guān)于智能體的愿景，你覺得需要 GPT-4 級別的能力嗎？還是像 Llama 8B 這樣的模型就能實(shí)現(xiàn)？

Jim Fan

我認(rèn)為智能體需要具備幾個(gè)關(guān)鍵能力。首先，它需要能夠進(jìn)行有趣的對話，擁有一致的個(gè)性，具備長期記憶，還要能夠在世界中采取行動。

就這些方面而言，目前的 Llama 模型已經(jīng)相當(dāng)不錯(cuò)，但還不足以產(chǎn)生非常多樣化和引人入勝的行為。因此，我認(rèn)為在這方面仍有差距。另一個(gè)問題是推理成本。

如果我們想將這些智能體部署給游戲玩家，要么需要非常低的云托管成本，要么能夠在本地設(shè)備上運(yùn)行，否則在成本上是不可擴(kuò)展的。所以這是另一個(gè)需要優(yōu)化的因素。

Sonya Huang

你覺得在虛擬世界中的所有工作，是否是為了服務(wù)于物理世界的目標(biāo)？還是說虛擬世界本身就是一個(gè)足夠有價(jià)值的領(lǐng)域？你如何在物理世界和虛擬世界之間平衡你的工作優(yōu)先級？

Jim Fan

我認(rèn)為虛擬世界和物理世界最終只是在同一個(gè)軸上的不同現(xiàn)實(shí)。舉個(gè)例子，有一種技術(shù)叫做領(lǐng)域隨機(jī)化，它的工作原理是你在模擬中訓(xùn)練機(jī)器人，但同時(shí)在 1 萬個(gè)不同的模擬中并行訓(xùn)練，每個(gè)模擬的物理參數(shù)都不同，比如重力、摩擦力、重量等。這實(shí)際上是 1 萬個(gè)不同的世界。

如果我們有一個(gè)智能體能夠掌握所有這 1 萬個(gè)不同的現(xiàn)實(shí)配置，那么我們現(xiàn)實(shí)的物理世界就只是第 1 萬零一個(gè)模擬。在這種情況下，我們能夠從虛擬世界直接泛化到現(xiàn)實(shí)世界。

這實(shí)際上正是我們在 Eureka 后續(xù)工作中所做的。我們使用各種隨機(jī)化的模擬訓(xùn)練智能體，然后無需進(jìn)一步微調(diào)，就能夠?qū)⑵渲苯愚D(zhuǎn)移到現(xiàn)實(shí)世界。

我相信這種方法是有效的。如果我們有各種虛擬世界（包括游戲世界），并且有一個(gè)智能體能夠在所有這些世界中掌握各種技能，那么現(xiàn)實(shí)世界只是更大分布中的一部分。

Stephanie Zhan

你能不能跟大家分享一下 Dr. Eureka 項(xiàng)目？

Jim Fan

當(dāng)然。在 Dr. Eureka 項(xiàng)目中，我們基于 Eureka 的成果，依然使用 LLM 作為機(jī)器人開發(fā)者。LLM 會編寫代碼，代碼用于指定模擬參數(shù)，比如領(lǐng)域隨機(jī)化參數(shù)。

經(jīng)過幾次迭代后，我們在模擬中訓(xùn)練的策略能夠泛化到現(xiàn)實(shí)世界。我們展示的一個(gè)具體例子是，我們讓一個(gè)機(jī)器人狗在瑜伽球上行走，它不僅能夠保持平衡，還能向前行走。

有一個(gè)非常有趣的評論，有人讓自己的真狗去嘗試這個(gè)任務(wù)，結(jié)果發(fā)現(xiàn)它的狗真的能做到這一點(diǎn)。所以在某種程度上，我們的神經(jīng)網(wǎng)絡(luò)超越了“真狗”的表現(xiàn)。

Sonya Huang

我敢肯定我的狗是做不到的，哈哈。

Jim Fan

是的，人工狗智能（ADI），這是下一本冒險(xiǎn)書的主題。

Sonya Huang

在虛擬世界領(lǐng)域，最近出現(xiàn)了很多令人難以置信的 3D 和視頻生成模型，許多都是基于 Transformer 的。你覺得我們是否已經(jīng)達(dá)到了那個(gè)可以憑借這些架構(gòu)實(shí)現(xiàn)理想目標(biāo)的階段？或者你認(rèn)為在模型架構(gòu)方面仍然需要一些突破？

Jim Fan

是的，我認(rèn)為在機(jī)器人基礎(chǔ)模型方面，我們還沒有充分發(fā)揮 Transformer 架構(gòu)的極限。當(dāng)前更大的瓶頸是數(shù)據(jù)問題。

正如我之前提到的，我們無法從互聯(lián)網(wǎng)上下載機(jī)器人控制的數(shù)據(jù)。我們必須在模擬中或通過真實(shí)機(jī)器人收集這些數(shù)據(jù)。

一旦我們有了成熟的數(shù)據(jù)管道，我們就可以將這些數(shù)據(jù) token 化，然后將它們送入 Transformer 進(jìn)行壓縮，就像 Transformer 預(yù)測 Wikipedia 上的下一個(gè)詞一樣。

我們?nèi)栽隍?yàn)證這些假設(shè)，但我認(rèn)為 Transformer 的極限還未被充分探索。目前也有很多替代 Transformer 架構(gòu)的研究，我對此非常感興趣。

最近有一種叫做測試時(shí)訓(xùn)練（test-time training）的架構(gòu)，還有一些其他的替代方案，它們提出了一些非常有前景的想法。雖然這些替代架構(gòu)還沒有達(dá)到最前沿模型的表現(xiàn)，但我期待看到更多 Transformer 的替代方案出現(xiàn)。

Stephanie Zhan

有沒有什么特別吸引你注意的模型，為什么？

Jim Fan

是的，我提到了“member”工作和“測試時(shí)訓(xùn)練”模型，這些模型在不同時(shí)間點(diǎn)表現(xiàn)得更有效率。與 Transformer 模型需要處理所有過去的 token 不同，這些模型有更高效的內(nèi)在機(jī)制，所以我覺得它們很有前途。不過，我們需要將它們擴(kuò)展到前沿模型的規(guī)模，才能真正看到它們與 Transformer 的正面對比。

Stephanie Zhan

具身智能領(lǐng)域之外，你對 AI 最感興趣的是什么？

Jim Fan

我對視頻生成特別興奮，因?yàn)槲艺J(rèn)為視頻生成是一種世界模擬器。我們可以從數(shù)據(jù)中學(xué)習(xí)物理和渲染。我們已經(jīng)看到了像 OpenAI 的 Sora 這樣的模型，后來有很多新模型跟上了 Sora，所以這是一個(gè)正在進(jìn)行的研究話題。

Sonya Huang

世界模擬器能帶給我們什么？

Jim Fan

我認(rèn)為它能為我們帶來一個(gè)數(shù)據(jù)驅(qū)動的模擬環(huán)境，在其中我們可以訓(xùn)練具身智能，那將會非常了不起。

Stephanie Zhan

從長期來看，你對 AI 最感興趣的是什么？十年或更久以后？

Jim Fan

有幾個(gè)方面。首先是推理方面，我對能夠編程的模型非常感興趣。我認(rèn)為編程是一個(gè)非?；A(chǔ)的推理任務(wù)，同時(shí)具有巨大的經(jīng)濟(jì)價(jià)值。也許十年后，我們會有達(dá)到人類水平的編程智能體，這將大大加速開發(fā)進(jìn)程，使用這些大模型本身。第二個(gè)方面當(dāng)然是機(jī)器人技術(shù)。

我認(rèn)為十年后，我們將擁有像人類一樣可靠和敏捷的人形機(jī)器人，甚至可能超越人類。我希望到那時(shí)，Project Groot會取得成功，我們能夠擁有幫助我們?nèi)粘Ｉ畹娜诵螜C(jī)器人。

我只是希望機(jī)器人能幫我洗衣服。這是我的夢想。

Sonya Huang

你覺得哪一年機(jī)器人會幫我們洗衣服？

Jim Fan

越快越好，我已經(jīng)等不及了。

Sonya Huang

在 AI 領(lǐng)域，誰最啟發(fā)你？你曾有機(jī)會與許多偉大的 AI 人物共事，最早可以追溯到你的實(shí)習(xí)時(shí)期?，F(xiàn)在誰對你影響最大？

Jim Fan

我在 AI 領(lǐng)域有太多的英雄。首先，我非常敬佩我的博士導(dǎo)師 Fei-Fei Li。她教會了我如何培養(yǎng)良好的研究品味。

有時(shí)候，問題不是如何解決，而是要確定哪些問題值得解決。實(shí)際上，“什么問題”比“如何解決問題”要難得多。

在博士期間，我在她的指導(dǎo)下轉(zhuǎn)向了具身智能研究，現(xiàn)在回想起來，這是正確的方向。我相信 AI 智能體的未來將是具身的，不論是用于機(jī)器人還是虛擬世界。

我也很敬佩 Andrej Karpathy，他是一位偉大的教育家，他寫代碼就像寫詩一樣，我非常仰慕他。還有 Jensen Huang，我對他的敬佩之情溢于言表。他不僅關(guān)心 AI 研究，還非常了解模型的技術(shù)細(xì)節(jié)，這讓我非常佩服。

Stephanie Zhan

談到擁有良好的研究品味，你對那些在 AI 領(lǐng)域創(chuàng)業(yè)的創(chuàng)始人有何建議？他們該如何找到正確的問題去解決？

Jim Fan

我認(rèn)為有一些研究論文現(xiàn)在變得越來越容易理解，里面有一些非常好的想法，而且越來越實(shí)用，而不僅僅是理論性的機(jī)器學(xué)習(xí)。因此，我建議大家保持對最新文獻(xiàn)的關(guān)注，同時(shí)嘗試其他人開發(fā)的開源工具。比如在 Nvidia ，我們開發(fā)了模擬器工具，任何人都可以訪問并下載，可以在模擬環(huán)境中試驗(yàn)機(jī)器人，親自實(shí)踐是非常重要的。

Stephanie Zhan

說到 Jensen 作為一個(gè)偶像，你認(rèn)為那些在 AI 領(lǐng)域創(chuàng)業(yè)的創(chuàng)始人能從他身上學(xué)到哪些實(shí)用的建議？

Jim Fan

我認(rèn)為是找到正確的方向去努力。例如， Nvidia 押注于人形機(jī)器人，因?yàn)槲覀兿嘈胚@是未來。還有具身智能，如果我們相信十年后世界上會有和 iPhone 一樣多的智能機(jī)器人，那么我們最好今天就開始努力。

VC 今年以來對 AI 初創(chuàng)公司投資達(dá) 641 億美元，接近 2021 年峰值，但全球 AI 年收入總額也才數(shù)百億美元

本文由人人都是產(chǎn)品經(jīng)理作者【有新Newin】，微信公眾號：【有新Newin】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App