深度|紅杉美國對話英偉達(dá)科學(xué)家 Jim Fan:十年內(nèi)人形機(jī)器人將超越人類的敏捷性和可靠性,所有可移動的東西終將實(shí)現(xiàn)自主化
在人工智能的不斷進(jìn)步中,人形機(jī)器人的發(fā)展前景成為了科技界熱議的話題。英偉達(dá)高級研究科學(xué)家Jim Fan與紅杉美國投資人的對話,為我們揭示了這一領(lǐng)域的未來趨勢。從虛擬世界的模擬訓(xùn)練到現(xiàn)實(shí)世界的應(yīng)用,人形機(jī)器人的敏捷性和可靠性有望在未來十年內(nèi)超越人類。本文將帶您深入了解這一激動人心的領(lǐng)域,探討人形機(jī)器人如何改變我們的生活和工作。
近日,英偉達(dá)高級研究科學(xué)家 Jim Fan 與紅杉美國投資人展開了一場關(guān)于具身智能、機(jī)器人技術(shù)以及虛擬世界領(lǐng)域的前沿思考。
Jim Fan 展示了英偉達(dá)在構(gòu)建智能機(jī)器人方面的長期愿景,并討論了推動這項(xiàng)技術(shù)的核心挑戰(zhàn)和突破機(jī)會。
Jim 指出,英偉達(dá)正在押注具身智能和人形機(jī)器人技術(shù)的發(fā)展。他認(rèn)為,未來十年內(nèi),人形機(jī)器人將達(dá)到甚至超越人類的敏捷性和可靠性。他們的目標(biāo)是為日常生活開發(fā)可以承擔(dān)家庭瑣事(如洗衣)的機(jī)器人,從而極大地提升生活質(zhì)量和經(jīng)濟(jì)價(jià)值。
他特別強(qiáng)調(diào)了虛擬世界與物理世界的交叉影響。虛擬世界提供了一個(gè)強(qiáng)大的“世界模擬器”,讓研究者能夠通過模擬數(shù)據(jù)和領(lǐng)域隨機(jī)化技術(shù)加速機(jī)器人在現(xiàn)實(shí)中的應(yīng)用。
他提出,通過在虛擬環(huán)境中訓(xùn)練,智能體可以無縫泛化到物理世界,達(dá)到“零次微調(diào)”的轉(zhuǎn)移效果。
Jim 認(rèn)為,視頻生成是未來 AI 的重要方向,因?yàn)樗軌蛞詳?shù)據(jù)驅(qū)動的方式模擬世界,為 AI 模型提供真實(shí)的物理和渲染數(shù)據(jù)。他同時(shí)對 AI 模型的推理能力(特別是編程能力)充滿期待,認(rèn)為在未來十年內(nèi),AI 智能體將在自動編程和加速軟件開發(fā)方面取得重大進(jìn)展。
此外,Jim 還特別提到研究中的“品味”,即確定值得解決的問題比尋找解決方案更難且更重要。
他提到了自己在李飛飛等導(dǎo)師的指導(dǎo)下,培養(yǎng)了識別哪些問題能夠產(chǎn)生最大影響的能力,并認(rèn)為具身智能是未來 AI 智能體的重要方向。他也建議 AI 創(chuàng)業(yè)者保持對最新文獻(xiàn)和工具的敏銳洞察,尋找能夠長遠(yuǎn)發(fā)展的領(lǐng)域。
Jim 引用了英偉達(dá) CEO 黃仁勛的話 —— 所有能夠移動的東西最終都會實(shí)現(xiàn)自主化。他認(rèn)為,隨著硬件技術(shù)和制造成本的下降,未來機(jī)器人將像 iPhone 一樣普及。英偉達(dá)正著手構(gòu)建一個(gè)從硬件到軟件的完整技術(shù)棧,以支持智能機(jī)器人的發(fā)展。
以下為這次對談的全部內(nèi)容,enjoy~
Sonya Huang
今天我們邀請到了 Nvidia 的高級研究科學(xué)家Jim Fan。Jim領(lǐng)導(dǎo) Nvidia 的具身智能(Embodied AI )智能體研究工作,涉及物理世界中的機(jī)器人技術(shù)和虛擬世界中的游戲智能體。
Jim 的團(tuán)隊(duì)負(fù)責(zé)了Project Groot項(xiàng)目,你可能在今年的 GTC 大會上看到過和Jensen同臺展示的視頻中出現(xiàn)的人形機(jī)器人。
今天我們很高興能和Jim討論關(guān)于機(jī)器人技術(shù)的一切問題。為什么選擇現(xiàn)在?為什么是人形機(jī)器人?以及如何實(shí)現(xiàn)機(jī)器人領(lǐng)域的 GPT-3 時(shí)刻?
非常激動能夠和大家分享關(guān)于機(jī)器人技術(shù)和具身智能的各種內(nèi)容。在我們深入討論之前,您的個(gè)人故事非常有趣。
你是 OpenAI 的第一位實(shí)習(xí)生,能不能給我們講一下你的個(gè)人經(jīng)歷,以及你是如何走到今天這一步的?
Jim Fan
當(dāng)然,我很愿意和大家分享這些故事。2016 年夏天,我的一些朋友告訴我,城里有一家新的初創(chuàng)公司讓我去看看。
我當(dāng)時(shí)心想:“嗯,我沒什么別的事情可做,因?yàn)槲乙呀?jīng)被錄取為博士生了?!?那個(gè)夏天我很空閑,所以我決定加入這家初創(chuàng)公司,而那家公司就是 OpenAI 。
在我加入 OpenAI 的那段時(shí)間,我們已經(jīng)在討論 AGI 了,而我的實(shí)習(xí)導(dǎo)師是 Andrej Karpathy 和 Iliya Sotskever。
我們一起討論并展開了一個(gè)項(xiàng)目,叫做“World of Bits”。這個(gè)項(xiàng)目的想法非常簡單,我們希望建立一個(gè) AI 智能體,它能夠讀取電腦屏幕上的像素信息,然后控制鍵盤和鼠標(biāo)。如果你仔細(xì)想想,這種界面是最通用的。
我們在電腦上做的所有事情,比如回復(fù)郵件、玩游戲或?yàn)g覽網(wǎng)頁,都可以通過這個(gè)界面完成,將屏幕像素映射到鍵盤和鼠標(biāo)的控制。
這其實(shí)是我在 OpenAI 的第一次 AGI 嘗試,也是我 AI 智能體旅程的第一個(gè)篇章。
Stephanie Zhan
我記得“World of Bits”這個(gè)項(xiàng)目,我不知道你也參與其中,真是太有趣了。
Jim Fan
是的,那是一個(gè)非常有趣的項(xiàng)目,它也是 OpenAI Universe 平臺的一部分,這是一個(gè)將所有應(yīng)用程序和游戲整合到這個(gè)框架中的更大計(jì)劃。
Stephanie Zhan
你覺得當(dāng)時(shí)有哪些突破?另外,你認(rèn)為當(dāng)時(shí)在智能體領(lǐng)域面臨的主要挑戰(zhàn)是什么?
Jim Fan
是的,當(dāng)時(shí)我們主要使用的方法是強(qiáng)化學(xué)習(xí)。在 2016 年,還沒有 LLM 或 Transformer 模型。
強(qiáng)化學(xué)習(xí)在特定任務(wù)上確實(shí)有效,但它不具備廣泛的泛化能力。比如我們無法給智能體任何一種指令,要求它完成各種通過鍵盤和鼠標(biāo)操作的任務(wù)。當(dāng)時(shí),它在我們設(shè)計(jì)的特定任務(wù)上有效,但沒有真正實(shí)現(xiàn)泛化。
這促使我進(jìn)入了下一個(gè)階段,我去了斯坦福大學(xué)。我開始在斯坦福跟隨 Favilly 教授攻讀博士學(xué)位,主要研究計(jì)算機(jī)視覺和具身智能(Embodied AI )。
在 2016 年到 2021 年我在斯坦福期間,我見證了斯坦福視覺實(shí)驗(yàn)室的轉(zhuǎn)變,從 Favilly 教授帶領(lǐng)的靜態(tài)計(jì)算機(jī)視覺,如識別圖像和視頻,轉(zhuǎn)變?yōu)榫呱碛?jì)算機(jī)視覺,即智能體在交互環(huán)境中學(xué)習(xí)感知并采取行動。
這個(gè)環(huán)境可以是虛擬的(在模擬中),也可以是物理世界中的。所以這是我的博士階段,主要是從靜態(tài)視覺過渡到具身智能的研究。
在我博士畢業(yè)后,我加入了 Nvidia ,并一直工作到現(xiàn)在。我將博士論文中的研究內(nèi)容帶到了 Nvidia ,并繼續(xù)從事具身智能的研究工作,直到今天。
Sonya Huang
你目前負(fù)責(zé) Nvidia 的具身智能計(jì)劃,可以簡單介紹一下這個(gè)項(xiàng)目的含義,以及你們希望實(shí)現(xiàn)的目標(biāo)嗎?
Jim Fan
當(dāng)然。目前我共同領(lǐng)導(dǎo)的團(tuán)隊(duì)叫做 GER,代表具身智能體研究(Generalist Embodied Agent Research)。簡單來說,我們團(tuán)隊(duì)的工作可以總結(jié)為三個(gè)字:“生成行動”。
因?yàn)槲覀儤?gòu)建具身智能智能體,而這些智能體會在不同的世界中采取行動。如果這些行動是在虛擬世界中進(jìn)行的,那就是游戲 AI 和模擬;如果是在物理世界中進(jìn)行的,那就是機(jī)器人技術(shù)。
事實(shí)上,今年 3 月的 GTC 大會上,Jensen 在他的主題演講中展示了一個(gè)叫做 Project Groot 的項(xiàng)目,這是 Nvidia 在構(gòu)建人形機(jī)器人基礎(chǔ)模型上的一項(xiàng)重要努力,而這正是 GER 團(tuán)隊(duì)目前的重點(diǎn)工作。我們希望為人形機(jī)器人乃至更廣泛的領(lǐng)域構(gòu)建 AI 大腦。
Stephanie Zhan
你認(rèn)為 Nvidia 在構(gòu)建這些技術(shù)上有什么競爭優(yōu)勢?
Jim Fan
這是個(gè)很好的問題。首先,毫無疑問的是計(jì)算資源。所有這些基礎(chǔ)模型都需要大量的計(jì)算資源來擴(kuò)展。我們相信“Scaling Law”,類似于 LLM Scaling Law,但具身智能和機(jī)器人技術(shù)的 Scaling Law 尚待研究,所以我們正在這方面做出努力。
Nvidia 的第二個(gè)優(yōu)勢是模擬技術(shù)。Nvidia 在成為一家 AI 公司之前,是一家圖形公司,所以我們在構(gòu)建模擬(如物理模擬、渲染)和GPU實(shí)時(shí)加速方面擁有多年的專業(yè)知識。因此,在構(gòu)建機(jī)器人技術(shù)時(shí),我們大量使用模擬技術(shù)。
Stephanie Zhan
模擬策略非常有趣。你認(rèn)為為什么大多數(shù)行業(yè)仍然非常專注于現(xiàn)實(shí)世界的數(shù)據(jù),而采用相反的策略呢?
Jim Fan
是的,我認(rèn)為我們需要各種數(shù)據(jù)。僅僅依靠模擬或現(xiàn)實(shí)世界的數(shù)據(jù)是不夠的。因此在GER(具身智能體研究團(tuán)隊(duì))中,我們將數(shù)據(jù)策略大致分為三個(gè)部分:
第一是互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù),比如網(wǎng)上的標(biāo)簽和視頻。
第二是模擬數(shù)據(jù),我們使用 Nvidia 的模擬工具生成大量的合成數(shù)據(jù)。
第三是實(shí)際機(jī)器人數(shù)據(jù),我們通過在機(jī)器人平臺上操作機(jī)器人,收集并記錄這些數(shù)據(jù)。
我相信一個(gè)成功的機(jī)器人策略需要有效地利用這三種數(shù)據(jù),混合它們并提供統(tǒng)一的解決方案。
Sonya Huang
你剛才提到的數(shù)據(jù)是實(shí)現(xiàn)機(jī)器人基礎(chǔ)模型工作的關(guān)鍵瓶頸,你能不能多談?wù)勀銓@個(gè)觀點(diǎn)的信念,以及需要什么樣的優(yōu)秀數(shù)據(jù)來突破這個(gè)問題?
Jim Fan
好的,我認(rèn)為我剛才提到的三種不同類型的數(shù)據(jù)各有優(yōu)缺點(diǎn)。首先是互聯(lián)網(wǎng)數(shù)據(jù),它們是最具多樣性的,包含了大量的常識性先驗(yàn)知識。
比如大多數(shù)網(wǎng)上的視頻都是以人為中心的,因?yàn)槲覀兿矚g自拍,喜歡記錄彼此進(jìn)行各種活動,也有很多教學(xué)視頻。
我們可以利用這些數(shù)據(jù)來學(xué)習(xí)人類如何與物體交互,以及物體在不同情況下的行為,這為機(jī)器人基礎(chǔ)模型提供了常識性先驗(yàn)知識。
但是,互聯(lián)網(wǎng)數(shù)據(jù)沒有行動信號,我們無法從互聯(lián)網(wǎng)上下載機(jī)器人的運(yùn)動控制信號。
這就引出了第二種數(shù)據(jù)策略,即使用模擬。在模擬中,你可以擁有所有的動作,并且可以觀察這些動作在特定環(huán)境中的結(jié)果。
模擬的優(yōu)勢在于它基本上是無限的數(shù)據(jù),數(shù)據(jù)量隨計(jì)算資源的增加而擴(kuò)展。投入越多的GPU,產(chǎn)生的數(shù)據(jù)就越多,而且數(shù)據(jù)是實(shí)時(shí)的。如果僅在真實(shí)機(jī)器人上收集數(shù)據(jù),那么你會受到每天 24 小時(shí)的限制。
而通過GPU加速的模擬器,我們可以將實(shí)際時(shí)間加速到 1 萬倍以上。在同樣的工作時(shí)間內(nèi),我們能夠以更高的速度收集數(shù)據(jù)。
但模擬的弱點(diǎn)是無論圖形管道多么好,模擬與現(xiàn)實(shí)總會有差距。物理規(guī)律和視覺效果都與現(xiàn)實(shí)世界有所不同,且內(nèi)容的多樣性不如我們在現(xiàn)實(shí)世界中遇到的情景。
最后是實(shí)際機(jī)器人數(shù)據(jù),這些數(shù)據(jù)沒有模擬與現(xiàn)實(shí)的差距,因?yàn)樗鼈兪窃谡鎸?shí)機(jī)器人上收集的,但收集成本要高得多,因?yàn)樾枰腿瞬僮鳈C(jī)器人。
而且它們依然受限于現(xiàn)實(shí)世界的時(shí)間,每天只有 24 小時(shí),還需要人類來收集這些數(shù)據(jù),成本非常高。
因此,我們認(rèn)為這三種類型的數(shù)據(jù)各有優(yōu)勢,成功的策略是結(jié)合它們的優(yōu)勢,消除它們的劣勢。
Sonya Huang
那些在 Jensen 演講臺上的可愛機(jī)器人真是一個(gè)精彩的時(shí)刻。如果你有一個(gè)五年或十年的夢想,你認(rèn)為你的團(tuán)隊(duì)會實(shí)現(xiàn)什么?
Jim Fan
這純粹是推測,但我希望我們能在接下來的兩到三年內(nèi)看到機(jī)器人基礎(chǔ)模型的研究突破,這就是我們所謂的機(jī)器人領(lǐng)域的 GPT-3 時(shí)刻。
之后就不確定了,因?yàn)橐寵C(jī)器人進(jìn)入人們的日常生活,不僅僅是技術(shù)問題。機(jī)器人需要價(jià)格合理,并且能夠量產(chǎn)。我們還需要確保硬件的安全性以及隱私和法規(guī)方面的考慮。
這些問題可能需要更長的時(shí)間才能使機(jī)器人進(jìn)入大眾市場,所以這比較難以預(yù)測。但我希望研究突破能夠在未來兩三年內(nèi)到來。
Stephanie Zhan
你認(rèn)為 AI 機(jī)器人領(lǐng)域的 GPT-3 時(shí)刻會是什么樣子的?
Jim Fan
這是個(gè)好問題。我喜歡將機(jī)器人技術(shù)分為兩個(gè)系統(tǒng):系統(tǒng)一和系統(tǒng)二,這個(gè)概念來自《思考,快與慢》這本書。
系統(tǒng)一是低級的運(yùn)動控制,它是無意識且快速的。例如,當(dāng)我拿起這杯水時(shí),我不會真的思考每毫秒如何移動手指。這就是系統(tǒng)一。
而系統(tǒng)二則是緩慢且深思熟慮的,它更像是推理和規(guī)劃,使用的是我們的有意識思維。我認(rèn)為 GPT-3 時(shí)刻將出現(xiàn)在系統(tǒng)一上。
我最喜歡的例子是“打開”這個(gè)動詞。想象一下“打開”這個(gè)詞的復(fù)雜性。打開門與打開窗戶不同,打開瓶子或手機(jī)的方式也不同。
但對人類來說,理解“打開”在與不同物體交互時(shí)意味著不同的動作并沒有任何問題。但
是到目前為止,我們還沒有看到一個(gè)機(jī)器人模型能夠在低級別運(yùn)動控制上對這些動詞進(jìn)行泛化。
我希望能看到一個(gè)模型能夠理解這些動詞的抽象含義,并能夠在各種對人類有意義的場景中進(jìn)行泛化。我們還沒有看到這種情況,但我對未來兩三年內(nèi)出現(xiàn)這個(gè)時(shí)刻持樂觀態(tài)度。
Sonya Huang
關(guān)于“系統(tǒng)二”思維呢?你認(rèn)為我們?nèi)绾尾拍軐?shí)現(xiàn)這個(gè)目標(biāo)?你認(rèn)為在 LLM 領(lǐng)域的推理工作也會與機(jī)器人領(lǐng)域相關(guān)嗎?
Jim Fan
是的,絕對相關(guān)。我認(rèn)為在“系統(tǒng)二”方面,我們已經(jīng)看到了一些非常強(qiáng)大的模型,它們可以進(jìn)行推理、規(guī)劃,甚至編程。
這些正是我們今天看到的 LLM 和前沿模型。但將“系統(tǒng)二”模型與“系統(tǒng)一”整合起來,本身就是一個(gè)研究挑戰(zhàn)。
所以問題是,針對機(jī)器人基礎(chǔ)模型,我們是否應(yīng)該有一個(gè)單一的大模型,還是采用某種級聯(lián)方法,保持“系統(tǒng)一”和“系統(tǒng)二”模型的獨(dú)立性,并讓它們通過某種方式進(jìn)行溝通?這仍然是一個(gè)懸而未決的問題,它們各有優(yōu)缺點(diǎn)。
如果是第一個(gè)想法,模型會更簡潔,只有一個(gè)模型,一個(gè) API 來維護(hù)。但這也更難控制,因?yàn)樗鼈兊目刂祁l率不同。
“系統(tǒng)二”模型的控制頻率較低,比如每秒一次決策(1Hz),而“系統(tǒng)一”則需要更高的控制頻率,比如每秒 1000 次決策(1000Hz),像我握住這杯水的微小運(yùn)動就是每秒數(shù)千次的決策。這種不同頻率的控制難以通過單一模型實(shí)現(xiàn)。
所以,可能級聯(lián)的方法會更好。但問題是,系統(tǒng)一和系統(tǒng)二之間如何溝通?它們通過文本交流還是通過某種潛在變量?目前還不清楚,我認(rèn)為這是一個(gè)非常令人興奮的新研究方向。
Sonya Huang
你覺得我們能夠通過擴(kuò)展和 Transformer 技術(shù)突破“系統(tǒng)一”思維嗎?還是說要祈禱好運(yùn)、看事態(tài)發(fā)展?
Jim Fan
我當(dāng)然希望我之前描述的數(shù)據(jù)策略能幫助我們實(shí)現(xiàn)這一目標(biāo)。因?yàn)槲矣X得我們還沒有完全發(fā)揮出 Transformer 的潛力。
從本質(zhì)上講, Transformer 是通過輸入和輸出 token 來工作的。最終, token 的質(zhì)量決定了這些大型 Transformer 模型的質(zhì)量。
對于機(jī)器人來說,正如我提到的,數(shù)據(jù)策略非常復(fù)雜。我們既有互聯(lián)網(wǎng)數(shù)據(jù),也需要模擬數(shù)據(jù)和真實(shí)機(jī)器人數(shù)據(jù)。
一旦我們能夠擴(kuò)展數(shù)據(jù)管道,并獲得高質(zhì)量的動作數(shù)據(jù),我們就可以將這些數(shù)據(jù) token 化,并將其輸入 Transformer 進(jìn)行壓縮。所以我覺得 Transformer 的潛力還未完全發(fā)揮出來。
一旦我們解決了數(shù)據(jù)策略問題,我們可能會看到一些隨著數(shù)據(jù)和模型規(guī)模擴(kuò)展而出現(xiàn)的涌現(xiàn)現(xiàn)象。我稱之為具身智能的“Scaling Law”,這才剛剛開始。
Stephanie Zhan
我對此非常樂觀。很好奇的是,當(dāng)我們到達(dá)那個(gè)突破點(diǎn)時(shí),你個(gè)人最期待看到的是什么?你認(rèn)為哪個(gè)行業(yè)、應(yīng)用或用例會完全改變今天的機(jī)器人世界?
Jim Fan
是的。實(shí)際上,我們選擇人形機(jī)器人作為主要研究方向有幾個(gè)原因。一個(gè)原因是,世界是圍繞人體形態(tài)設(shè)計(jì)的,所有的餐館、工廠、醫(yī)院以及我們的設(shè)備和工具都是為人類及其手形設(shè)計(jì)的。
因此,原則上,一個(gè)足夠先進(jìn)的人形機(jī)器人硬件應(yīng)該能夠完成任何一個(gè)普通人類可以完成的任務(wù)。
雖然當(dāng)前的人形機(jī)器人硬件還沒有達(dá)到那個(gè)水平,但我相信在未來兩到三年內(nèi),人形機(jī)器人硬件生態(tài)系統(tǒng)將會成熟。
屆時(shí),我們將擁有可負(fù)擔(dān)得起的人形機(jī)器人硬件,問題將變成如何為這些人形機(jī)器人提供 AI 大腦。
一旦我們擁有了能夠接受任何語言指令并完成任何人類能做的任務(wù)的通用基礎(chǔ)模型,我們就可以釋放大量經(jīng)濟(jì)價(jià)值。比如我們可以在家庭中擁有機(jī)器人,幫助我們做家務(wù)、洗衣、洗碗、做飯,或者照顧老人。
我們還可以在餐館、醫(yī)院、工廠中使用它們,幫助完成各種人類的工作。我希望這能在未來十年內(nèi)實(shí)現(xiàn)。
不過正如我之前提到的,這不僅僅是技術(shù)問題,還涉及許多技術(shù)之外的問題,我對此充滿期待。
Sonya Huang
你們選擇專注于人形機(jī)器人還有其他原因嗎?
Jim Fan
是的。還有一些更實(shí)際的原因,比如訓(xùn)練管道方面。關(guān)于人類的數(shù)據(jù)在網(wǎng)上有很多,視頻中的內(nèi)容大多是以人為中心的,人類在執(zhí)行日常任務(wù)或娛樂活動。
人形機(jī)器人的外形最接近人類的形態(tài),這意味著我們用這些數(shù)據(jù)訓(xùn)練的模型可以更容易地遷移到人形機(jī)器人形態(tài),而不是其他形態(tài)。
比如說,關(guān)于機(jī)器人手臂和夾爪的視頻有多少?很少見吧。但我們能看到很多關(guān)于人類用五指手工作的視頻。
因此,訓(xùn)練人形機(jī)器人可能更容易。一旦我們擁有了這些基礎(chǔ)模型,我們可以進(jìn)一步專門化它們,應(yīng)用到機(jī)器人手臂等更具體的機(jī)器人形態(tài)上。這就是為什么我們首先追求全面的解決方案。
Stephanie Zhan
你們目前只專注于人形機(jī)器人嗎,還是也會涉及機(jī)器人手臂或機(jī)器狗?
Jim Fan
Project Groot 目前主要專注于人形機(jī)器人。但我們構(gòu)建的管道,包括模擬工具和真實(shí)機(jī)器人工具,足夠通用,將來也可以適應(yīng)其他平臺。因此,我們正在構(gòu)建這些工具,以便廣泛適用。
Sonya Huang
你多次提到“通用”這個(gè)詞。我認(rèn)為機(jī)器人領(lǐng)域的一些人認(rèn)為通用方法行不通,必須針對特定領(lǐng)域和環(huán)境。為什么你們選擇了通用的方法?我們節(jié)目里經(jīng)常提到Richard Sutton的“苦澀教訓(xùn)”。你認(rèn)為這在機(jī)器人領(lǐng)域也適用嗎?
Jim Fan
絕對適用。我想首先談?wù)勎覀冊谧匀徽Z言處理( NLP )領(lǐng)域看到的成功案例。在ChaggbT和 GPT-3 出現(xiàn)之前, NLP 領(lǐng)域有很多專門針對不同應(yīng)用的模型和管道,比如翻譯、編程、數(shù)學(xué)運(yùn)算和創(chuàng)意寫作,它們都使用了不同的模型和訓(xùn)練管道。但ChaggbT出現(xiàn)后,將所有這些應(yīng)用統(tǒng)一到了一個(gè)單一的模型中。
我們稱這些為“通才”模型。而一旦有了通才模型,我們就可以通過提示、精煉等方式將它們專用于具體任務(wù),形成“專才”模型。
根據(jù)歷史趨勢,幾乎總是專才通才模型比原始的專才模型要強(qiáng)大得多,而且維護(hù)起來更簡單,因?yàn)橹挥幸粋€(gè) API ,它輸入文本,輸出文本。因此,我認(rèn)為我們可以遵循 NLP 領(lǐng)域的成功路徑,這在機(jī)器人領(lǐng)域也將如此。
到 2024 年,大多數(shù)機(jī)器人應(yīng)用仍處于專才階段,即針對特定任務(wù)、特定硬件、特定數(shù)據(jù)管道的專門模型。
但 Project Groot 的目標(biāo)是構(gòu)建一個(gè)通用的基礎(chǔ)模型,首先用于人形機(jī)器人,然后推廣到各種機(jī)器人形態(tài)或具身形式。這就是我們追求的通才時(shí)刻。
一旦我們有了通才模型,我們可以對其進(jìn)行定制,使其適用于具體的機(jī)器人任務(wù)。而這些將成為專才通才模型的體現(xiàn)。
但在擁有通才模型之前,這一切還不會發(fā)生。因此,從短期來看,追求專才模型會更容易,因?yàn)槟阒恍鑼W⒂诜浅*M窄的任務(wù)領(lǐng)域。
但我們在 Nvidia 相信未來屬于通才模型,盡管它需要更長的開發(fā)時(shí)間,也有更多的研究難題要解決,但這是我們首先追求的目標(biāo)。
Stephanie Zhan
Nvidia 構(gòu)建 Project Groot 的另一個(gè)有趣之處在于,正如你之前提到的, Nvidia 既擁有芯片也擁有模型。你認(rèn)為 Nvidia 可以做些什么來在自家芯片上優(yōu)化Groot模型?
Jim Fan
是的,在今年 3 月的 GTC 大會上,Jensen還發(fā)布了下一代邊緣計(jì)算芯片,稱為Jensen Source芯片,它實(shí)際上是與Project Groot一起發(fā)布的。
我們的想法是,向客戶提供一個(gè)從芯片級別(Jensen Source系列芯片)到基礎(chǔ)模型(Project Groot),再到模擬工具和沿途開發(fā)的其他實(shí)用工具的完整技術(shù)棧。這將成為一個(gè)面向人形機(jī)器人以及智能機(jī)器人的計(jì)算平臺。
我想引用 Jensen 的一句名言,這是我最喜歡的之一:“所有能夠移動的東西最終都會實(shí)現(xiàn)自主化?!蔽乙蚕嘈胚@一點(diǎn)。
雖然現(xiàn)在還沒有實(shí)現(xiàn),但我們可以預(yù)見,在未來十年或更長時(shí)間內(nèi),如果我們相信將來會有和 iPhone 一樣多的智能機(jī)器人,我們最好從今天開始建設(shè)。
Sonya Huang
太棒了!你們的研究目前是否有特別值得強(qiáng)調(diào)的成果?有什么讓你對你們的方法充滿信心或樂觀的嗎?
Jim Fan
是的,我們可以談?wù)勔恍┲暗墓ぷ鳌F渲形曳浅M意的一項(xiàng)工作叫做URAC。我們在這個(gè)項(xiàng)目中做了一個(gè)演示,訓(xùn)練一個(gè)五指機(jī)器人手進(jìn)行轉(zhuǎn)筆的動作。
對我個(gè)人來說,這特別幽默,因?yàn)槲乙呀?jīng)放棄了轉(zhuǎn)筆這個(gè)技能。所以我自己做不到,但機(jī)器人手卻可以。而我們用來訓(xùn)練它的方法是,我們使用 LLM 來編寫代碼,控制由 Nvidia 構(gòu)建的模擬 API ,稱為 i6M API 。LLM 輸出代碼來定義獎(jiǎng)勵(lì)函數(shù)。
獎(jiǎng)勵(lì)函數(shù)基本上就是我們希望機(jī)器人完成的理想行為的規(guī)范。如果機(jī)器人走在正確的軌道上,它就會獲得獎(jiǎng)勵(lì);如果做錯(cuò)了事,就會受到懲罰。
通常,獎(jiǎng)勵(lì)函數(shù)是由一個(gè)非常了解 API 的機(jī)器人專家設(shè)計(jì)的,這是一個(gè)需要高度專業(yè)知識的工作,而且過程非常繁瑣和手動。
我們開發(fā)了一種算法,使用 LLM 來自動化獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì),讓機(jī)器人能夠完成復(fù)雜的任務(wù),比如轉(zhuǎn)筆。
這是一種通用技術(shù),我們計(jì)劃將其擴(kuò)展到不僅僅是轉(zhuǎn)筆,它應(yīng)該能夠?yàn)楦鞣N任務(wù)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),甚至可以通過 Nvidia 的模擬 API 生成新的任務(wù)。這為我們的進(jìn)一步發(fā)展提供了廣闊的空間。
Sonya Huang
我記得五年前有一些研究團(tuán)隊(duì)在解決魔方問題,用機(jī)器人手來完成,當(dāng)時(shí)感覺機(jī)器人領(lǐng)域經(jīng)歷了一個(gè)“幻滅期”。而在過去一年左右,這個(gè)領(lǐng)域似乎又熱起來了。
你認(rèn)為為什么現(xiàn)在是機(jī)器人領(lǐng)域的“時(shí)機(jī)”?有什么不同的地方嗎?我們聽說 OpenAI 也在重新進(jìn)入機(jī)器人領(lǐng)域,大家都在加大努力。你覺得有什么變化嗎?
Jim Fan
是的,我認(rèn)為現(xiàn)在有幾個(gè)關(guān)鍵因素與之前不同。首先是機(jī)器人硬件。從去年年底開始,我們看到了機(jī)器人硬件生態(tài)系統(tǒng)的激增。
像特斯拉在開發(fā) Optimus,波士頓動力(Boston Dynamics)等,還有很多初創(chuàng)公司。我們看到硬件越來越強(qiáng)大,具有更好的靈活手和全身可靠性。第二個(gè)因素是價(jià)格下降。
我們看到人形機(jī)器人的制造成本顯著下降。比如 2001 年,NASA 開發(fā)了一個(gè)人形機(jī)器人,叫做 Robonaut,如果我沒記錯(cuò)的話,每個(gè)機(jī)器人成本超過 150 萬美元。
最近一些公司能夠?qū)⑷δ苋诵螜C(jī)器人的價(jià)格定在大約 3 萬美元左右,大致相當(dāng)于一輛車的價(jià)格。
而且隨著產(chǎn)品的成熟,它的價(jià)格通常會趨向于原材料成本。對于人形機(jī)器人,原材料成本通常只有汽車的4%左右。
所以未來幾年,我們可能會看到成本急劇下降。這使得這些硬件越來越負(fù)擔(dān)得起,這是人形機(jī)器人再次獲得動能的第二個(gè)因素。
第三個(gè)因素是在基礎(chǔ)模型方面。我們看到 LLM (如GPT、Claude、Llama等)在解決推理和規(guī)劃問題方面表現(xiàn)得非常出色。這些模型能夠很好地泛化,能夠編寫代碼。
我們提到的 URAC 項(xiàng)目正是利用了這些語言模型的編程能力來開發(fā)新的機(jī)器人解決方案。還有多模態(tài)模型的興起,提升了計(jì)算機(jī)視覺和感知能力。
我認(rèn)為這些成功也鼓勵(lì)我們追求機(jī)器人基礎(chǔ)模型,因?yàn)槲覀兛梢岳眠@些前沿模型的泛化能力,并在其上添加動作層,生成最終驅(qū)動人形機(jī)器人的動作 token 。
Stephanie Zhan
我完全理解這一切。你提到的很多研究進(jìn)展,許多是你自己在Centauril等項(xiàng)目中做出的貢獻(xiàn),再加上 Nvidia 的工具(如IZX等)極大地加速了該領(lǐng)域的進(jìn)展,尤其是在傳感和更便宜的傳感設(shè)備等方面。所以我覺得現(xiàn)在是從事這個(gè)領(lǐng)域工作的非常激動人心的時(shí)刻。
Jim Fan
是的,我同意。
Sonya Huang
我記得你最初的研究更多是在虛擬世界領(lǐng)域。你能不能談?wù)勈鞘裁醋屇銓?Minecraft 和機(jī)器人產(chǎn)生了興趣?在你看來,它們是否是相關(guān)的?是什么讓你對虛擬世界產(chǎn)生了興趣?
Jim Fan
這是個(gè)好問題。對我來說,我的個(gè)人使命是解決具身智能問題,而虛擬世界中的具身智能智能體就是像游戲和模擬中的那些智能體。因此我對游戲也有非常特別的情感。我自己也很喜歡玩游戲。
Stephanie Zhan
你玩什么游戲?
Jim Fan
我玩 Minecraft ,我試過,但我并不是一個(gè)非常好的玩家。所以我希望我的 AI 能彌補(bǔ)我糟糕的游戲技巧。我之前參與了幾個(gè)游戲項(xiàng)目。第一個(gè)是叫做Mind Dojo的項(xiàng)目,我們在 Minecraft 游戲中開發(fā)了一種通用智能體平臺。
對于不熟悉的觀眾來說, Minecraft 是一個(gè)開放的體素世界,你可以在其中做任何你想做的事情。你可以制作各種工具,冒險(xiǎn),它是一個(gè)開放式游戲,沒有特定的得分目標(biāo),也沒有固定的劇情。
我們從互聯(lián)網(wǎng)上收集了大量數(shù)據(jù),有人玩 Minecraft 的視頻,也有解釋游戲機(jī)制的wiki頁面,這些是多模態(tài)文檔,還有像 Reddit 的 Minecraft 子論壇,那里有很多人用自然語言討論游戲。
我們收集了這些多模態(tài)數(shù)據(jù)集,訓(xùn)練模型來玩 Minecraft 。這個(gè)項(xiàng)目叫做 Mind Dojo。后來第二個(gè)項(xiàng)目叫做 Voyager 。這個(gè)想法是在 GPT-4 發(fā)布后產(chǎn)生的,因?yàn)樗钱?dāng)時(shí)最好的編程模型。
于是我們想,如果我們將編程作為行動呢?基于這個(gè)想法,我們開發(fā)了 Voyager 智能體,它通過編寫代碼與 Minecraft 世界互動。
我們使用一個(gè) API 將 3D 的 Minecraft 世界轉(zhuǎn)換為文本表示,然后讓智能體使用行動 API 編寫代碼。就像人類開發(fā)者一樣,智能體并不總是能在第一次寫出正確的代碼。
所以我們給它一個(gè)自我反思循環(huán),如果它在 Minecraft 世界中遇到錯(cuò)誤或做錯(cuò)了事,它會收到反饋并修正它的程序。一旦它寫出了正確的程序,我們稱之為技能,它會將其保存到一個(gè)技能庫中。
以后當(dāng)智能體遇到類似的情況時(shí),它不需要再次經(jīng)歷試錯(cuò)過程,可以直接從技能庫中調(diào)用技能。
你可以將這個(gè)技能庫視為一個(gè)代碼庫,它是由 Voyager 自己互動地構(gòu)建的,完全沒有人類干預(yù)。整個(gè)代碼庫都是 Voyager 自己開發(fā)的。
這是第二個(gè)機(jī)制,技能庫。第三個(gè)機(jī)制是我們稱之為自動課程生成。智能體知道它知道什么,也知道它不知道什么。
因此它能夠提出下一個(gè)任務(wù),這個(gè)任務(wù)既不會太難也不會太簡單,然后它能夠沿著這條路徑發(fā)現(xiàn)各種技能、工具,并在 Minecraft 的廣闊世界中旅行。
因?yàn)樗眯械煤芏?,所以我們稱之為 Voyager 。所以這就是我們團(tuán)隊(duì)最早構(gòu)建具身智能體與虛擬世界交互的嘗試之一。
Sonya Huang
談?wù)勀銊偛盘岬降恼n程生成機(jī)制,我覺得這非常有趣,因?yàn)檫@似乎是推理和 LLM 世界中尚未完全解決的問題之一。
如何讓這些模型自我意識到下一步該做什么以提高自己?你能否再詳細(xì)談?wù)勀銈冊谡n程生成和推理方面的構(gòu)建?
Jim Fan
當(dāng)然。我認(rèn)為這些前沿模型展示了一種非常有趣的涌現(xiàn)特性,它們能夠反思自己的行為,并且它們似乎知道自己掌握了什么、還不知道什么,能夠據(jù)此提出任務(wù)。
在 Voyager 中,我們給智能體設(shè)定了一個(gè)高層指令,那就是盡可能多地發(fā)現(xiàn)新的物品。
我們只給了這個(gè)一句話的目標(biāo),沒給出任何關(guān)于先發(fā)現(xiàn)哪些物品、先解鎖哪些工具的指令。
智能體通過編碼、提示和技能庫自己發(fā)現(xiàn)了這些。這種系統(tǒng)的工作方式非常驚人,我認(rèn)為這是一種在擁有強(qiáng)大推理引擎后自然涌現(xiàn)的特性。
Sonya Huang
你認(rèn)為為什么這么多的虛擬世界研究都集中在虛擬世界?我相信不僅僅是因?yàn)樵S多深度學(xué)習(xí)研究人員喜歡玩電子游戲,雖然這可能也有點(diǎn)幫助。你覺得在虛擬世界中解決問題與物理世界中的問題有什么聯(lián)系?兩者如何相互影響?
Jim Fan
是的,我一直認(rèn)為游戲和機(jī)器人之間有很多相似的原則。對于具身智能體來說,它們的輸入是感知信息,比如視頻流和一些感官輸入,輸出則是行動。
在游戲中,這可能是鍵盤和鼠標(biāo)的動作,而在機(jī)器人中則是低級別的運(yùn)動控制。所以從 API 的角度看,這兩者是相似的。
這些智能體需要探索世界,某種程度上需要自己收集數(shù)據(jù),這就是我們所謂的強(qiáng)化學(xué)習(xí)和自我探索,而這一原則在物理智能體和虛擬智能體中都是共享的。但不同之處在于,機(jī)器人技術(shù)更難,因?yàn)槟阈枰缭侥M與現(xiàn)實(shí)的差距。
在模擬中,物理和渲染永遠(yuǎn)無法完美,所以將模擬中學(xué)到的東西轉(zhuǎn)移到現(xiàn)實(shí)世界是一大挑戰(zhàn),這是一個(gè)開放的研究問題。
因此,機(jī)器人技術(shù)有一個(gè)“模擬與現(xiàn)實(shí)差距”問題,而游戲則沒有。你是在同一個(gè)環(huán)境中訓(xùn)練和測試。因此,這是它們之間的區(qū)別之一。
去年我提出了一個(gè)概念,叫做基礎(chǔ)智能體(Foundation Agent),我相信最終我們會擁有一個(gè)可以同時(shí)應(yīng)用于虛擬和物理智能體的模型。
基礎(chǔ)智能體將能夠在三個(gè)方面實(shí)現(xiàn)泛化:第一是它能夠執(zhí)行的技能,第二是它能夠控制的具身形態(tài),第三是它能夠掌握的世界,無論是虛擬世界還是現(xiàn)實(shí)世界。這就是我們GER團(tuán)隊(duì)想要追求的終極愿景,基礎(chǔ)智能體。
Stephanie Zhan
談到虛擬世界和游戲領(lǐng)域,你已經(jīng)在開放環(huán)境中解鎖了一些推理和涌現(xiàn)行為。在游戲世界里,你個(gè)人的夢想是什么?你希望 AI 智能體在游戲領(lǐng)域帶來怎樣的創(chuàng)新?
Jim Fan
是的,我對兩個(gè)方面特別興奮。首先是游戲中的智能體?,F(xiàn)在的 NPC (非玩家角色)有固定的腳本,都是手動編寫的。但如果我們有真正“活著”的 NPC 呢?
他們能夠記住你之前告訴他們的事情,并且可以在游戲世界中采取行動,改變游戲的敘事和故事發(fā)展。這是我們還沒有見到的,但我覺得這里有巨大的潛力。
這樣一來,每個(gè)人玩同一個(gè)游戲都會有不同的體驗(yàn),甚至一個(gè)人兩次玩同一個(gè)游戲,故事也不一樣,這樣每個(gè)游戲都有無限的重玩價(jià)值。
第二個(gè)方面是游戲世界本身的生成。我們已經(jīng)看到了許多工具在做這方面的部分工作,比如從文本生成 3D 資產(chǎn),或者從文本生成視頻的模型,還有能夠生成故事情節(jié)的語言模型。
如果我們把這些工具結(jié)合起來,那么游戲世界可以在你玩的時(shí)候即時(shí)生成,并與你互動。這將是非常令人驚嘆的,也是一個(gè)真正開放式的體驗(yàn)。
Stephanie Zhan
特別有趣。關(guān)于智能體的愿景,你覺得需要 GPT-4 級別的能力嗎?還是像 Llama 8B 這樣的模型就能實(shí)現(xiàn)?
Jim Fan
我認(rèn)為智能體需要具備幾個(gè)關(guān)鍵能力。首先,它需要能夠進(jìn)行有趣的對話,擁有一致的個(gè)性,具備長期記憶,還要能夠在世界中采取行動。
就這些方面而言,目前的 Llama 模型已經(jīng)相當(dāng)不錯(cuò),但還不足以產(chǎn)生非常多樣化和引人入勝的行為。因此,我認(rèn)為在這方面仍有差距。另一個(gè)問題是推理成本。
如果我們想將這些智能體部署給游戲玩家,要么需要非常低的云托管成本,要么能夠在本地設(shè)備上運(yùn)行,否則在成本上是不可擴(kuò)展的。所以這是另一個(gè)需要優(yōu)化的因素。
Sonya Huang
你覺得在虛擬世界中的所有工作,是否是為了服務(wù)于物理世界的目標(biāo)?還是說虛擬世界本身就是一個(gè)足夠有價(jià)值的領(lǐng)域?你如何在物理世界和虛擬世界之間平衡你的工作優(yōu)先級?
Jim Fan
我認(rèn)為虛擬世界和物理世界最終只是在同一個(gè)軸上的不同現(xiàn)實(shí)。舉個(gè)例子,有一種技術(shù)叫做領(lǐng)域隨機(jī)化,它的工作原理是你在模擬中訓(xùn)練機(jī)器人,但同時(shí)在 1 萬個(gè)不同的模擬中并行訓(xùn)練,每個(gè)模擬的物理參數(shù)都不同,比如重力、摩擦力、重量等。這實(shí)際上是 1 萬個(gè)不同的世界。
如果我們有一個(gè)智能體能夠掌握所有這 1 萬個(gè)不同的現(xiàn)實(shí)配置,那么我們現(xiàn)實(shí)的物理世界就只是第 1 萬零一個(gè)模擬。在這種情況下,我們能夠從虛擬世界直接泛化到現(xiàn)實(shí)世界。
這實(shí)際上正是我們在 Eureka 后續(xù)工作中所做的。我們使用各種隨機(jī)化的模擬訓(xùn)練智能體,然后無需進(jìn)一步微調(diào),就能夠?qū)⑵渲苯愚D(zhuǎn)移到現(xiàn)實(shí)世界。
我相信這種方法是有效的。如果我們有各種虛擬世界(包括游戲世界),并且有一個(gè)智能體能夠在所有這些世界中掌握各種技能,那么現(xiàn)實(shí)世界只是更大分布中的一部分。
Stephanie Zhan
你能不能跟大家分享一下 Dr. Eureka 項(xiàng)目?
Jim Fan
當(dāng)然。在 Dr. Eureka 項(xiàng)目中,我們基于 Eureka 的成果,依然使用 LLM 作為機(jī)器人開發(fā)者。LLM 會編寫代碼,代碼用于指定模擬參數(shù),比如領(lǐng)域隨機(jī)化參數(shù)。
經(jīng)過幾次迭代后,我們在模擬中訓(xùn)練的策略能夠泛化到現(xiàn)實(shí)世界。我們展示的一個(gè)具體例子是,我們讓一個(gè)機(jī)器人狗在瑜伽球上行走,它不僅能夠保持平衡,還能向前行走。
有一個(gè)非常有趣的評論,有人讓自己的真狗去嘗試這個(gè)任務(wù),結(jié)果發(fā)現(xiàn)它的狗真的能做到這一點(diǎn)。所以在某種程度上,我們的神經(jīng)網(wǎng)絡(luò)超越了“真狗”的表現(xiàn)。
Sonya Huang
我敢肯定我的狗是做不到的,哈哈。
Jim Fan
是的,人工狗智能(ADI),這是下一本冒險(xiǎn)書的主題。
Sonya Huang
在虛擬世界領(lǐng)域,最近出現(xiàn)了很多令人難以置信的 3D 和視頻生成模型,許多都是基于 Transformer 的。你覺得我們是否已經(jīng)達(dá)到了那個(gè)可以憑借這些架構(gòu)實(shí)現(xiàn)理想目標(biāo)的階段?或者你認(rèn)為在模型架構(gòu)方面仍然需要一些突破?
Jim Fan
是的,我認(rèn)為在機(jī)器人基礎(chǔ)模型方面,我們還沒有充分發(fā)揮 Transformer 架構(gòu)的極限。當(dāng)前更大的瓶頸是數(shù)據(jù)問題。
正如我之前提到的,我們無法從互聯(lián)網(wǎng)上下載機(jī)器人控制的數(shù)據(jù)。我們必須在模擬中或通過真實(shí)機(jī)器人收集這些數(shù)據(jù)。
一旦我們有了成熟的數(shù)據(jù)管道,我們就可以將這些數(shù)據(jù) token 化,然后將它們送入 Transformer 進(jìn)行壓縮,就像 Transformer 預(yù)測 Wikipedia 上的下一個(gè)詞一樣。
我們?nèi)栽隍?yàn)證這些假設(shè),但我認(rèn)為 Transformer 的極限還未被充分探索。目前也有很多替代 Transformer 架構(gòu)的研究,我對此非常感興趣。
最近有一種叫做測試時(shí)訓(xùn)練(test-time training)的架構(gòu),還有一些其他的替代方案,它們提出了一些非常有前景的想法。雖然這些替代架構(gòu)還沒有達(dá)到最前沿模型的表現(xiàn),但我期待看到更多 Transformer 的替代方案出現(xiàn)。
Stephanie Zhan
有沒有什么特別吸引你注意的模型,為什么?
Jim Fan
是的,我提到了“member”工作和“測試時(shí)訓(xùn)練”模型,這些模型在不同時(shí)間點(diǎn)表現(xiàn)得更有效率。與 Transformer 模型需要處理所有過去的 token 不同,這些模型有更高效的內(nèi)在機(jī)制,所以我覺得它們很有前途。不過,我們需要將它們擴(kuò)展到前沿模型的規(guī)模,才能真正看到它們與 Transformer 的正面對比。
Stephanie Zhan
具身智能領(lǐng)域之外,你對 AI 最感興趣的是什么?
Jim Fan
我對視頻生成特別興奮,因?yàn)槲艺J(rèn)為視頻生成是一種世界模擬器。我們可以從數(shù)據(jù)中學(xué)習(xí)物理和渲染。我們已經(jīng)看到了像 OpenAI 的 Sora 這樣的模型,后來有很多新模型跟上了 Sora,所以這是一個(gè)正在進(jìn)行的研究話題。
Sonya Huang
世界模擬器能帶給我們什么?
Jim Fan
我認(rèn)為它能為我們帶來一個(gè)數(shù)據(jù)驅(qū)動的模擬環(huán)境,在其中我們可以訓(xùn)練具身智能,那將會非常了不起。
Stephanie Zhan
從長期來看,你對 AI 最感興趣的是什么?十年或更久以后?
Jim Fan
有幾個(gè)方面。首先是推理方面,我對能夠編程的模型非常感興趣。我認(rèn)為編程是一個(gè)非?;A(chǔ)的推理任務(wù),同時(shí)具有巨大的經(jīng)濟(jì)價(jià)值。也許十年后,我們會有達(dá)到人類水平的編程智能體,這將大大加速開發(fā)進(jìn)程,使用這些大模型本身。第二個(gè)方面當(dāng)然是機(jī)器人技術(shù)。
我認(rèn)為十年后,我們將擁有像人類一樣可靠和敏捷的人形機(jī)器人,甚至可能超越人類。我希望到那時(shí),Project Groot會取得成功,我們能夠擁有幫助我們?nèi)粘I畹娜诵螜C(jī)器人。
我只是希望機(jī)器人能幫我洗衣服。這是我的夢想。
Sonya Huang
你覺得哪一年機(jī)器人會幫我們洗衣服?
Jim Fan
越快越好,我已經(jīng)等不及了。
Sonya Huang
在 AI 領(lǐng)域,誰最啟發(fā)你?你曾有機(jī)會與許多偉大的 AI 人物共事,最早可以追溯到你的實(shí)習(xí)時(shí)期?,F(xiàn)在誰對你影響最大?
Jim Fan
我在 AI 領(lǐng)域有太多的英雄。首先,我非常敬佩我的博士導(dǎo)師 Fei-Fei Li。她教會了我如何培養(yǎng)良好的研究品味。
有時(shí)候,問題不是如何解決,而是要確定哪些問題值得解決。實(shí)際上,“什么問題”比“如何解決問題”要難得多。
在博士期間,我在她的指導(dǎo)下轉(zhuǎn)向了具身智能研究,現(xiàn)在回想起來,這是正確的方向。我相信 AI 智能體的未來將是具身的,不論是用于機(jī)器人還是虛擬世界。
我也很敬佩 Andrej Karpathy,他是一位偉大的教育家,他寫代碼就像寫詩一樣,我非常仰慕他。還有 Jensen Huang,我對他的敬佩之情溢于言表。他不僅關(guān)心 AI 研究,還非常了解模型的技術(shù)細(xì)節(jié),這讓我非常佩服。
Stephanie Zhan
談到擁有良好的研究品味,你對那些在 AI 領(lǐng)域創(chuàng)業(yè)的創(chuàng)始人有何建議?他們該如何找到正確的問題去解決?
Jim Fan
我認(rèn)為有一些研究論文現(xiàn)在變得越來越容易理解,里面有一些非常好的想法,而且越來越實(shí)用,而不僅僅是理論性的機(jī)器學(xué)習(xí)。因此,我建議大家保持對最新文獻(xiàn)的關(guān)注,同時(shí)嘗試其他人開發(fā)的開源工具。比如在 Nvidia ,我們開發(fā)了模擬器工具,任何人都可以訪問并下載,可以在模擬環(huán)境中試驗(yàn)機(jī)器人,親自實(shí)踐是非常重要的。
Stephanie Zhan
說到 Jensen 作為一個(gè)偶像,你認(rèn)為那些在 AI 領(lǐng)域創(chuàng)業(yè)的創(chuàng)始人能從他身上學(xué)到哪些實(shí)用的建議?
Jim Fan
我認(rèn)為是找到正確的方向去努力。例如, Nvidia 押注于人形機(jī)器人,因?yàn)槲覀兿嘈胚@是未來。還有具身智能,如果我們相信十年后世界上會有和 iPhone 一樣多的智能機(jī)器人,那么我們最好今天就開始努力。
VC 今年以來對 AI 初創(chuàng)公司投資達(dá) 641 億美元,接近 2021 年峰值,但全球 AI 年收入總額也才數(shù)百億美元
本文由人人都是產(chǎn)品經(jīng)理作者【有新Newin】,微信公眾號:【有新Newin】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!