吳恩達最新演講:AI智能代理工作流的趨勢(觀點解讀與演講全文)
在紅杉資本AI峰會第三期,吳恩達教授分享了對智能體工作流的看法。在本次演講中,他談到了AI agentic workflow,也就是智能體工作流的迭代模式,以及基于人工評估基準測試的效果分析,還談到了自己對于AI智能體設(shè)計模式的四種分類,包括反思、工具使用、規(guī)劃、多智能體協(xié)作。與此同時,吳恩達還分享了它對AI智能體的未來發(fā)展?jié)摿Φ恼雇?/p>
吳恩達指出,隨著AI技術(shù)的發(fā)展,AI代理被視為一個能顯著提升軟件開發(fā)效率和質(zhì)量的工具。
他通過展示AI代理如何在主動型工作流中超越單獨模型的局限,以及多代理系統(tǒng)如何通過協(xié)作來解決復(fù)雜問題,強化了這一觀點。
他認為,在未來,我們將看到AI代理在各種工作流程中發(fā)揮更大的作用,并且這些代理的性能和應(yīng)用范圍將不斷擴大。
對此,人們需要學(xué)會重新設(shè)定與AI合作的期望,并充分利用AI代理快速迭代的優(yōu)勢。
吳恩達還預(yù)測了AI工作流程的擴展,并討論了人類需要適應(yīng)與AI代理交互的新方式。
吳恩達介紹了 AI 智能代理工作流的四種設(shè)計模式:
- 反思(Reflection):LLM 檢查自己的工作,以提出改進方法。
- 工具使用(Tool use):LLM 擁有網(wǎng)絡(luò)搜索、代碼執(zhí)行或任何其他功能來幫助其收集信息、采取行動或處理數(shù)據(jù)。
- 規(guī)劃(Planning):LLM 提出并執(zhí)行一個多步驟計劃來實現(xiàn)目標(例如,撰寫論文大綱、進行在線研究,然后撰寫草稿……)。
- 多智能體協(xié)作(Multi-agent collaboration):多個 AI 智能代理一起工作,分配任務(wù)并討論和辯論想法,以提出比單個智能體更好的解決方案。
關(guān)鍵結(jié)論及其論據(jù)支撐:
結(jié)論 1: 主動型工作流中的AI代理可以產(chǎn)生比傳統(tǒng)工作流更好的結(jié)果。
論據(jù):
吳恩達個人實際操作時觀察到的效果出人意料。
GPT-3.5在主動型工作流中表現(xiàn)得甚至比GPT-4還好,盡管GPT-4在零次提示下有更高的成功率。
結(jié)論 2: 多代理協(xié)作是提高AI性能的有效策略。
論據(jù):
設(shè)計模式包括代碼代理和批判代理的合作,這種模式易于實施且通用。
實驗顯示多代理通過協(xié)作編寫代碼、測試和迭代可以生成復(fù)雜的程序。
結(jié)論 3: AI代理的運用將擴大人工智能可執(zhí)行任務(wù)的范圍。
論據(jù):
吳恩達期待由于代理工作流程的存在,今年AI能完成的任務(wù)集會大幅拓展。
已經(jīng)存在的不同設(shè)計模式(反思、工具使用、規(guī)劃和多代理協(xié)作)表明,AI代理的應(yīng)用正變得越來越精細和廣泛。
結(jié)論 4: 快速迭代在AI代理的使用中是關(guān)鍵,甚至可能比慢速迭代的更高質(zhì)量模型結(jié)果更好。
論據(jù):
LLM快速生成Token對于多代理工作流程至關(guān)重要,因為需要不斷迭代。
即使是質(zhì)量較低的LLM,只要迭代速度足夠快,也可能產(chǎn)生比慢速生成Token的更高質(zhì)量模型更好的結(jié)果。
結(jié)論 5: 人們需要適應(yīng)耐心等待AI代理完成任務(wù)的方式。
論據(jù):
目前人們習(xí)慣于搜索引擎式的即時回應(yīng),但與AI代理的合作需要時間來產(chǎn)生最佳結(jié)果。
這種適應(yīng)是提高與AI代理合作效率的必要步驟。
下面是演講全文:
《Agentic Reasoning》
我很期待與大家分享我對AI代理的看法,這是一個我認為所有從事AI開發(fā)的人都應(yīng)該關(guān)注的令人興奮的趨勢,同時我也對其他的內(nèi)容感到興奮。
接下來的演示會是怎樣呢?現(xiàn)在我們大多數(shù)人使用AI代理的方式就像一個小企業(yè)那樣,帶著一種非主動性的工作流程,你輸入一個問題它就生成答案。這有點像你讓一個人寫一篇論文,然后說“請坐到鍵盤前,從頭到尾打出這篇論文,而且不許用退格鍵”。
盡管這很難,但LLM實際上做得相當好。相比之下,在主動型工作流中,情況可能是這樣的:AI會說,“寫一個論文提綱。你自己需要做進一步的調(diào)研嗎?那我們開始吧。然后寫第一稿,再讀你自己的第一稿,考慮哪些部分需要修改,然后修改你的草稿,如此反復(fù)?!?/p>
這種工作流程更加迭代,你可能需要AI做一些思考,然后修改文章,再做一些思考,這個過程重復(fù)多次。而許多人沒有意識到的是,這實際上能得到顯著更好的結(jié)果。
我自己實際操作這些主動型工作流時,也非常驚訝它們的效果。
除非你想要一個案例研究,我的團隊使用一種名為“人類智能基準測試”的代碼標準來分析數(shù)據(jù),這個標準是由OpenAI幾年前發(fā)布的。
這里面包含了編碼問題,比如“給定一個非空整數(shù)列表,返回所有奇數(shù)元素或未偶數(shù)位置上的元素的總和”。結(jié)果是你的代碼片段就像這樣。
今天我們很多人會使用零次提示,意思是我們告訴AI“寫代碼”并讓它在第一部分運行,比如誰調(diào)用了代碼,我知道人類不會那樣寫代碼,我們應(yīng)該把代碼打出來。也許你可以做到,但我做不到。事實證明,如果你使用GPT-3.5零次提示,它的成功率是48%,而GPT-4的表現(xiàn)則好得多,成功率達到67.7%。
但如果你采用一個主動型工作流環(huán)繞GPT-3.5,實際上它甚至比GPT-4做得還好。如果你將這種類型的工作流環(huán)繞在GPT-4周圍,它也表現(xiàn)得很好。
你會注意到,在主動型工作流中GPT-3.5實際上比GPT-4的表現(xiàn)更好。我認為這意味著非常重要的后果,我認為這將改變我們所有人構(gòu)建應(yīng)用程序的方法。所以“代理”這個術(shù)語被廣泛地討論,許多咨詢報告都在談?wù)揂I的未來等等。
我想更具體地與大家分享我觀察到的廣泛設(shè)計模式和代理。這是一個非?;靵y、無序的領(lǐng)域,有大量的研究和開源項目。有很多事情正在發(fā)生,但我試圖將其歸類得更具體一些。經(jīng)歷了代理反思這個工具,我認為我們中的許多人都在使用它,它確實有效。我認為這是公認的技術(shù)。當我使用它們的時候,我?guī)缀蹩偰茏屗鼈冋9ぷ鳌?/p>
計劃和多代理協(xié)作,我認為這些更是新興的內(nèi)容。當我使用它們時,有時我會對它們的效果感到震驚。但至少在目前,我感覺我不能總是可靠地讓它們工作。
所以讓我通過幾張幻燈片來介紹這四種設(shè)計模式。如果你們中的一些人回去讓你們的工程師使用它們,我認為你們很快就會獲得生產(chǎn)力的提升。
所以關(guān)于反思,這里有一個例子。假設(shè)我要求一個系統(tǒng),請為我編寫一個特定任務(wù)的代碼。然后我們有一個代碼代理,只是一個你提示編寫代碼的LLM,比如定義一個任務(wù)函數(shù)。
自我反思的一個例子是,如果你隨后用類似的提示向LLM提問,例如這里有一段代碼是為一個任務(wù)準備的,然后將剛剛生成的完全相同的代碼反饋給它,并仔細檢查代碼的正確性和效率。
對他們來說,這是一個很好的建設(shè)性反饋。結(jié)果表明,同一個LLM在你提示它編寫代碼后,可能會發(fā)現(xiàn)第五行的問題并修復(fù)它。如果你現(xiàn)在拿它自己的反饋提示它,它可能會生成一個第二版的代碼,可能比第一版的代碼工作得更好,雖然不能保證,但這足夠經(jīng)常發(fā)生,值得在很多應(yīng)用程序中嘗試。
為了預(yù)示即將使用的內(nèi)容。如果你讓它運行單元測試,如果它沒通過單元測試,那你就問它為什么沒通過單元測試?
進行這樣的對話。我們將找出為什么沒通過單元測試,所以嘗試改變一些東西,最終提出解決方案。
順便說一句,對于那些想要了解更多關(guān)于這些技術(shù)的人,我對每個部分都有很高的評價,在底部有一個推薦閱讀部分,整個圖表是更多參考資料。
我猜我描述的代理系統(tǒng)是一個你提示它的單一代碼代理?
這個想法的一個自然演變是,不是一個單一的代碼代理,你可以有兩個代理,其中一個是代碼代理,另一個是批判代理。這些可能是相同的基礎(chǔ)LLM模型,但你以不同的方式提示它們。
我們說,一個你是專家級的編碼者,編寫代碼。
另一個說,你是專家級的代碼審查員,審查代碼。
這種工作流程實際上很容易實施。
我認為這是一個非常通用的技術(shù),對于很多工作流程來說,這將大幅提升你的LLM性能。
第二個設(shè)計模式是使用工具。
你們中已經(jīng)有人見過LLM系統(tǒng)使用工具了,左邊是Copilot的截圖,右邊是從GPT-4中提取的東西。
但是今天的 LLM,如果你問,最好的咖啡機是什么?
你可以進行網(wǎng)絡(luò)檢索,對于某些問題,LLM 會生成代碼并運行代碼。
事實證明,有許多不同的工具被許多不同的人用于分析,收集信息以采取行動,提高個人生產(chǎn)力。
事實證明,早期的許多工具在計算機視覺社區(qū)的使用,因為在大型語言模型出現(xiàn)之前,他們不能對圖像做任何事情。
因此,唯一的選擇是讓 LLM 生成一個可以操作圖像的函數(shù)調(diào)用,例如生成圖像或進行對象檢測等。因此,如果你真正看一下文獻,就會發(fā)現(xiàn)有趣的是,工具使用方面的大部分工作似乎都源于視覺。因為LLM之前對圖像視而不見,GPT-4v 和,以及 Lava 等等。這就是工具的使用,它擴展了LLM的能力。
第三個,就是計劃。
對于那些還沒真玩過很多規(guī)劃算法的人來說,,我覺得很多人都在談?wù)揅hatGPT時刻,你會發(fā)現(xiàn),哇,無法想象人工智能代理能夠這樣做。
我認為如果你沒有使用過規(guī)劃算法,很多人都會有一種人工智能代理。我無法想象人工智能代理會這樣做。
因此,我運行了現(xiàn)場演示,其中出現(xiàn)了一些故障,并且人工智能代理圍繞故障重新規(guī)劃。事實上,我有過很多這樣的時刻,哇,我不敢相信我的人工智能系統(tǒng)能夠自主地做到這一點。
但是,我改編自一篇擁抱GPT 論文的例子,你說,請生成一張女孩的圖像。其中女孩正在讀書,并且它發(fā)布的內(nèi)容與圖像中的男孩相同,例如.jpeg,請用一個男孩描述新圖像。
今天有了人工智能代理,你可以做出決定,我需要做的第一件事是確定男孩的姿勢。然后,找到正確的模型,也許在huggingFace上來提取姿勢。接下來,你需要找到一個后期圖像模型來合成一個女孩的圖片如下所示,然后使用,圖像轉(zhuǎn)文本,最后使用文本轉(zhuǎn)語音。
今天,我們實際上有一些代理,我不想說他們工作可靠,他們有點挑剔,他們并不總是工作,但當它工作時,它實際上是相當驚人的。通過代理循環(huán),有時您也可以從早期的故障中恢復(fù)。
所以我發(fā)現(xiàn)自己已經(jīng)在我的一些工作中使用研究代理,我想要進行一項研究,但我不喜歡,谷歌搜索自己并花很長時間。我應(yīng)該發(fā)送給研究人員,幾分鐘后回來看看有什么結(jié)果。而且,有時有效,有時無效,對嗎?但這已經(jīng)是我個人工作流程的一部分。
4.Multiagent collaboration
最終的設(shè)計模式,多智能體協(xié)作。
這是有趣的事情之一,但是,它的效果比你想象的要好得多。
左邊是一篇名為“聊天”的論文的截屏,它是完全開放的,實際上是開源的。你們中的許多人都看到了在我的筆記本電腦上運行的Chat Dev開源演示的華麗的社交媒體公告。
GhatDev 所做的就是一個多代理系統(tǒng)的例子,你提示一個 LLM,有時扮演一個軟件引擎公司的CEO,有時扮演產(chǎn)品經(jīng)理,有時扮演測試員。
通過提示讓代理告訴他們,你現(xiàn)在是CEO,你現(xiàn)在是軟件工程師來來建立群代理。他們實際上會花幾分鐘編寫代碼?測試它。迭代。然后生成一個極其復(fù)雜的程序.
他們合作進行了一次長時間的對話,所以如果你告訴它,請開發(fā)一個游戲,開發(fā)目標,更多的關(guān)鍵游戲。他們實際上會花幾分鐘編寫代碼,測試它,評分,然后生成一個及其復(fù)雜的程序。
有時它不起作用,有時它很驚人。但這項技術(shù)真的越來越好。而且,這只是設(shè)計模式之一,事實證明,多代理辯論。你有不同的代理,例如,可能讓 ChatGPT 和 Gemini互相辯論,也會帶來更好的性能。讓多個代理一起工作,也是更強大的設(shè)計模式。
所以總結(jié)一下,我認為這些模式是顯而易見的。我認為如果我們在我們的工作中使用這些模式,我們中的許多人都可以很快得到提升。
我認為,代理推理設(shè)計模式將會很重要。這是我的最后一張幻燈片。
我預(yù)計,由于代理工作流程!,今年人工智能可以完成的任務(wù)集將大幅拓展。
人們實際上很難適應(yīng)的一件事是,當我們提示LLM時,我們希望立即得到答復(fù)。
事實上,十年前,當我在谷歌與他們討論這個問題時,我們稱之為大盒子搜索類型,我們需要輸入一個很長的提示詞,這是我未能成功推動的原因之一,因為當你進行網(wǎng)絡(luò)搜索時,你期望在半秒內(nèi)就會有一個回應(yīng),對吧?這就是人性。
我們喜歡那種即時抓取,即時反饋。
但對于很多代理流程,我認為我們需要學(xué)會將任務(wù)委托給AI代理,并耐心地等待幾分鐘,甚至幾小時才能得到回應(yīng)。
但就像我看到很多新手經(jīng)理將事情委托給別人,然后5分鐘后檢查一樣,對吧?
這并不高效。我認為這真的很難。
我們也需要用一些AI代理來做到這一點。
另一個重要的趨勢是,快速Token生成很重要,因為通過這些代理工作流程,我們會一遍又一遍地迭代。
因此,LLM 正在生成Token。因此,能夠比任何人讀取的速度更快地生成Token真是太棒了。
我認為,與來自更好的 LLM 的較慢的Token相比,即使是質(zhì)量稍低的 LLM快速生成更多的Token也可能會產(chǎn)生良好的結(jié)果。
也許,這有點爭議,因為它可能會讓你多次繞過這個循環(huán)。有點像我在第一張幻燈片上使用 GPT-3 和代理架構(gòu)展示的結(jié)果。
坦白說,我真的很期待 Claude 5, Claude 4、 GPT-5 和Gemini 2.0以及許多人正在構(gòu)建的所有其他精彩模型。
我的一部分感覺是,如果您期待在 GPT-5 Zero-Shot上運行您的東西,您知道,您可能能夠在某些應(yīng)用程序上比您通過代理推理想象的更接近該性能水平,但在早期模型上。我覺得,這是一個重要的趨勢,老實說,通向 AGI 的道路感覺像是一段旅程,而不是一個目的地。
但我認為這種類型的代理工作流程可以幫助我們在這個漫長的旅程中向前邁出一小步。謝謝。
B站視頻觀看地址:
https://www.bilibili.com/video/BV19D421V7mc
附資料:
如何理解:AI agent(人工智能代理)
AI agent(人工智能代理)通常指的是一個軟件實體,它可以在某種程度上模擬人類智能的某些方面,執(zhí)行特定任務(wù)或達成目標。這些代理可以感知環(huán)境,并在此基礎(chǔ)上進行決策并采取行動,從而完成既定的任務(wù)或解決問題。
要理解AI代理,我們可以將其比作一個有能力獨立執(zhí)行任務(wù)的助手。例如,考慮一下吳恩達提到的編寫代碼的代理。假設(shè)你是一個程序員,需要編寫一個函數(shù)來處理數(shù)據(jù)。
如果沒有AI代理,你需要自己思考、編碼、測試和調(diào)試。而有了AI代理之后,你可能只需要描述你想要的結(jié)果,AI代理就會自動生成代碼,并且可能還會對該代碼進行測試和優(yōu)化。
以多代理系統(tǒng)為例,可以設(shè)想一個由多個專門AI代理組成的團隊,其中每個代理都有不同的角色和能力。以下是一些示例:
- 軟件開發(fā)多代理系統(tǒng):你可能有一個AI代理負責(zé)編寫代碼(編碼代理),另一個負責(zé)檢查代碼質(zhì)量(審查代理),還有一個可能專注于編寫測試用例(測試代理)。這些代理可以一起工作,相互溝通,共同開發(fā)出功能完整的軟件應(yīng)用。
- 客服機器人:一個AI代理負責(zé)接聽電話,分析客戶的問題,并將其分派給最合適的服務(wù)部門。另一個AI代理可能是專業(yè)解決特定類型問題的,比如技術(shù)支持或訂單處理。這些代理能夠根據(jù)客戶的需求協(xié)同工作,提供有效的客戶服務(wù)。
- 個人助理AI:一個AI代理幫助你管理日歷,安排會議;另一個代理幫你搜索網(wǎng)絡(luò)信息,而第三個AI代理可能負責(zé)運行模擬和預(yù)測,幫助你做出更好的商業(yè)決策。
通過使用AI代理,我們可以使復(fù)雜的流程自動化,增加效率,并允許系統(tǒng)以自動化的方式執(zhí)行那些通常需要大量時間和專業(yè)知識的任務(wù)。AI代理的進步也意味著它們可以學(xué)習(xí)并改進自己的性能,隨著時間的推移變得更加精確和高效。
專欄作家
Blues,微信公眾號:BLUES,人人都是產(chǎn)品經(jīng)理專欄作家。深圳梅沙科技合伙人。20年豐富的職場經(jīng)歷,歷經(jīng)連續(xù)創(chuàng)業(yè)、騰訊、YY語音、迅雷等公司,目前致力于“教育+科技”產(chǎn)品創(chuàng)造。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!