創(chuàng)業(yè)公司在AI agent競賽中加大賭注

0 評論 603 瀏覽 0 收藏 10 分鐘
🔗 B端产品经理需要进行售前演示、方案定制、合同签订等,而C端产品经理需要进行活动策划、内容运营、用户激励等

Genspark 成功發(fā)布 “超級代理”,它能夠自主規(guī)劃旅行、制作動畫劇集,甚至能以清晰邏輯展示思考過程,這將給企業(yè)和科技行業(yè)帶來怎樣的沖擊?

通用人工智能代理領(lǐng)域突然變得更加擁擠和雄心勃勃。

本周,總部位于加利福尼亞州帕洛阿爾托的初創(chuàng)公司Genspark發(fā)布了其所謂的“超級代理”(Super Agent),這是一個快速移動的自主系統(tǒng),旨在處理跨多個領(lǐng)域的現(xiàn)實世界任務(wù)包括一些令人驚訝的任務(wù),比如使用逼真的合成語音給餐廳打電話。

這一發(fā)布為人工智能競爭中的一個重要新戰(zhàn)線增添了動力:誰能率先打造出第一個可靠、靈活且真正有用的通用代理?或許更緊迫的問題是,這對企業(yè)意味著什么?

Genspark推出“超級代理”僅在三周前,另一家由中國創(chuàng)立的初創(chuàng)公司Manus因其能夠協(xié)調(diào)工具和數(shù)據(jù)源以完成異步云任務(wù)(如旅行預(yù)訂、簡歷篩選和股票分析)而受到關(guān)注——所有這些任務(wù)都不需要大多數(shù)當(dāng)前代理所需的“手把手”指導(dǎo)。

Genspark現(xiàn)在聲稱走得更遠。據(jù)聯(lián)合創(chuàng)始人埃里克·景(Eric Jing)稱,“超級代理”建立在三個支柱上:九種不同的大型語言模型(LLM)、80多個工具和超過10個專有數(shù)據(jù)集——所有這些都在一個協(xié)調(diào)的流程中協(xié)同工作。它遠遠超出了傳統(tǒng)的聊天機器人,能夠處理復(fù)雜的工作流程并返回完全執(zhí)行的結(jié)果。

在一個演示中,Genspark的代理規(guī)劃了一次完整的圣地亞哥五天之旅,計算了景點之間的步行距離,繪制了公共交通選項,并使用語音呼叫代理預(yù)訂餐廳,包括處理食物過敏和座位偏好。另一個演示展示了該代理通過生成食譜步驟、視頻場景和音頻覆蓋來創(chuàng)建烹飪視頻。在第三個演示中,它編寫并制作了一集《南方公園》風(fēng)格的動畫劇集,內(nèi)容涉及最近的“信號門”政治丑聞,該丑聞涉及與政治記者分享戰(zhàn)爭計劃。

這些聽起來像是面向消費者的應(yīng)用,但它們展示了技術(shù)的發(fā)展方向朝著多模態(tài)、多步驟任務(wù)自動化的方向發(fā)展,模糊了創(chuàng)意生成與執(zhí)行之間的界限。

“解決這些現(xiàn)實世界的問題比我們想象的要困難得多,”景在視頻中說,“但我們對我們?nèi)〉玫倪M展感到興奮?!?/p>

一個引人注目的特點是:“超級代理”清晰地可視化了其思考過程,追溯了它是如何推理每一步的,它調(diào)用了哪些工具以及原因。實時觀看這種邏輯展開,使系統(tǒng)感覺更像是一個協(xié)作伙伴,而不是一個黑箱。這也可能激勵企業(yè)開發(fā)人員在自己的人工智能系統(tǒng)中構(gòu)建類似的可追溯推理路徑,使應(yīng)用程序更加透明和值得信賴。

“超級代理”的另一個令人印象深刻的特點是其易于嘗試。該界面在瀏覽器中平穩(wěn)啟動,無需技術(shù)設(shè)置。Genspark允許用戶無需提供個人憑據(jù)即可開始測試。相比之下,Manus仍要求申請人加入等待名單并披露社交媒體賬戶和其他私人信息,這增加了實驗的摩擦。

我們早在11月首次報道了Genspark,當(dāng)時它推出了由Claude驅(qū)動的財務(wù)報告。該公司已在兩輪融資中至少籌集了1.6億美元,并得到了美國和新加坡投資者的支持。

01 Genspark是如何做到的?

Genspark的方法之所以脫穎而出,是因為它解決了人工智能工程中長期存在的一個挑戰(zhàn):大規(guī)模的工具編排。

大多數(shù)當(dāng)前的代理在同時處理超過幾個外部API或工具時就會崩潰。Genspark的“超級代理”似乎在這方面表現(xiàn)得更好,可能是因為它使用了模型路由和基于檢索的選擇,根據(jù)任務(wù)動態(tài)選擇工具和子模型。

這種策略呼應(yīng)了中國蘇州大學(xué)提出的CoTools框架這一新興研究,該框架增強了大型語言模型(LLM)使用廣泛且不斷發(fā)展的工具集的方式。與依賴大量提示工程或僵化微調(diào)的舊方法不同,CoTools保持基礎(chǔ)模型“凍結(jié)”,同時訓(xùn)練較小的組件以高效地判斷、檢索和調(diào)用工具。

另一個促成因素是模型上下文協(xié)議(Model Context Protocol,MCP),這是一個鮮為人知但越來越被采用的標(biāo)準(zhǔn),允許代理在各個步驟中攜帶更豐富的工具和記憶上下文。結(jié)合Genspark的專有數(shù)據(jù)集,MCP可能是其代理看起來比其他替代方案更具“可操控性”的原因之一。

02 與Manus相比如何?

Genspark并不是第一個推廣通用代理的初創(chuàng)公司。由中國公司Monica上月推出的Manus憑借其多代理系統(tǒng)引起了轟動,該系統(tǒng)可以自主運行諸如網(wǎng)絡(luò)瀏覽器、代碼編輯器或電子表格引擎等工具,以完成多步驟任務(wù)。

Manus高效整合了開源組件,包括網(wǎng)絡(luò)工具和像Anthropic的Claude這樣的大型語言模型(LLM),令人驚訝。盡管沒有構(gòu)建專有模型堆棧,它在GAIA基準(zhǔn)測試中的表現(xiàn)仍超過了OpenAI——GAIA是一個旨在評估代理現(xiàn)實世界任務(wù)自動化的合成測試。

然而,Genspark聲稱已經(jīng)超越了Manus,在GAIA測試中得分為87.8%,高于Manus報告的86%,并且是通過包含專有組件和更廣泛的工具覆蓋的架構(gòu)實現(xiàn)的。

03 大型科技公司:仍在謹(jǐn)慎行事?

與此同時,美國最大的人工智能公司一直保持謹(jǐn)慎。

微軟的主要人工智能代理產(chǎn)品Copilot Studio專注于與企業(yè)應(yīng)用程序(如Excel和Outlook)緊密對齊的微調(diào)垂直代理。OpenAI的Agent SDK提供了構(gòu)建模塊,但尚未推出自己的全功能通用代理。亞馬遜最近宣布的Nova Act采用以開發(fā)人員為中心的方法,通過SDK提供基于瀏覽器的原子級操作,但與Nova LLM和云基礎(chǔ)設(shè)施緊密綁定。

這些方法更具模塊化、更安全,并且明確針對企業(yè)使用。但它們?nèi)狈enspark演示中所展示的雄心壯志或自主性。

其中一個原因可能是規(guī)避風(fēng)險。如果谷歌或微軟的通用代理預(yù)訂了錯誤的航班,或者在語音通話中說了一些奇怪的話,聲譽成本可能會很高。這些公司也被鎖定在自己的模型生態(tài)系統(tǒng)中,限制了它們在多模型編排方面實驗的靈活性。

相比之下,像Genspark這樣的初創(chuàng)公司有自由混合和匹配大型語言模型,并且能夠快速行動。

04 企業(yè)應(yīng)該關(guān)心嗎?

這是戰(zhàn)略問題。大多數(shù)企業(yè)不需要通用代理來預(yù)訂晚餐或制作諷刺漫畫。但他們可能很快需要能夠處理特定領(lǐng)域的多步驟任務(wù)的代理,例如挖掘和格式化合規(guī)數(shù)據(jù)、協(xié)調(diào)客戶入職或在多種格式中生成內(nèi)容。

在這種情況下,Genspark的工作變得更加相關(guān)。通用代理變得越無縫和自主,并且越能整合語音、記憶和外部工具,它們就越有可能開始與傳統(tǒng)的SaaS應(yīng)用程序和RPA平臺競爭。

而且它們正在以更輕的基礎(chǔ)設(shè)施實現(xiàn)這一點。例如,Genspark聲稱其代理“超級可操控”,并且可以被營銷人員、教師、招聘人員、設(shè)計師和分析師使用所有這些都只需要很少的設(shè)置。

通用代理時代不再是假設(shè)性的。它已經(jīng)到來并且正在迅速發(fā)展。(Venture Beat)

本文由人人都是產(chǎn)品經(jīng)理作者【AI新智能】,微信公眾號:【AI新智能】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
69750人已学习13篇文章
想要做款好产品,这些规范你得知道。
专题
69433人已学习26篇文章
学会数据化运营能够提升效率,让你的工作事半功倍。
专题
12269人已学习12篇文章
在各大产品中,都离不开会员体系的建立,那么会员权益模块产品该如何设计?本专题的文章分享了会员权益设计的思考
专题
13298人已学习12篇文章
随着互联网的不断发展,如今获客渠道及方式也有很多。本专题的文章分享了获客渠道及方法。
专题
16641人已学习12篇文章
本专题的文章分享了物联网产品的设计思路。
专题
12506人已学习13篇文章
AI技术的出现给各行各业都带来了重塑的机会,那么,当AI与社交赛道碰撞时,会讲述出怎样的故事?各家产品的表现如何?