從思考,到行動(dòng):由Manus爆火談AI Agent
與傳統(tǒng)生成式AI不同,AI Agent實(shí)現(xiàn)了從“思考”到“行動(dòng)”的跨越,能夠像人類一樣感知環(huán)境、規(guī)劃任務(wù)并自主完成操作。本文將深入探討AI Agent的起源、發(fā)展、技術(shù)突破以及其在商業(yè)和消費(fèi)領(lǐng)域的應(yīng)用前景,同時(shí)分析其面臨的挑戰(zhàn)和未來(lái)趨勢(shì),揭示這一新興技術(shù)如何重塑人工智能的未來(lái)。
2025年3月,一款名為Manus的AI產(chǎn)品在社交媒體上引發(fā)熱議。它的內(nèi)測(cè)邀請(qǐng)碼一碼難求,甚至被炒至數(shù)萬(wàn)元,同時(shí)帶動(dòng)了150多只AI智能體概念股漲停。
Manus的走紅,不僅因?yàn)樗贕AIA基準(zhǔn)測(cè)試中超越了OpenAI的Operator模型,達(dá)到當(dāng)前技術(shù)最佳水準(zhǔn)(SOTA),更因?yàn)樗砹艘环N全新的AI形態(tài)——AI Agent(人工智能智能體)。
與我們熟悉的ChatGPT等生成式AI不同,AI Agent實(shí)現(xiàn)了從“思考”到“行動(dòng)”的跨越。ChatGPT更像超級(jí)大腦,擅長(zhǎng)回答問(wèn)題、生成內(nèi)容,但僅停留在思考層面。而AI Agent則更進(jìn)一步,不僅能思考,還能像人類一樣行動(dòng)。它可以通過(guò)感知環(huán)境、規(guī)劃任務(wù)、調(diào)用工具,自主完成從理解問(wèn)題到解決問(wèn)題的全過(guò)程。
當(dāng)AI走向AI Agent,人工智能也從單純的思考者進(jìn)化為能夠自主決策的行動(dòng)者。
一、從思考的巨人,到行動(dòng)的巨人
AI Agent并非橫空出世的概念,其思想根源可追溯至古希臘哲學(xué)家對(duì)“自動(dòng)機(jī)”的想象,以及中國(guó)古代《道德經(jīng)》中“道”作為自主演化實(shí)體的隱喻。
20世紀(jì)50年代,圖靈提出“圖靈測(cè)試”,將“高度智能有機(jī)體”的概念引入人工智能領(lǐng)域,奠定了AI Agent的理論基礎(chǔ)。
20世紀(jì)60年代,馬文·明斯基在其研究中首次提出“Agent”一詞,將其定義為一種自主運(yùn)行的計(jì)算或認(rèn)知實(shí)體,具備感知環(huán)境、推理決策和執(zhí)行任務(wù)的能力。
此后,AI Agent的演進(jìn)歷經(jīng)了數(shù)十年的迭代:從基于規(guī)則的專家系統(tǒng)(如IBM深藍(lán)),到依賴機(jī)器學(xué)習(xí)的反應(yīng)式代理(如Roomba掃地機(jī)器人),再到基于深度學(xué)習(xí)的復(fù)雜決策體(如AlphaGo)。
最初,AI主要依賴于符號(hào)主義(Symbolic AI),通過(guò)預(yù)定義的規(guī)則和邏輯推理來(lái)解決問(wèn)題。這種方法在解決簡(jiǎn)單、結(jié)構(gòu)化的問(wèn)題時(shí)表現(xiàn)出色,但面對(duì)復(fù)雜、動(dòng)態(tài)的環(huán)境時(shí)顯得力不從心。隨后,反應(yīng)式AI(Reactive AI)應(yīng)運(yùn)而生。它能夠根據(jù)環(huán)境的即時(shí)反饋?zhàn)龀隹焖俜磻?yīng),但缺乏長(zhǎng)期規(guī)劃和記憶能力。例如,早期的自動(dòng)駕駛系統(tǒng)能根據(jù)路況實(shí)時(shí)調(diào)整車輛的行駛方向,但無(wú)法進(jìn)行復(fù)雜的路徑規(guī)劃。
直到強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)的出現(xiàn),AI Agent才真正迎來(lái)了突破。強(qiáng)化學(xué)習(xí)通過(guò)獎(jiǎng)勵(lì)機(jī)制,讓智能體在與環(huán)境的交互中學(xué)習(xí)最優(yōu)策略。這種方法使得AI Agent能夠動(dòng)態(tài)地拆解任務(wù)、選擇工具,并根據(jù)反饋調(diào)整行動(dòng)策略。
2022年,大語(yǔ)言模型的興起賦予了AI Agent理解能力,猶如為它們裝上了人類的大腦。大模型不僅使AI Agent具備了強(qiáng)大的語(yǔ)言理解和邏輯推理能力,讓其與人類的交互更加自然,還強(qiáng)化了它們的記憶模塊。這讓AI Agent能夠依據(jù)歷史交互數(shù)據(jù)優(yōu)化決策邏輯,進(jìn)而提供更個(gè)性化的服務(wù)。
簡(jiǎn)言之,Agent=大模型(LLM)+記憶模塊+規(guī)劃引擎+工具庫(kù)。其最大的特征是“自主性”,不僅能回答問(wèn)題,還能像人類一樣拆解任務(wù)、選擇工具并完成全流程操作。
例如,當(dāng)用戶提出“規(guī)劃一次日本深度游”時(shí),AI Agent不再只是推薦景點(diǎn),而是自動(dòng)調(diào)用機(jī)票比價(jià)API、分析簽證政策、預(yù)訂酒店,并生成完整的行程文檔。
這種“端到端”的執(zhí)行閉環(huán),讓AI從“思考的巨人”轉(zhuǎn)變?yōu)椤靶袆?dòng)的巨人”。
二、瘋狂押注,巨頭為何為AI Agent著迷
AI Agent的爆發(fā)絕非偶然。To B與To C市場(chǎng)的雙重需求,驅(qū)動(dòng)著科技巨頭爭(zhēng)相布局。
在To B領(lǐng)域,AI Agent作為24h全天候待命的“數(shù)字員工”,為企業(yè)降本增效提供新解法。例如Salesforce的Agentforce通過(guò)智能化和自動(dòng)化提升了銷售、客服和營(yíng)銷效率,三季度AI相關(guān)訂單量同比增長(zhǎng)兩倍多。BuffGPT平臺(tái),通過(guò)多智能體協(xié)作與動(dòng)態(tài)任務(wù)調(diào)度,支持100+智能體協(xié)同操作,跨系統(tǒng)API調(diào)用成功率高達(dá)99.2%,解決了企業(yè)數(shù)據(jù)孤島的痛點(diǎn)。
如果說(shuō)企業(yè)市場(chǎng)拼的是“效率”,那么消費(fèi)者市場(chǎng)則在重塑“體驗(yàn)”。榮耀MagicOS的“YOYO智能體”可通過(guò)一句話指令完成外賣點(diǎn)單、打車預(yù)約;Manus則能根據(jù)用戶職業(yè)背景,自動(dòng)篩選并優(yōu)化簡(jiǎn)歷,甚至模擬面試對(duì)話。值得注意的是,AI Agent的角色正從冰冷的工具成為具備“共情能力”的伙伴。例如,心理健康管理應(yīng)用Wysa通過(guò)AI Agent技術(shù),能夠?qū)崟r(shí)分析用戶的文字對(duì)話內(nèi)容與語(yǔ)音語(yǔ)調(diào),識(shí)別焦慮或抑郁情緒,準(zhǔn)確率達(dá)89%,已幫助超500萬(wàn)用戶改善心理狀態(tài)。
面對(duì)潛在的市場(chǎng)需求,巨頭的戰(zhàn)略布局圍繞三個(gè)維度展開(kāi):平臺(tái)化、垂直化與硬件融合。
平臺(tái)化旨在構(gòu)建開(kāi)放的生態(tài)系統(tǒng),吸引開(kāi)發(fā)者與企業(yè)入駐,形成技術(shù)壁壘與商業(yè)閉環(huán)。微軟將Copilot Studio升級(jí)為Agent開(kāi)發(fā)平臺(tái),提供1800個(gè)模型,吸引超10萬(wàn)家企業(yè)的入駐。百度智能云千帆AppBuilder 打造“企業(yè)級(jí)”AI Agent開(kāi)發(fā)平臺(tái),支持從數(shù)據(jù)管理、模型訓(xùn)練到預(yù)測(cè)服務(wù)部署的全流程服務(wù)。北京市市場(chǎng)監(jiān)管局便通過(guò)千帆平臺(tái)接入DeepSeek大模型,實(shí)現(xiàn)7*24小時(shí)的數(shù)字公務(wù)員在線咨詢服務(wù)。
垂直化聚焦于特定行業(yè)或場(chǎng)景,提供深度定制的解決方案。YC合伙人Jared認(rèn)為,垂直領(lǐng)域AI Agent的市場(chǎng)規(guī)模將非常大,可能誕生市值超過(guò)3000億美元的公司。例如,OpenAI推出月費(fèi)2萬(wàn)美元的博士級(jí)Operator服務(wù),瞄準(zhǔn)法律、金融等高端專業(yè)市場(chǎng),提供定制服務(wù)。
硬件融合結(jié)合終端設(shè)備與AI技術(shù),鎖定用戶入口并提升交互體驗(yàn),構(gòu)建“端側(cè)Agent”的護(hù)城河。Meta的Ray-Ban智能眼鏡則集成多模態(tài)Agent,可實(shí)時(shí)翻譯菜單文字,支持免提照片和視頻拍攝、語(yǔ)音助手控制音樂(lè)播放以及 AI 智能提醒。
巨頭們的每一步落子,都在試圖定義未來(lái)規(guī)則:平臺(tái)化構(gòu)建生態(tài)壁壘,垂直化收割高價(jià)值場(chǎng)景,硬件融合鎖定用戶入口。這場(chǎng)競(jìng)爭(zhēng)沒(méi)有終點(diǎn),只有持續(xù)的創(chuàng)新與進(jìn)化,即AI agent的智能化覺(jué)醒之路。
三、從“+AI”到“AI原生”:Agent的覺(jué)醒之路
AI Agent的崛起標(biāo)志著技術(shù)從“+AI”工具化向AI原生助理的轉(zhuǎn)變。
過(guò)去的AI更多是作為附加功能嵌入現(xiàn)有流程(即“+AI”),而未來(lái)的AI Agent將圍繞任務(wù)場(chǎng)景重新設(shè)計(jì)交互邏輯,成為流程的核心(即“AI原生”)。在醫(yī)療領(lǐng)域,傳統(tǒng)AI可能輔助醫(yī)生分析影像數(shù)據(jù),而AI原生應(yīng)用則能自主完成從患者問(wèn)診、檢查推薦到治療方案生成的完整鏈路。
多模態(tài)能力的深度融合,是另一關(guān)鍵趨勢(shì)。未來(lái)的AI Agent將像人類一樣,通過(guò)視覺(jué)、語(yǔ)言、聽(tīng)覺(jué)等多維度感知環(huán)境。結(jié)合視覺(jué)模型的谷歌RT-1能夠在復(fù)雜廚房場(chǎng)景中識(shí)別食材、操作廚具,執(zhí)行700多項(xiàng)常見(jiàn)任務(wù),準(zhǔn)確率高達(dá)97%。結(jié)合了視覺(jué)語(yǔ)言模型的AI Agent從“單一任務(wù)執(zhí)行者”進(jìn)化為“多場(chǎng)景適應(yīng)者”,真正具備了“觀察環(huán)境”的能力。
行業(yè)智能體的專業(yè)化發(fā)展同樣不容忽視。金融領(lǐng)域,AI Agent可通過(guò)實(shí)時(shí)分析市場(chǎng)數(shù)據(jù),自主執(zhí)行高頻交易;在教育領(lǐng)域,它能夠根據(jù)學(xué)生知識(shí)盲點(diǎn),動(dòng)態(tài)生成個(gè)性化習(xí)題庫(kù)。這種垂直化深耕,精準(zhǔn)匹配到細(xì)分群體的需求,具有更廣闊的市場(chǎng)潛力。
當(dāng)然,盡管前景廣闊,AI Agent仍面臨多重挑戰(zhàn)。
一是技術(shù)壁壘,現(xiàn)在的AI agent都是以LLM-based agent為主要實(shí)現(xiàn)路徑,底層大模型固有的幻覺(jué)等問(wèn)題,可能會(huì)在多任務(wù)處理過(guò)程中進(jìn)一步放大。同時(shí),其推理時(shí)長(zhǎng)和任務(wù)復(fù)雜度對(duì)算力需求提出了更高要求,需要云服務(wù)、服務(wù)器及國(guó)產(chǎn)算力產(chǎn)業(yè)鏈的進(jìn)一步升級(jí)。
其次,倫理問(wèn)題也值得警醒。AI Agent的爆發(fā),本質(zhì)上是技術(shù)、需求與資本共振的結(jié)果。它在提升企業(yè)運(yùn)行效率的同時(shí),也深度嵌入了生活場(chǎng)景,引發(fā)出一系列潛在的隱憂。比如,自動(dòng)駕駛汽車在緊急情況下如何做出道德決策,是優(yōu)先保護(hù)乘客還是行人;AI心理咨詢師是否可能黑化,像《獵罪圖鑒》里的算法程序一樣誘導(dǎo)用戶自傷自殘;潛在的人類偏見(jiàn)是否會(huì)深入到未來(lái)的AI政務(wù)系統(tǒng)里,加劇現(xiàn)有的不平等與歧視。
當(dāng)AI從“回答問(wèn)題”走向“解決問(wèn)題”,從“輔助人類”進(jìn)化為“自主執(zhí)行”,一個(gè)更深層次的隱憂出水面:AI Agent的擬人化設(shè)計(jì)可能導(dǎo)致“人的機(jī)器化”。
當(dāng)機(jī)器逐漸具備類人行為和決策能力,算法與人類靈魂的邊界逐漸模糊,我們是否會(huì)在潛移默化中逐漸喪失情感與道德判斷力?
這些問(wèn)題的答案或許正等待我們?nèi)鴮懀覀兠恳粋€(gè)人的選擇,都將成為這部未來(lái)史書的開(kāi)篇之筆。
本文由人人都是產(chǎn)品經(jīng)理作者【腦極體】,微信公眾號(hào):【腦極體】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!