大佬們都在關(guān)注的AI Agent,到底是什么?用5W1H分析框架拆解AI Agent(上篇)

0 評論 5446 瀏覽 49 收藏 35 分鐘

前幾個月各大廠商還在為大模型大打價格戰(zhàn),而后開始的是AI Agent的爭奪——大家突然關(guān)心起AI的應(yīng)用場景,開始做瀏覽器插件,做APP搶奪市場。為什么會這樣?在這個系列文章里,作者嘗試高速我們答案。

大模型的橫空出世,重新點燃了市場對AI的熱情。AI Agent的概念,更是將AI的熱潮推向了新的高度。從去年開始,AI Agent就成為了炙手可熱的名詞,其熱度絲毫不亞于對大模型的討論,甚至一眾大佬都紛紛為AI Agent站臺。

2023年下半年,OpenAI聯(lián)合創(chuàng)始人,前TeslaAI總監(jiān)Andrej Karpathy說道:

“如果一篇論文提出了某種不同的訓(xùn)練方法,OpenAI內(nèi)部會嗤之以鼻,認(rèn)為都是我們玩剩下的。但是當(dāng)新的AI Agents論文出來的時候,我們會十分認(rèn)真且興奮地討論。普通人、創(chuàng)業(yè)者和極客在構(gòu)建AI Agents方面相比OpenAI這樣的公司更有優(yōu)勢。”

在AI Ascent 2024大會上,斯坦福大學(xué)教授、前谷歌大腦項目創(chuàng)始人,吳恩達分享了關(guān)于AI Agent的最新趨勢與洞察

AI Agent(AI智能體)工作流將在今年推動人工智能取得巨大進步——甚至可能超過下一代基礎(chǔ)模型。這是一個重要的、令人興奮的趨勢,我呼吁所有人工智能從業(yè)者都關(guān)注它。

微軟創(chuàng)始人比爾蓋茨,也通過個人網(wǎng)站發(fā)表了對AI Agent的看法:

AI Agent將成為下一個平臺,簡而言之,AI Agent幾乎將在任何活動和生活領(lǐng)域提供幫助,對軟件行業(yè)和社會產(chǎn)生深遠(yuǎn)的影響。

與此同時,趁著這波浪潮,在短短的一年時間內(nèi),AI Agent(AI智能體)領(lǐng)域的創(chuàng)業(yè)公司和獨角獸也實現(xiàn)了爆發(fā)式的增長。早在去年3月份,AutoGPT就在GitHub上獲得了7.4萬星,并快速成為史上Star數(shù)量增長最快的開源項目,如今已經(jīng)獲得超過16萬星。后續(xù)發(fā)布的BabyAGI、AgentGPT也如雨后春筍般涌現(xiàn),調(diào)研報告、訂購披薩、發(fā)送郵件、旅行攻略,無數(shù)的Agent應(yīng)用場景紛紛開始落地。

在國內(nèi),AI Agents相關(guān)的產(chǎn)品也相繼誕生。早在去年7月,阿里云就發(fā)布了旗下第一個智能體——ModelScopeGPT,面向開發(fā)者群體。隨后百度文心智能體平臺、字節(jié)Coze、騰訊元器,各大廠商的AI智能體平臺也紛至沓來。

面對如此巨大的熱潮,相信很多讀者在心潮澎湃的同時,也會心存疑慮。AI Agent到底是什么?是真正的科技突破還是科技泡沫?對企業(yè)和個人能帶來什么影響?

接下來,風(fēng)叔將使用5W1H分析框架來詳細(xì)拆解AI Agent,一步步帶著大家了解AI Agent的全貌。由于內(nèi)容比較多,風(fēng)叔將通過三篇文章來逐步闡述全部內(nèi)容。

上篇:介紹What + Why,主要解答以下問題。

What:AI Agent是什么?有哪些組成部分?AI Agent的原理是什么?AI Agent是怎么分類的?

Why:為什么會產(chǎn)生AI Agent?AI Agent的優(yōu)勢和劣勢是什么?為什么企業(yè)和個人都要關(guān)注AI Agent?

中篇:介紹When + Where + Who,主要解答以下問題。

When:AI Agent的發(fā)展歷程是怎樣的?AI Agent未來的發(fā)展趨勢是怎樣的?

Where:AI Agent有哪些應(yīng)用場景?

Who:AI Agent領(lǐng)域的玩家有哪些?AI Agent領(lǐng)域的行業(yè)價值鏈?zhǔn)窃鯓拥模?/p>

下篇:介紹 How,主要解答以下問題。

How:如何實現(xiàn)AI Agent?AI Agent包括哪些系統(tǒng)模塊?如何開始學(xué)習(xí)AI Agent?

下面正式開始5W1H框架對AI Agent的拆解之旅!

一、5W1H分析框架之What

1.1 AI Agent到底是什么?

從概念上來說,AI Agent(智能體)是一種不需要持續(xù)人類干預(yù)的AI系統(tǒng),可以基于環(huán)境和背景信息,自主分析各種問題,做出邏輯決策,并且在沒有持續(xù)人類輸入的情況下處理多種任務(wù)。

AlphaGo就是一個典型的AI Agent,它可以在和人類對弈圍棋的過程中,根據(jù)當(dāng)前的棋局和對手的行動,自主決策下一步的動作。AI助手也是AI Agent,比如你只需要給AI助手下達一個指令,“幫我預(yù)訂明早10點上海飛深圳的機票”,AI助手就能自動幫你完成從機票搜索、查詢、下單、確認(rèn)的全部動作。

從結(jié)構(gòu)上來說,一個AI Agent包括三個部分,如下圖所示:

Perception(輸入):AI Agent通過文字輸入、傳感器、攝像頭、麥克風(fēng)等等,建立起對外部世界或環(huán)境的感知。

Brain(大腦):大腦是AI Agent最重要的部分,包括信息存儲、記憶、知識庫、規(guī)劃決策系統(tǒng)。

Action(行動):基于Brain給出的決策進行下一步行動,對于AI Agent來說,行動主要包括對外部工具的API 調(diào)用,或者對物理控制組件的信號輸出。

目前在大模型熱潮的背景下,媒體上所講的AI Agent,更嚴(yán)格意義上來說應(yīng)該叫做LLM Agent,因為整個Agent最重要的控制中樞Brain,其底層是LLM大模型。如果未來產(chǎn)生了比LLM更強大更智能的AI技術(shù)基座,那同樣也會產(chǎn)生基于新的AI基座的Agent。下文所介紹的AI Agent,如無特殊說明,都指代LLM Agent。

那么Agent和LLM大語言模型到底是什么關(guān)系呢?可以這樣進行簡單類比,如果把LLM(比如GPT)比作大腦中的一堆神經(jīng)元,具有記憶、常識和推理等能力,那么AI Agent就是獨立的人,除了擁有大腦之外,還擁有視覺、聽覺、味覺等多種感官,以及擁有手和腳操作外部的工具。

因此從本質(zhì)來講,AI Agent = 大語言模型+記憶+規(guī)劃+工具使用。

接下來,我們逐步拆解AI Agent的組成部分。

1.2 詳細(xì)拆解AI Agent的構(gòu)成

1.2.1 構(gòu)成一,規(guī)劃Planning

Planning是整個AI Agent中最核心最關(guān)鍵的部分,Agent會把大型任務(wù)分解為子任務(wù),并規(guī)劃執(zhí)行任務(wù)的流程。同時Agent還會對任務(wù)執(zhí)行的過程進行思考和反思,從而決定是繼續(xù)執(zhí)行任務(wù),還是判斷任務(wù)完結(jié)并終止運行。

整個Planning模塊包括兩個步驟:子任務(wù)分解,反思和完善。

步驟一,子任務(wù)分解

Agent 將大型任務(wù)分解為更小、更易于管理的子目標(biāo),從而高效處理復(fù)雜任務(wù)。主要的子任務(wù)分解方式包括:思維鏈COT(Chain of thought)、思維樹TOT(Tree of thought)、思維圖GOT(Graph of thought)、規(guī)劃器LLM+P。

a. 思維鏈COT

思維鏈COT的全稱是Chain of Thought,當(dāng)我們對LLM這樣要求「think step by step」,會發(fā)現(xiàn)LLM會把問題分解成多個步驟,一步一步思考和解決,能使得輸出的結(jié)果更加準(zhǔn)確。這就是思維鏈,一種線性思維方式。

b. COT-SC

一個CoT出現(xiàn)錯誤的概率比較大,我們可以讓Agent進行發(fā)散,嘗試通過多種思路來解決問題,然后投票選擇出最佳答案,這就是CoT-SC。

c. 思維樹TOT

思維樹TOT是對思維鏈CoT的進一步擴展,在思維鏈的每一步,推理出多個分支,拓?fù)湔归_成一棵思維樹。使用啟發(fā)式方法評估每個推理分支對問題解決的貢獻。選擇搜索算法,使用廣度優(yōu)先搜索(BFS)或深度優(yōu)先搜索(DFS)等算法來探索思維樹,并進行前瞻和回溯。

d. 思維圖GOT

思維樹ToT 的方式也存在一些缺陷,對于需要分解后再整合的問題,比如排序問題,排序我們可能需要分解和排序,然后再merge。這種情況下TOT就不行了,可以引入思維圖GOT來解決。

e. LLM+P

其原理是依靠外部傳統(tǒng)規(guī)劃器來進行長視野規(guī)劃,利用規(guī)劃域定義語言(PDDL)作為中間接口來描述規(guī)劃問題。在此過程中,LLM先將問題轉(zhuǎn)化為成”Problem PDDL”形式,然后請求經(jīng)典規(guī)劃器根據(jù)現(xiàn)有的 “Domain PDDL “生成 PDDL 計劃,最后將 PDDL 計劃翻譯回自然語言。

步驟二,反思和完善

反思和完善機制在Agent 應(yīng)用中發(fā)揮著重要的作用,Agent 通過完善過去的行動決策和糾正以前的錯誤來不斷改進。尤其是在現(xiàn)實世界的任務(wù)中,不可能在規(guī)劃環(huán)節(jié)就能做出萬無一失的計劃和策略,試錯是不可避免的,只有通過自我反思和逐步完善,才能一步步逼近最佳結(jié)果。

反思和完善機制的實現(xiàn),主要有以下幾種方式。

a. ReAct

ReACT的全稱是Reasoning-Action,這種模式是讓大模型先進行思考,思考完再進行行動,然后根據(jù)行動的結(jié)果再進行觀察,再進行思考,這樣一步一步循環(huán)下去。

和ReAct相對應(yīng)的是Reasoning-Only和Action-Only。在Reasoning-Only的模式下,大模型會基于任務(wù)進行逐步思考,并且不管有沒有獲得結(jié)果,都會把思考的每一步都執(zhí)行一遍。在Action-Only的模式下,大模型就會處于完全沒有規(guī)劃的狀態(tài)下,先進行行動再進行觀察,基于觀察再調(diào)整行動,導(dǎo)致最終結(jié)果不可控。

在實際的測試觀察中,ReAct模式的效果要好于Reasoning-Only和Action-Only。

b. Reflexion

Reflecxion是一個為 Agent 配備了動態(tài)記憶和自我反思能力的框架,能夠提高 Agent 的推理能力。Reflexion 具有標(biāo)準(zhǔn)的強化學(xué)習(xí)機制,其獎勵模型提供了一個簡單的二進制獎勵機制,執(zhí)行空間則遵循 ReAct 中的設(shè)置。每次行動,Agent 都會計算一個啟發(fā)式 ht,并根據(jù)自我反思的結(jié)果決定環(huán)境重置以開始新的試驗。

c.Basic Reflection

還有一種反思和完善的方式,其本質(zhì)是利用左右互搏來實現(xiàn)協(xié)同進化。比如設(shè)計一個幫助用戶完成市場調(diào)研報告的Agent系統(tǒng),其中Generator負(fù)責(zé)輸出,Reflector負(fù)責(zé)檢查,通過兩個角色之間不斷的協(xié)同,來實現(xiàn)整個任務(wù)的反思和完善。

1.2.2 構(gòu)成二,記憶Memory

記憶是Agent用于獲取、存儲、保留和隨后檢索信息的過程,我們先用人腦的記憶做個類比,人腦中有多種記憶類型:

感官記憶:這是記憶的最早階段,能夠在原始刺激結(jié)束后保留對感官信息(視覺、聽覺等)的印象,通常只能持續(xù)幾秒鐘。包括圖標(biāo)記憶、回聲記憶和觸覺記憶三種類型。

短時記憶(STM)或工作記憶:指的是我們當(dāng)前意識到的信息,或者在學(xué)習(xí)和推理等復(fù)雜認(rèn)知任務(wù)中所需要的信息。人類的短時記憶容量約為 7 items(Miller, 1956)、持續(xù)時長為 20-30 秒。

長時記憶(LTM):長時記憶指的是能夠存儲很長時間,從幾天到幾十年不等的信息,它的存儲容量基本上是無限的。長時記憶又包括顯性記憶和隱性記憶,顯性記憶是可以有意識地回憶起來的事實,比如事件經(jīng)歷和語義記憶;隱性記憶是內(nèi)化后無意識的行為,比如騎自行車。

了解了人類的記憶模式,我們再來看如何將其映射到AI Agent。

感官記憶是對原始輸入的嵌入表征的理解,包括文本、圖像或其他模式,比如圖片的紋理和風(fēng)格。短時記憶即上下文學(xué)習(xí),由于受到Transformer上下文窗口長度的限制,它是短暫的和有限的。長期記憶則可對應(yīng)為外部的向量數(shù)據(jù)存儲,Agent 可在查詢時引用,并可通過快速檢索進行訪問。

還有一個非常關(guān)鍵的因素,大模型知識的更新。由于大模型是用海量的通用數(shù)據(jù)訓(xùn)練的,基礎(chǔ)的大模型可以理解為是一個及格的通才,什么話題都知道一些,但是存在胡言亂語和幻覺現(xiàn)象。尤其是在面向企業(yè)端的場景,一個及格的通才是無法使用的,需要利用企業(yè)的專屬數(shù)據(jù)進行喂養(yǎng)和訓(xùn)練。這個時候,就可以通過RAG【檢索增強生成】技術(shù),在基礎(chǔ)大模型的基礎(chǔ)上掛載企業(yè)專屬的知識庫,以向量數(shù)據(jù)庫的方式存儲,將Agent訓(xùn)練為一個優(yōu)秀的專才。

RAG技術(shù)在AI Agent的應(yīng)用中非常關(guān)鍵,大家可以提前標(biāo)記一下這個概念。在后續(xù)文章中,風(fēng)叔還將重點介紹RAG技術(shù)的原理和使用方法。

1.2.3 構(gòu)成三,工具Tooling

為AI Agent配備工具API,比如計算器、搜索工具、代碼執(zhí)行器、數(shù)據(jù)庫查詢等工具,AI Agent就可以和物理世界交互,來解決更加實際的問題。

Agent使用工具的方式主要有以下幾種:

a. TALM & ToolFormer

TALM和ToolFormer都是對 LLM 進行微調(diào),以學(xué)習(xí)使用外部工具API。該數(shù)據(jù)集根據(jù)新增的 API 調(diào)用注釋是否能夠提高模型輸出的質(zhì)量而進行擴展。

b.HuggingGPT

HuggingGPT =ChatGPT+HuggingFace,HuggingFace是大模型領(lǐng)域的Github,來自全球的開發(fā)人員、企業(yè)和機構(gòu)在huggingFace社區(qū)進行模型的上傳、分享和部署。

從本質(zhì)上來說,HuggingGPT是一個使用ChatGPT作為任務(wù)規(guī)劃器的框架,ChatGPT 可根據(jù)模型的描述選擇 HuggingFace 平臺中可用的模型,并根據(jù)執(zhí)行結(jié)果總結(jié)響應(yīng)結(jié)果。

c. API-Bank

它包含 53 種常用的 API 工具、完整的工具增強的 LLM 工作流程。API 的選擇相當(dāng)多樣化,包括搜索引擎、計算器、日歷查詢、智能家居控制、日程管理、健康數(shù)據(jù)管理、賬戶認(rèn)證工作流程等。由于 API 數(shù)量眾多,LLM 首先可以訪問 API 搜索引擎,找到要調(diào)用的 API,然后使用相應(yīng)的文檔進行調(diào)用

d. Function Calling

是一種實現(xiàn)大型語言模型連接外部工具的機制。通過API調(diào)用LLM時,調(diào)用方可以描述函數(shù),包括函數(shù)的功能描述、請求參數(shù)說明、響應(yīng)參數(shù)說明,讓LLM根據(jù)用戶的輸入,合適地選擇調(diào)用哪個函數(shù),同時理解用戶的自然語言,并轉(zhuǎn)換為調(diào)用函數(shù)的請求參數(shù)。

前面的內(nèi)容中,風(fēng)叔拋出了非常多較為晦澀的概念和專業(yè)名詞,大家先初步了解一下這些概念,風(fēng)叔會在后續(xù)文章中對這些概念和原理進行詳細(xì)介紹。

規(guī)劃Planning、記憶Memory和工具Tooling,就是AI Agent系統(tǒng)最核心的三個模塊。接下來,我們再來看看AI Agent的分類。

1.3 AI Agent的分類

從去年開始,各類AI Agent層出不窮。面對形形色色的AI Agent,合理的分類有助于我們進一步了解AI Agent的原理和模式。

我們可以從三個角度來給AI Agent進行分類,分別是工作模式、決策方式和應(yīng)用場景。在本篇文章中,風(fēng)叔先介紹前兩種分類方式,在下一篇文章介紹”Where”的時候,再詳細(xì)介紹AI Agent的應(yīng)用場景。

1.3.1 按工作模式分類

從工作模式來看,AI智能體可以分為單Agent、多Agent和混合Agent。

單Agent:即通過單一的Agent來解決問題,不需要與其他Agent進行交互。單Agent可以根據(jù)任務(wù)執(zhí)行不同的操作,如需求分析、項目讀取、代碼生成等。比如專門用于進行市場分析調(diào)研的Agent就是單Agent系統(tǒng),只能處理市場分析這個單一任務(wù)。

多Agent:這種模式側(cè)重于多個Agent之間的互動和信息共享,多個Agent協(xié)同工作,相互交流信息,共同完成更復(fù)雜的任務(wù)或目標(biāo)。多agent應(yīng)用場景在軟件行業(yè)開發(fā)、智能生產(chǎn)、企業(yè)管理等高度協(xié)同的工作中非常有幫助。比如有一家公司就創(chuàng)建了一個多Agent系統(tǒng),由Agent來扮演產(chǎn)品經(jīng)理、UI設(shè)計師、研發(fā)工程師、測試人員、項目經(jīng)理等角色,甚至可以接一些實際的軟件開發(fā)任務(wù)。

混合Agent:這種模式中,Agent系統(tǒng)和人類共同參與決策過程,交互合作完成任務(wù),強調(diào)的是人機協(xié)作的重要性和互補性。智慧醫(yī)療、智慧城市等專業(yè)領(lǐng)域可以使用混合Agent來完成復(fù)雜的專業(yè)工作。比如醫(yī)生和AI Agent可以共同進行病情診斷,AI Agent負(fù)責(zé)快速分析病人的醫(yī)療記錄、影像資料等,提供初步的診斷建議;而醫(yī)生則可以基于AI Agent的分析結(jié)果和自己的專業(yè)知識和經(jīng)驗,做出最終的診斷決定。

1.3.2 按決策制定方式分類

簡單反射型Agent:基于“如果-那么”規(guī)則直接響應(yīng)當(dāng)前的環(huán)境狀態(tài),不存儲任何歷史數(shù)據(jù)或狀態(tài)。這種Agent設(shè)計簡單,反應(yīng)迅速,但適用范圍有限。比如當(dāng)軟件系統(tǒng)發(fā)生告警時,就自動向系統(tǒng)維護人員打電話,就是一個簡單反射型Agent。

基于模型的反射型Agent:擁有環(huán)境的內(nèi)部模型,能夠基于對環(huán)境的理解和過去的經(jīng)驗做出更復(fù)雜的決策。它能夠適應(yīng)環(huán)境變化,處理更復(fù)雜的任務(wù)。比如Nest的智能溫控器,不僅能根據(jù)當(dāng)前溫度調(diào)節(jié)室內(nèi)氣溫,還能學(xué)習(xí)用戶的偏好,就是一個基于模型的反射型Agent。

基于目標(biāo)的Agent:這類Agent的決策方式,從根本上不同于前面描述的條件-動作規(guī)則,因為它涉及對未來的考慮。比如智能導(dǎo)航軟件,根據(jù)用戶的起點和目標(biāo),結(jié)合交通擁堵狀況和用戶的偏好,輸出最佳導(dǎo)航路線。

基于效用的Agent:基于效用的Agent旨在最大化效用功能或價值,精心挑選具有最高預(yù)期效用的行動,以衡量結(jié)果的有利程度。比如同樣是導(dǎo)航到達目標(biāo),有的用戶需要用時最短,有的用戶需要路費最少,那么基于不同的效用,系統(tǒng)就會給出不同的導(dǎo)航結(jié)果。

學(xué)習(xí)型Agent:這些Agent設(shè)計用于在未知環(huán)境中運行,從自己的經(jīng)歷中學(xué)習(xí),并隨著時間的推移調(diào)整自己的行動。比如AlphaGo就是學(xué)習(xí)型Agent,從不斷的對弈中進行策略調(diào)整。

基于邏輯的Agent:通常基于一系列邏輯規(guī)則,通過推理來解決問題,適合需要高度邏輯判斷的場景,例如法律咨詢聊天機器人。

LLM大模型和這些Agent的關(guān)系就在于,LLM大模型為Agent的后續(xù)行動提供了輸入和推理。比如LLM大模型上面接了一個基于目標(biāo)的Agent,那么這個Agent就會從用戶的輸入中,提取用戶的目標(biāo)和要求,再結(jié)合上文提到的子任務(wù)分解、反思和完善等動作,逐步完成最終目標(biāo)。

二、5W1H分析框架之Why

2.1 為什么會產(chǎn)生AI Agent?

為什么會產(chǎn)生AI Agent(特指LLM Agent)?我們從兩個方面來回答這個問題,技術(shù)發(fā)展的局限性,以及人和AI的交互性。

從技術(shù)發(fā)展的局限性來考慮

在LLM大語言模型出現(xiàn)以前,一般通過規(guī)則和強化學(xué)習(xí)的方法來讓機器智能化的完成一些任務(wù),但是這兩種方法各有弊端。

規(guī)則的方法是指把復(fù)雜的自然語言問題轉(zhuǎn)化為規(guī)則符號,往往需要行業(yè)專家的介入,缺乏容錯能力,一個小的錯誤就可能導(dǎo)致整個系統(tǒng)的失敗。

而強化學(xué)習(xí)一般是構(gòu)建策略網(wǎng)絡(luò)或獎勵模型,需要大量樣本進行訓(xùn)練,但是收集數(shù)據(jù)往往成本很高,所以這種方法可行性不大,很難推廣開來。

LLM大語言模型出現(xiàn)之后,人們發(fā)現(xiàn)LLM大語言模型在邏輯推理、工具應(yīng)用、策略規(guī)劃、指令遵循等方面都有非常不錯的表現(xiàn),工程師們開始意識到,將大語言模型作為Agent應(yīng)用的核心認(rèn)知系統(tǒng),可以極大的提高Agent的規(guī)劃能力。

但是LLM大模型畢竟還無法像人類一樣,擁有更深度的規(guī)劃思考能力、運用各種工具與物理世界互動,以及擁有人類的長期記憶能力。

在這樣的背景下,出現(xiàn)了非常多的研究方向,來讓Agent逐漸逼近人類,比如前文提到的COT/TOT/GOT、ReAct、Reflexion等技術(shù),提升Agent的Planning能力;比如通過RAG增強檢索生成技術(shù),提升Agent的記憶能力;以及ToolFormer、Function Calling等技術(shù),提升Agent的工具使用能力。

從人和AI互動的角度來考慮

從人和AI互動的角度,主要經(jīng)歷了三種模式。

最早出現(xiàn)的是Embedding模式,即人類完成大多數(shù)工作,AI只是作為某些單點能力,嵌入在人類完成工作的某些節(jié)點。比如很典型的SaaS+AI模式,像OCR、人臉識別、語義分析等能力,作為一些提升效率的點,嵌入在SaaS軟件里。大多數(shù)的工作,還是通過人工操作SaaS軟件完成的。

隨著大模型的出現(xiàn),在部分場景下,人類和AI的協(xié)同進化到了Copilot模式,即AI作為人類的堅實助手,隨時輔助人類的工作。比如Notion AI和微軟Copilot,人類在AI的幫助下進行寫作,AI隨時可以進行內(nèi)容提示、擴充、修改。

而AI Agent模式,則是將人類與AI的協(xié)同進化到了新的高度,人類只是提出任務(wù)和目標(biāo),然后由AI自主完成大多數(shù)工作。所以從人和AI互動的角度來看,AI Agent也是AGI發(fā)展過程中的必經(jīng)之路。

2.2 AI Agent有哪些優(yōu)勢和局限?

對于用戶來講,AI Agent的主要優(yōu)勢包括:

第一,以任務(wù)為導(dǎo)向。AI Agent脫離了傳統(tǒng)Chatbot那種閑聊的交互模式,能夠彌合語言理解與采取行動之間的鴻溝。直接基于用戶輸入中所體現(xiàn)出來的意圖,自動進行后續(xù)的推理和行動,可以大幅提升工作效率。

第二,自然的交互方式。由于AI Agent本身以LLM大語言模型為底座,固有的語言理解和語言生成能力,確保了自然無縫的用戶交互。

第三,進化的決策能力。AI Agent的決策能力依賴于背后的LLM大模型,雖然目前LLM大模型的決策能力還遠(yuǎn)遠(yuǎn)不如人類,但這項能力在持續(xù)不斷的進化。

第四,靈活的適應(yīng)性。在RAG和Function Calling等技術(shù)的支撐下,AI Agent可以快速適應(yīng)各種不同的行業(yè)和應(yīng)用場景,并通過API調(diào)用和外部環(huán)境產(chǎn)生交互。

但是由于LLM大模型本身固有的局限,這種局限也同樣影響了AI Agent。

第一,可靠性不足。眾所周知,LLM大模型容易出現(xiàn)幻覺和不一致性,將多個步驟連起來會進一步加劇可靠性問題,從而難以獲得用戶信任。舉個例子,假設(shè)每個步驟LLM的可靠性是95%,如果一個任務(wù)需要被分解到5步以上,那么最終的可靠性將不到80%,這會大大限制AI Agent在一些Critical場景下的應(yīng)用。

第二,法律問題。對于企業(yè)對外輸出的AI Agent,企業(yè)可能要對其產(chǎn)生的錯誤負(fù)責(zé)。比如,最近一位客戶因為被加拿大航空公司的聊天機器人誤導(dǎo)而延誤航班,最終由加拿大航空予以賠償。

第三,性能和成本。GPT-4、Gemini-1.5在推理和function calling的表現(xiàn)不錯,但仍然較慢且成本高,特別是需要進行循環(huán)調(diào)用和自動重試時。

對于AI Agent可靠性的問題,其中一個解決方案是Agentic Workflow,即借助人工經(jīng)驗進行任務(wù)分解、配置執(zhí)行任務(wù)。AI Agent在整個workflow中,更多起到意圖識別、檢索、歸納、分類的作用。

比如通過workflow創(chuàng)建一個輸出財務(wù)分析報表的AI Agent,由人類告訴AI Agent,當(dāng)接收到分析某家公司的財務(wù)報表時,先去某財務(wù)網(wǎng)站搜索該公司的財務(wù)報表,然后下載報表數(shù)據(jù)進行本地化存儲,再提取特定字段的數(shù)據(jù)進行計算和同比,最后再以自然語言的方式輸出財務(wù)分析報告。

對于Agentic Workflow,后面風(fēng)叔將專門用一篇文章進行介紹。

2.3 企業(yè)和個人為什么要關(guān)注AI Agent?

企業(yè)用戶通常面臨更加復(fù)雜的業(yè)務(wù)需求,有更明確的業(yè)務(wù)場景、業(yè)務(wù)邏輯以及更多行業(yè)數(shù)據(jù)和行業(yè)知識的積累,非常適配 Agent 自主性、決策與執(zhí)行、工具使用等特點,這讓企業(yè)端領(lǐng)域成為 Agent 施展能力的絕佳舞臺。

同時,AI Agent可以用工程化的思想對抗個體工作的不確定性,過往的SOP、PDCA、OKR等管理方法可以與AI Agent進行適配,完成管理工作的科學(xué)升級。

因此,企業(yè)需要關(guān)注AI Agent,結(jié)合企業(yè)所在的行業(yè)特點以及自身的業(yè)務(wù)屬性,通過AI Agent提升業(yè)務(wù)效率。在企業(yè)的供應(yīng)鏈、產(chǎn)品研發(fā)、市場營銷、內(nèi)部辦公等環(huán)節(jié),AI Agent都有非常多的應(yīng)用場景。

比如在供應(yīng)鏈環(huán)節(jié),AI Agent可以應(yīng)用在智能配補貨、原料自動下單、庫存優(yōu)化、供應(yīng)商協(xié)同、合同自動審查等場景。在產(chǎn)品研發(fā)環(huán)節(jié),AI Agent可以應(yīng)用在產(chǎn)品成分分析、新品研發(fā)建議、產(chǎn)品設(shè)計出圖等場景。在市場營銷環(huán)節(jié),AI Agent可以用于智能客服、精準(zhǔn)推薦、營銷創(chuàng)意制作、廣告智能投放等場景。

我們再來看AI Agent對于個人的影響。雖然到目前為止,面向C端用戶,市場上還沒有出現(xiàn)killer級的C端應(yīng)用,包括 OpenAI 的 GPTs,其實只是用于特定知識庫或數(shù)據(jù)的 Chatbot。但是從AI的長期發(fā)展趨勢來看,AI Agent一定會在越來越多的場景進行滲透。

同時,個人作為企業(yè)端的工作者,AIAgent對個人在工作效率上帶來的提升,也是顯而易見的。利用AI Agent武裝自己,讓工作和學(xué)習(xí)效率更上一級臺階。

對于個人來講,未來可能只有兩種人,驅(qū)動Agent的人,和被Agent驅(qū)動的人。

總結(jié)

本篇文章是使用5W1H分析框架拆解AI Agent的上篇,圍繞What和Why,詳細(xì)闡述了AI Agent的概念、構(gòu)成、分類、產(chǎn)生原因、優(yōu)勢劣勢、以及對企業(yè)和個人的影響。

在下一篇文章中,風(fēng)叔將圍繞When、Who和Where,詳細(xì)介紹AI Agent的發(fā)展歷程、行業(yè)玩家和具體應(yīng)用場景。

作者:風(fēng)叔,微信公眾號:風(fēng)叔云

本文由@風(fēng)叔 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!