AI正式進(jìn)入推理時代,意味著什么?
本文介紹了AI從預(yù)訓(xùn)練向推理能力轉(zhuǎn)變的趨勢,探討了這一變化對AI市場、軟件公司和投資領(lǐng)域的影響,并展望了AI代理應(yīng)用的未來發(fā)展?jié)摿Α?/p>
今年9月,OpenAI發(fā)了一個新模型——OpenAI o1模型。
這意味著,AI的發(fā)展方向發(fā)生了重大變化,即從預(yù)訓(xùn)練所帶來的“快速思考”,向基于強(qiáng)化學(xué)習(xí)的“慢速思考”發(fā)展。這一演變將解鎖更多新的AI代理應(yīng)用。
如何理解這個變化,成為所有AI行業(yè)從業(yè)者共同關(guān)心的話題。不久前,紅杉資本發(fā)布了一篇文章,詳細(xì)闡述了對AI轉(zhuǎn)向推理層開發(fā)的看法以及未來趨勢展望。
在這篇文章中,紅杉資本分享了其對以下問題的思考:
模型強(qiáng)化推理能力,對AI市場的創(chuàng)始人意味著什么?對現(xiàn)有的軟件公司有多大的影響?作為投資者,AI行業(yè)的哪些領(lǐng)域是最值得投資的?
01?讓AI真正學(xué)會推理
2024年最重要的模型更新屬于OpenAI的o1,以前稱為Q*,也稱為Strawberry。這是第一個具備真正通用推理能力的大模型,而實現(xiàn)這一點靠的是推理時間計算。(推理時間計算是指在人工智能和機(jī)器學(xué)習(xí)中,通過增加額外的計算時間來優(yōu)化模型在解決特定問題時的表現(xiàn)。)
以前,預(yù)訓(xùn)練模型是通過對大量數(shù)據(jù)的學(xué)習(xí),進(jìn)而實現(xiàn)后續(xù)內(nèi)容的預(yù)測。這背后依賴于大量的模型訓(xùn)練時間,但這種推理能力很有限。
現(xiàn)在,通過推理時間計算,模型會在給你答復(fù)之前停下來思考,這需要在推理時進(jìn)行更多的計算?!巴O聛硭伎肌钡牟糠志褪峭评?。?
02?AlphaGo和大模型
當(dāng)模型停下思考時,它在做什么呢?
要回答這個問題,我們先來回顧一下2016年3月在首爾舉行的活動。
AlphaGo與傳奇圍棋大師李世石下棋,是深度學(xué)習(xí)歷史上最具開創(chuàng)性的時刻之一。這不僅僅是一場人AI與人類的比賽——這讓世界看到AI不僅會模仿,還會思考。
與大模型一樣,AlphaGo也經(jīng)過了大量的預(yù)訓(xùn)練,可以模仿人類專家,其數(shù)據(jù)庫包含來自之前游戲的大約3000萬步以及更多的自我對弈。但AlphaGo不會提供來自預(yù)訓(xùn)練模型的下意識反應(yīng),而是會花時間停下來思考。
在推理時,模型會在各種潛在的未來情景中運(yùn)行搜索或模擬,對這些情景進(jìn)行評分,然后以具有最高預(yù)期值的情景(或答案)進(jìn)行響應(yīng)。AlphaGo的時間越長,其表現(xiàn)就越好。在零推理時間計算的情況下,模型無法擊敗最優(yōu)秀的人類玩家。
但隨著推理時間的延長,AlphaGo會越來越好,直到超越最優(yōu)秀的人類玩家?;氐酱竽P停瑥?fù)制AlphaGo的難點在于,構(gòu)建價值函數(shù)或者說對答案進(jìn)行評分的函數(shù)。
如果你是在下圍棋,這事就更簡單了,看誰贏就行了。(編程也同理)但是你應(yīng)該怎么給一篇文章打分呢?這就是當(dāng)前方法很難進(jìn)行推理的原因。這也是為什么Strawberry在接近邏輯的領(lǐng)域(例如編碼、數(shù)學(xué)、科學(xué))相對較強(qiáng),而在更開放和非結(jié)構(gòu)化的領(lǐng)域(例如寫作)不那么強(qiáng)大的原因。
?Strawberry的關(guān)鍵思想是,圍繞模型生成的思維鏈進(jìn)行強(qiáng)化學(xué)習(xí)。這很接近于人類的思考和推理方式。例如,o1展示了在卡住時回溯的能力,這是擴(kuò)展推理時間的突發(fā)屬性。它還展示了以人類的方式思考問題的能力(例如,將球體上的點可視化以解決幾何問題)和以新的方式思考問題的能力(例如,以人類不會的方式解決編程競賽中的問題)。
研究團(tuán)隊正在努力提高模型的推理能力,他們正在研究許多新想法來推動推理時間計算(例如計算獎勵函數(shù)的新方法、縮小生成器/驗證器差距的新方法)。換句話說,深度強(qiáng)化學(xué)習(xí)又流行起來了,它正在實現(xiàn)一個全新的推理層。
03?系統(tǒng)1與系統(tǒng)2有何不同?
從預(yù)訓(xùn)練的本能反應(yīng)(“系統(tǒng)1”)到更深層次、深思熟慮的推理(“系統(tǒng)2”)的飛躍是人工智能的下一個前沿。模型僅僅了解事物是不夠的——它們還需要具備實時暫停、評估和推理決策的能力。
我們將預(yù)訓(xùn)練看作系統(tǒng)1。無論模型是針對圍棋的數(shù)百萬步(AlphaGo)還是大模型進(jìn)行預(yù)訓(xùn)練,其工作原理都是模仿。但模仿雖然很強(qiáng)大,但并不是真正的推理。因為它無法正確思考復(fù)雜的新情況,尤其是樣本之外的情況。這恰恰就是系統(tǒng)2的優(yōu)勢所在,也是最新一波AI研究的重點。
對于許多任務(wù)來說,系統(tǒng)1已經(jīng)足夠了。比如,不丹的首都在哪,想是想不出來的,要么知道,要么不知道??焖?、基于模式的回憶,在類似的任務(wù)上就很管用。
但當(dāng)我們研究更復(fù)雜的問題時——比如數(shù)學(xué)或生物學(xué)上的突破——快速、本能的反應(yīng)并不奏效。這些進(jìn)步需要AI花更多時間進(jìn)行更深入的思考,并具備創(chuàng)造性解決問題的能力。
04?新的擴(kuò)展定律:推理競賽已拉開帷幕
o1論文中最重要的一個觀點是,誕生了一條新的擴(kuò)展定律。
預(yù)訓(xùn)練LLM遵循一個易于理解的擴(kuò)展定律:在預(yù)訓(xùn)練模型上花費的計算和數(shù)據(jù)越多,模型性能就越好。o1論文則為擴(kuò)展計算帶來了另一種可能:即給模型推理時間的越長,其推理效果就越好。
如果模型能夠思考數(shù)小時、數(shù)天或數(shù)十年,會發(fā)生什么?我們會解決黎曼猜想嗎?我們會回答阿西莫夫的最后一個問題嗎?
這種轉(zhuǎn)變將使我們從大規(guī)模預(yù)訓(xùn)練集群的世界走向推理云——可以根據(jù)任務(wù)的復(fù)雜性動態(tài)擴(kuò)展計算的環(huán)境。
05?被證偽的兩個預(yù)測
當(dāng)OpenAI、Anthropic、Google和Meta擴(kuò)展其推理層,并開發(fā)出越來越強(qiáng)大的推理機(jī)器時會發(fā)生什么?我們會有一個模型來統(tǒng)治它們嗎?
生成式AI市場剛起步時,人們曾假設(shè),一家單一的模型公司將變得無所不能,甚至還會吃掉AI應(yīng)用產(chǎn)品的機(jī)會。但現(xiàn)在,這兩個預(yù)測都是錯誤的。
首先,模型層競爭激烈,SOTA(最好技術(shù)或者模型)能力不斷超越。有公司通過廣泛領(lǐng)域的自我博弈找到持續(xù)自我改進(jìn)的方法并取得突破,但目前我們還沒有看到這方面的證據(jù)。但我們能夠清楚看到模型競爭有多激烈?自上一個開發(fā)日以來,GPT-4的token價格已下跌98%。
其次,除了ChatGPT外,大部分模型很難在應(yīng)用層面形成比較大的突破。
06?混亂的現(xiàn)實世界:定制認(rèn)知架構(gòu)
科學(xué)家計劃和采取行動實現(xiàn)目標(biāo)的方式,與軟件工程師的工作方式截然不同,甚至不同公司的軟件工程師情況也有所不同。
隨著AI研究不斷提升模型推理能力上限,我們?nèi)匀恍枰唧w的應(yīng)用落地。但通用模型很難實現(xiàn)在特定領(lǐng)域的具體落地。
輸入認(rèn)知架構(gòu),或者您的系統(tǒng)如何思考:接受用戶輸入并執(zhí)行操作或生成響應(yīng)的代碼流和模型交互。
例如,在Factory的案例中,他們的每個“機(jī)器人”產(chǎn)品都具有自定義認(rèn)知架構(gòu),可以模仿人類解決特定任務(wù)的思維方式,例如審查拉取請求或編寫和執(zhí)行遷移計劃以將服務(wù)從一個后端更新到另一個后端。
Factory機(jī)器人將分解所有依賴關(guān)系,提出相關(guān)的代碼更改,添加單元測試并拉取人類進(jìn)行審查。然后在批準(zhǔn)后,在開發(fā)環(huán)境中對所有文件運(yùn)行更改,如果所有測試都通過,則合并代碼。就像人類可能會做的那樣——在一組離散任務(wù)中,而不是一個通用的黑盒答案中。
07?應(yīng)用層,或許是創(chuàng)業(yè)者的最佳選擇
目前,基礎(chǔ)模型固然厲害,但也有不少缺陷。比如,大模型無法處理黑匣子、幻覺等問題?;蛘?,消費者面對大模型不知道問什么?這些都會是應(yīng)用層的機(jī)會。
兩年前,許多AI應(yīng)用公司被嘲笑為“只是GPT-3上的包裝器”。如今,這些包裝器被證明是構(gòu)建持久價值的唯一可靠方法之一。最初的“包裝器”已經(jīng)演變成“認(rèn)知架構(gòu)”。
應(yīng)用層AI公司價值不僅僅是基礎(chǔ)模型之上的UI。更重要的是,它們擁有復(fù)雜的認(rèn)知架構(gòu),包括多個基礎(chǔ)模型,頂部有某種路由機(jī)制、用于RAG的矢量和/或圖形數(shù)據(jù)庫、確保合規(guī)性的護(hù)欄,以及模仿人類思考工作流程推理方式的應(yīng)用程序邏輯。
08?服務(wù)即軟件
云計算的本質(zhì)是,軟件即服務(wù)。這讓軟件產(chǎn)業(yè)變成了一個價值3500億美元的機(jī)會。
到了AI時代,類似的機(jī)會同樣出現(xiàn)。人工智能轉(zhuǎn)型本質(zhì)是服務(wù)即軟件,即AI公司用AI應(yīng)用替代勞動力。這意味著,AI應(yīng)用可能面臨著價值數(shù)萬億美元的服務(wù)市場。
勞動力替代意味著什么?Sierra就是一個很好的例子。B2C公司將Sierra(AI客服公司)放在他們的網(wǎng)站上與客戶交談。用AI代理來解決客戶所提出的問題,每完成一次服務(wù)獲得相應(yīng)的報酬。這與傳統(tǒng)軟件按“席位”付費的模式有很大區(qū)別。
這是許多AI公司所追求的目標(biāo)。但不是所有公司都這么幸運(yùn),現(xiàn)在出現(xiàn)的另一個新興模式是,先部署為副駕駛(人機(jī)交互),然后再迭代成完全自動化。GitHub Copilot就是一個很好的例子。?
09?新一代代理應(yīng)用
隨著生成式人工智能的推理能力不斷增強(qiáng),一類新的代理應(yīng)用程序開始涌現(xiàn)。這些應(yīng)用層公司是什么樣子的?至少從目前看,這些公司看起來與云計算公司有很多不同:
- 云計算公司瞄準(zhǔn)的是軟件利潤池,人工智能公司瞄準(zhǔn)的是服務(wù)利潤池。?
- 云計算公司出售軟件($/席位)。人工智能公司出售工作($/成果)
- 云計算公司喜歡自下而上,采用無摩擦分銷模式。而人工智能公司則越來越多地采用自上而下,采用高接觸、高信任的交付模式。
我們看到,這些新型代理應(yīng)用正在知識經(jīng)濟(jì)的各個領(lǐng)域涌現(xiàn)。以下是一些示例。
Harvey: AI律師
Glean: AI工作助理
Factory:AI軟件工程師
Abridge:AI醫(yī)療文書記錄員
XBOW: AI測試員
Sierra:AI客服
通過降低提供這些服務(wù)的邊際成本,這些代理應(yīng)用程序正在擴(kuò)展并創(chuàng)造新的市場。
以XBOW為例,XBOW正在構(gòu)建AI“滲透測試員”。滲透測試是對計算機(jī)系統(tǒng)進(jìn)行的模擬網(wǎng)絡(luò)攻擊,公司通過執(zhí)行此測試來評估自己的安全系統(tǒng)。
在生成式AI出現(xiàn)之前,由于人工測試的成本很高,所以公司在個別情況下才能聘請滲透測試員。然而,XBOW現(xiàn)在正在展示基于最新推理LLM構(gòu)建的自動化滲透測試,效果可以與最熟練的人工滲透測試員相媲美。這擴(kuò)大了滲透測試市場,并為各種規(guī)模的公司提供了持續(xù)滲透測試的可能性。
10?這對SaaS世界意味著什么?
現(xiàn)在很多人都關(guān)心一個問題:人工智能轉(zhuǎn)型是否會摧毀SaaS公司嗎?
之前由于AI能力絕大部分都來自模型,我們會覺得老牌SaaS公司受益于數(shù)據(jù)和分銷方面的優(yōu)勢,會最終受益。初創(chuàng)公司的主要機(jī)會不是取代老牌軟件公司——而是追逐可自動化的市場機(jī)會。
但現(xiàn)在,我們不再這么確定了,因為將模型能力轉(zhuǎn)化成端到端業(yè)務(wù)解決方案需要大量的工程設(shè)計。那么,AI企業(yè)會不會最終取代軟件?我們可以從Day.ai的案例上看出一些端倪。
Day是一款人工智能原生CRM。此前,系統(tǒng)集成商通過配置Salesforce來滿足客戶的需求,賺取了數(shù)十億美元?,F(xiàn)在,Day只需訪問您的電子郵件和日歷,并回答一頁問卷,即可自動生成完全適合客戶業(yè)務(wù)的CRM。單靠這一點,Day就已經(jīng)吸引了很多的客戶。
11?投資人應(yīng)該投什么?
作為投資者,我們應(yīng)該如何投資AI產(chǎn)業(yè)呢?以下是我們的簡要分析。
基礎(chǔ)設(shè)施:這已經(jīng)是巨頭的戰(zhàn)場,更多是戰(zhàn)略博弈的選擇而非經(jīng)濟(jì)利益驅(qū)動,對于VC來說,這不是一個好的選擇。
模型:這是巨頭和金融投資者的領(lǐng)域。巨頭正在用資產(chǎn)負(fù)債表換取損益表,投資的資金將以計算收入的形式回流到他們的云業(yè)務(wù)中。金融投資者則熱衷于討論AI的宏大敘述。雖然這些模型很厲害,團(tuán)隊也很強(qiáng),但很難用微觀經(jīng)濟(jì)學(xué)去理解。
開發(fā)工具和基礎(chǔ)設(shè)施軟件:對戰(zhàn)略投資者價值很小,更適合VC參與。在云轉(zhuǎn)型的時候,這個領(lǐng)域跑出了15家收入超過10億美元的公司,AI領(lǐng)域也會如此。
應(yīng)用程序:這是最適合VC參與的領(lǐng)域。在云計算轉(zhuǎn)型期間,大約有20家應(yīng)用層公司成立,收入超過10億美元。在移動互聯(lián)網(wǎng)時候,又有大約20家公司成立。AI時代大致也會如此。
12?結(jié)束語
在生成式人工智能的下一階段,我們預(yù)計推理研發(fā)會逐漸影響到應(yīng)用層,預(yù)計AI代理會變得更加強(qiáng)大和復(fù)雜。
回到研發(fā)層面,推理和推理時間計算在可見的未來里仍然是一個很重要的驅(qū)動因素。這是下一場AI競賽的主題。但在特定領(lǐng)域,收集現(xiàn)實世界數(shù)據(jù)建立認(rèn)知仍然很困難。因此,能夠完成AI落地最后一公里的公司將有巨大的價值。
展望未來,多智能體系統(tǒng)(如Factory的機(jī)器人)可能會迎來更大的發(fā)展。當(dāng)我們模擬了感知、推理和行動的過程,AI可以用這種方式進(jìn)行更多的探索,也許這就是通過AGI的正確道路。
文:林白
本文由人人都是產(chǎn)品經(jīng)理作者【汪仔2763】,微信公眾號:【烏鴉智能說】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
AI推理時代的到來真是太激動人心了,這種從“快速思考”向“慢速思考”的轉(zhuǎn)變,感覺就像是給AI開了新的智慧之門,未來AI的應(yīng)用潛力無限??!