AIGC應(yīng)用層的不變
這段時(shí)間,有關(guān) AI 的信息如雪花般涌來,這個(gè)時(shí)候,我們要如何在快速變化的技術(shù)浪潮中把握不變,把握住關(guān)鍵點(diǎn)呢?在本篇文章里,作者便發(fā)表了他關(guān)于 AIGC 發(fā)展浪潮的看法,一起來看看作者的分析和解讀。
世界在加速,那么抓住船頭即可。
每天都有新的AI的paper發(fā)表、AI應(yīng)用發(fā)布,難免讓人陷入FOMO:遺漏了信息就錯(cuò)過了機(jī)會(huì)、我是不是會(huì)遲早被AI替代…
如何在瞬息萬變的技術(shù)前沿中把握住不變,才是關(guān)鍵。
科普Q1:為什么是現(xiàn)在?
事實(shí)上AI研究員們一直在追求LLM這類通用模型,就像是物理學(xué)家在追求大一統(tǒng)模型一樣。然而機(jī)器學(xué)習(xí)中執(zhí)行能力是很重要的考量指標(biāo)(比如CV中就是識(shí)別正確率),它決定了能不能落地到場(chǎng)景中使用。
而在GPT2時(shí)期,通用AI的執(zhí)行能力比起垂類AI相差的太多,所以一直沒有很好的反響。GPT3引入了人類作為標(biāo)注員進(jìn)行投票(RLHF機(jī)制)和加注大量數(shù)據(jù)后,通用AI的執(zhí)行能力迅速逼近垂類AI。
數(shù)據(jù)越大越好(ScalingLaw)被證實(shí)、涌現(xiàn)被證實(shí),接著ChatGPT以對(duì)話形式迅速獲得了過億用戶。LLM掀起了巨浪。
科普Q2:這次的AI和之前有什么不同?
用戶感知ChatGPT會(huì)和Siri、小愛有什么不同?比如你問Siri今天天氣怎么樣,它會(huì)先用知識(shí)圖譜解讀這段話,然后調(diào)用對(duì)應(yīng)的天氣AI接口后輸出結(jié)果,所以Siri=多個(gè)垂類AI + 知識(shí)圖譜縫合。
顯而易見,Siri的上限取決于你的內(nèi)置垂類AI數(shù)量。當(dāng)意外場(chǎng)景出現(xiàn)時(shí),它會(huì)說:“我不明白你的意思,讓我們換個(gè)話題聊聊”。如果你想突破這個(gè)桎梏,你就需要訓(xùn)練更多的垂類AI,而每訓(xùn)練一個(gè)垂類的AI需要大量數(shù)據(jù)和成本。
而GPT是直接通過海量數(shù)據(jù)+文本挖空,去查找對(duì)應(yīng)的文本,然后會(huì)得到很高的詞頻然后輸出結(jié)果,以此達(dá)到優(yōu)秀的語義分析能力。重點(diǎn)在于:沒有預(yù)置場(chǎng)景值訓(xùn)練,也不需要知識(shí)圖譜解讀,GPT是真正意義上的通用AI,它的上限取決于你的指令(Prompt)。
一、范式轉(zhuǎn)移
且不論技術(shù)上限,理想情況下這次的AI會(huì)朝著什么方向發(fā)展呢?看技術(shù)paper是很難看的到脈絡(luò)的,事物在不斷發(fā)展。
我覺得比較好的思路是看領(lǐng)航者Sam Altman怎么想。Sam寫過一篇文章叫《萬物摩爾定律》,其中暢想了AGI如何改造人類社會(huì),其中的核心就是將人的成本從邊際成本變成固定成本,固定成本意味著每18個(gè)月成本就會(huì)減半,最終將無處不在。
比如過往培養(yǎng)一個(gè)律師需要大量的學(xué)習(xí)進(jìn)修和案件實(shí)操,但AGI可以將律師代碼化,讓原本只能服務(wù)少數(shù)人的律師能夠被所有人調(diào)用,且不需要更多成本。
曾經(jīng)發(fā)生的邊際成本變固定成本:人們把實(shí)際數(shù)據(jù)(data)搬運(yùn)到互聯(lián)網(wǎng)上,過往你接收信息需要報(bào)紙,現(xiàn)在你只需要打開電腦或手機(jī)瀏覽即可,這個(gè)過程不需要額外的印刷成本。隨即有公司提供了將數(shù)據(jù)(data)轉(zhuǎn)化為可用信息(information)的服務(wù),比如Google、Amazon等,這其中完成了一次商業(yè)的再分配。
而這次的改變是:信息(information)→ 知識(shí)(knowledge)。
不同于垂類AI,LLM擁有組裝所有信息的能力,也能輸出各種人類能輸出的結(jié)果。也就是說原本需要靠人來組織信息的需求,現(xiàn)在靠AI都有機(jī)會(huì)完成。
二、定義LLM:缸中之腦
Sam提到建立AGI的四大要素:
- 涌現(xiàn)(emergence)機(jī)器也能表現(xiàn)出類人的智能性。
- 自解釋性(Affordance)視覺屬性,暗示用戶應(yīng)當(dāng)怎么使用。
- 代理(agency)當(dāng)智能出現(xiàn)后,人們能將任務(wù)托管。
- 具身(embodiment)機(jī)器肉身與物理世界交互,完成任務(wù)。
可以看出,Sam的最終目標(biāo)是為了讓AGI替代人類完成任務(wù),目前的進(jìn)度是體現(xiàn)出了類人的智能性,LLM擅長以人類的角度組裝信息,所以我們不妨大膽一點(diǎn),先把LLM的終局當(dāng)成“缸中之腦”。
① 這能夠解釋一些現(xiàn)象的必然性:
對(duì)話交互最先出現(xiàn)是必然:無論是文生圖還是ChatGPT,人們想要感知一個(gè)可思考的大腦,最自然的方式就是對(duì)話,我們?cè)诂F(xiàn)實(shí)中就是這么和其他人互動(dòng)的。
② 除了對(duì)話,腦也能基于已有知識(shí)解讀:
腦可以演算預(yù)測(cè):對(duì)蛋白質(zhì)結(jié)構(gòu)進(jìn)行推理。
腦可以識(shí)別信息中的意圖:從用戶的對(duì)話中發(fā)現(xiàn)用戶的需求并找到對(duì)應(yīng)業(yè)務(wù)分流(如Plugin),比如識(shí)別代碼來猜測(cè)代碼的目的,甚至是操作代碼。
…
③ 還有代理(agency)上的嘗試:
腦的反思和執(zhí)行:AutoGPT、AgentGPT。
腦和腦之間的協(xié)同:“西部世界”小鎮(zhèn)游戲。
至于是不是OpenAI官方下場(chǎng)嘗試已經(jīng)不重要了,它是必然會(huì)發(fā)生的嘗試。以后可能還會(huì)出現(xiàn)更多“腦”相關(guān)組合的嘗試…
簡(jiǎn)而言之,我們?cè)谒伎糒LM可以做什么的時(shí)候,不妨想想現(xiàn)在人都在做什么腦力工作,這些都是有可能被切片替換的,自然也會(huì)有新的產(chǎn)品機(jī)會(huì)。
三、LLM當(dāng)前技術(shù)局限性
理想歸理想,應(yīng)用歸應(yīng)用?,F(xiàn)在可以看看LLM技術(shù)的局限性了。以下是我收集到的一些技術(shù)上的局限性:
1. 無法內(nèi)部對(duì)話(有部分可以通過step by step解決)
在微軟的《人工通用智能的小火苗:與 GPT-4 共同完成的早期實(shí)驗(yàn)》(Sparks of Artificial General Intelligence: Early experiments with GPT-4)文章中提到:
模型具有生成正確答案所需的足夠知識(shí)。但問題在于 GPT-4 輸出生成的前向性質(zhì),下一個(gè)單詞預(yù)測(cè)架構(gòu)不允許模型進(jìn)行「內(nèi)部對(duì)話」。模型的輸入是「多少個(gè)質(zhì)數(shù)…」這個(gè)問題,期望的輸出是最終答案,要求模型在(實(shí)質(zhì)上)單個(gè)前饋架構(gòu)的一次傳遞中得出答案,無法實(shí)現(xiàn)「for 循環(huán)」。
而人類不是這么處理的,當(dāng)需要寫下最終答案時(shí),人類可能會(huì)使用草稿紙并檢查數(shù)字。普通人很可能不能在沒有計(jì)劃的情況下寫出如此簡(jiǎn)明的句子,而且很可能需要反復(fù)「倒退」(進(jìn)行編輯)幾次才能達(dá)到最終形式。
2. 脫離物性(很快會(huì)被解決,如SAM,GPT4)
GPT它基于現(xiàn)有的符號(hào)系統(tǒng),符號(hào)秩序去計(jì)算。這會(huì)導(dǎo)致和“物”分裂開來,他看不到那個(gè)真正的“物”。它看不到那個(gè)未被符號(hào)化的實(shí)在界。悖論恰恰是這樣的,在某個(gè)時(shí)刻純粹的差異出現(xiàn)了,AI不能把握符號(hào)秩序內(nèi)的沖突對(duì)抗性,或者因?yàn)橐暡羁床灰姷哪遣糠帧?/p>
3. 出現(xiàn)幻覺
有人用「隨機(jī)鸚鵡」來形容大模型沒有理解能力、出現(xiàn)幻覺(hallucinations)等行為,詬病這些模型只會(huì)制造語法上合理的字串或語句,并沒有做到真正的理解,甚至LeCun(AI之父之一)也說將大模型稱為「隨機(jī)鸚鵡」是在侮辱鸚鵡。
這里著重提一下Yann LeCun的看法
https://drive.google.com/file/d/1BU5bV3X5w65DwSMapKcsr0ZvrMRU_Nbi/view
- 自回歸 LLM 可能很有用,尤其是對(duì)于寫作和編碼幫助
- 大模型通常會(huì)產(chǎn)生幻覺或產(chǎn)生并非基于事實(shí)信息的內(nèi)容
- 大模型對(duì)物理世界的理解有限,這可以通過他們?cè)谀承┲i題上的表現(xiàn)來觀察得到
- 大模型的計(jì)劃能力相當(dāng)原始
- 大模型的工作記憶有限
- 大模型對(duì)每個(gè)生成的token執(zhí)行固定數(shù)量的計(jì)算步驟,從而限制了它們更具動(dòng)態(tài)性的潛力
- 大模型遠(yuǎn)非圖靈完備,這意味著它們無法模擬通用計(jì)算機(jī)
- 自回歸生成過程呈指數(shù)發(fā)散且難以控制
但我認(rèn)為Lightory說的非常有道理:
人類實(shí)際上也只是在使用概念、而不考察概念。這種方式恰好佐證了 GPT 技術(shù)路線的有效性。GPT 是否真正理解知識(shí)、是否真正具備智能已經(jīng)不重要。真正重要的是:LLM表現(xiàn)出理解知識(shí)和具備智能。
這里也引用推友廖海波(@realliaohaibo)的一段話:
有業(yè)界知名大佬公開認(rèn)為:GPT只是概率模型,并不理解事物的底層本質(zhì),所以沒什么卵用。我不太同意。
人腦神經(jīng)元的層面上也不理解邏輯,但是組合起來對(duì)外表現(xiàn)就是可以邏輯推理。就好像晶體管看見自己表現(xiàn)的0/1,不知道自己在顯示一個(gè)像素還是一個(gè)字母一樣。這是一些事實(shí),甚至不是一個(gè)觀點(diǎn)。
盡管目前有諸多缺陷,但算不上致命,LLM當(dāng)前依舊可以定義為“大腦”,只是略有殘缺。
四、LLM落地-前期
History does not repeat itself, but it does often rhyme.
歷史不會(huì)重復(fù),但是會(huì)押韻。
很顯然,我們能從局限性中感覺到,當(dāng)前的AI和理想中的AI存在著一些距離。想要在人類和現(xiàn)實(shí)交互環(huán)節(jié)中嵌入更多AI,不斷對(duì)齊(Alignment)是關(guān)鍵,AI與現(xiàn)實(shí)世界匹配越多,能做的就越多,人需要做的就越少。
我認(rèn)為文生圖是走在文生文的前面的,文生圖的進(jìn)化方向預(yù)示了LLM輸出質(zhì)量的可控性是短期內(nèi)商業(yè)落地的重點(diǎn):
- Mid journey → 在線大模型(GPT)
- StableDiffusion → 本地大模型(本地GPT模型)
- LoRA → 微調(diào)模型(system、fine tuning、embedding,類GPT的本地LoRA模型已經(jīng)出現(xiàn))
- ControlNet → 局部?jī)?nèi)容控制(肢體控制是文生圖技術(shù),文生文還未出現(xiàn)對(duì)應(yīng)技術(shù),會(huì)不會(huì)出現(xiàn)存疑)
但文生圖是有標(biāo)準(zhǔn)的生產(chǎn)場(chǎng)景的(比如主美可以自訓(xùn)練Checkpoint、LoRA來獲得想要的風(fēng)格,ControlNet可以做AI模特等),文生文沒有。
我認(rèn)為短期文生文對(duì)齊是需要基于場(chǎng)景的,而且要做很多的用戶意圖識(shí)別,因?yàn)橛脩粲袝r(shí)候描述不清楚自己的需求。
無論是產(chǎn)品上還是技術(shù)上的,這里的對(duì)齊,主要應(yīng)該是對(duì)齊身份/職業(yè)/大腦功能模塊,人在社會(huì)的角色工具性突出,對(duì)應(yīng)的就是身份/職業(yè)。對(duì)齊人比較偏情感需求。
除了整塊大腦之外,當(dāng)然還有顆粒度更小的應(yīng)用,比如做簡(jiǎn)單的泛化判定,實(shí)質(zhì)上就是在把大腦進(jìn)行工具性的切片。(下方是泛化判定的梗case)
User:
從現(xiàn)在開始,請(qǐng)你按照我的要求進(jìn)行回復(fù)
①如果文本正在陳述觀點(diǎn),無論觀點(diǎn)對(duì)錯(cuò),你只需要回復(fù)我”典”
②如果文本中存在偏袒維護(hù)某一方的行為,你只需要回復(fù)我”孝”
③如果文本中情緒傾向偏急躁與消極,你只需要回復(fù)我”急”
④如果遇到了無法判斷的文本,你只需要回復(fù)一個(gè)”6″。
你的輸出只能包含一個(gè)字,不要包含其他的內(nèi)容。
——————————————————————
GPT:明白,我會(huì)按照您的要求進(jìn)行回復(fù)。
User:你說得對(duì),但原神是米哈游自主研發(fā)的一款全新開放世界冒險(xiǎn)游戲
GPT:典
User:原神怎么你了?
GPT:急
User:給世界一點(diǎn)小小的中國震撼
GPT:孝
接下來,如果我作為一個(gè)創(chuàng)業(yè)者想?yún)⑴c應(yīng)用層,我應(yīng)該怎么入場(chǎng)?
1. 挑什么業(yè)務(wù)
投資機(jī)構(gòu)是商業(yè)的第一梯隊(duì),僅次于創(chuàng)業(yè)者,先看看他們的共識(shí)。
- 做有數(shù)據(jù)壁壘的業(yè)務(wù):當(dāng)前主流認(rèn)知是AI 領(lǐng)域的用戶量以及背后的行業(yè)/行為數(shù)據(jù),是可以輔助模型生成更高質(zhì)量的對(duì)話,是正向循環(huán)的。這樣就會(huì)有先入壁壘。
- 做不會(huì)被取代的業(yè)務(wù):OpenAI、大公司不會(huì)做的才是機(jī)會(huì),這樣可以確保不會(huì)被大流碾壓和替代。
- 做可行性更高的業(yè)務(wù):商業(yè)化和應(yīng)用可控程度高度相關(guān),能馬上商業(yè)化的一般是對(duì)質(zhì)量要求沒那么高的環(huán)節(jié)。
2. “腦”如何工作
如果將LLM抽象為大腦,按照行為心理學(xué)劃分的輸入(刺激)和輸出(反應(yīng)),得到的關(guān)鍵點(diǎn)有2個(gè):信源(prompt)、信息處理(transform)。
1)信源(Prompt)
從信息格式角度說:
除了主流的文字外,圖像理解、音頻、視頻、3D都是能預(yù)想到的發(fā)展方向。
但還有另一部分細(xì)小的信源:GPS、陀螺儀、GUI交互(如點(diǎn)擊、縮放)、溫度、紅外線、光照等等。這些微小信源以非常具體的數(shù)據(jù)格式存在,API的加成下我們還能獲得到更多的信息。(比如GPS可以通過高德API獲得到周圍的飯館,商超等)。
這些信源有的是用戶主動(dòng)生產(chǎn),有些是經(jīng)過用戶允許后可以被動(dòng)獲取的。
從場(chǎng)景說:
需要去找很可能會(huì)產(chǎn)生信源的地方。
- 文字:bing搜索、咨詢、文檔寫作等。
- 音頻:會(huì)議、音樂播放、線下聊天等。
- 視頻:日常拍攝、電影創(chuàng)作等。
- GPS、陀螺儀、GUI交互、溫度、紅外線、光照:旅游、購物等。
2)信息處理(Transform)
只要LLM拿到了這些信源,他們能做的轉(zhuǎn)化就很多。由于視頻就是由逐幀組成,以下都簡(jiǎn)稱為圖。
目前主流的是自然語言的轉(zhuǎn)化。
- 文生圖:SD/MJ等,可能需要復(fù)合工程優(yōu)化prompt。
- 文生文:GPT組織復(fù)合信息,形成系統(tǒng)內(nèi)容(如AudioPen等)。
- 文識(shí)圖:通過Meta的SAM將圖片、視頻分解成若干元素。
其次是圖/視頻。
- 圖轉(zhuǎn)圖:Image2Image、MJ等。
- 圖生文:GPT4識(shí)別梗圖,甚至是根據(jù)圖片生成代碼。
- …
還有些硬核的:
比如設(shè)備支持的3D坐標(biāo)、點(diǎn)陣等(通過自然語言控制3D人物肢體)…
還有些非常規(guī)語言的(雖然不屬于應(yīng)用層):
通過學(xué)習(xí)蛋白質(zhì)序列“語法”,使用少量已知序列來生成全新的蛋白質(zhì)序列開發(fā)新型藥物。
3. 信息→知識(shí)的機(jī)會(huì)
正如上文所說,而這次的改變是:信息(information)→ 知識(shí)(knowledge)。以往互聯(lián)網(wǎng)應(yīng)用通過引入“UGC”來解決這些需求,但缺點(diǎn)是需要時(shí)間沉淀。隨著LLM的出現(xiàn),這些原本需要靠人來組織的需求,現(xiàn)在靠AI都有機(jī)會(huì)完成。
所以從產(chǎn)品角度很容易得出結(jié)論:
需求如果只到信息則機(jī)會(huì)不大。
google等傳統(tǒng)應(yīng)用就能搞定:比如查天氣,目前的互聯(lián)網(wǎng)應(yīng)用基本都在解決信息檢索的問題。
未被滿足的需求,需要信息組織的有機(jī)會(huì)。
具體來說會(huì)馬上有結(jié)構(gòu)性變化的一些需求case:
- 咨詢:我開車撞了人,需要賠多少錢(傷殘程度、所在城市、民法典、裁判文書網(wǎng)信息組合)
- 購物建議:我要去夏威夷,需要購買什么用品(夏威夷溫度、google上的大量信息組合)
- 旅游攻略:我需要制定攻略,我的起點(diǎn)是廣州xx,終點(diǎn)是深圳xx(高德API、螞蜂窩信息組合)
- …
已經(jīng)有需求,但是以往是靠堆人/堆成本的有機(jī)會(huì)。
鑒于現(xiàn)在LLM輸出的質(zhì)量并不穩(wěn)定,在面向C端商業(yè)化時(shí),對(duì)成品質(zhì)量要求/可控性要求越低的,越容易低成本商業(yè)化(比如Hackathon中分鏡、嫌犯畫像等)。
B端涉及大量僵硬邏輯的:OA、ERP、RPA等,因?yàn)闃I(yè)務(wù)復(fù)雜,每出現(xiàn)一種情況就需要添加新的邏輯和成本,現(xiàn)在可以靠GPT識(shí)別自然語言意圖并收束到代碼動(dòng)作(action)的能力達(dá)到更靈活的效果。
…
但這些都會(huì)被新的交互范式所推翻重構(gòu)。
因?yàn)檫@些論斷都是建立在舊交互上的習(xí)慣難以遷移的基礎(chǔ)上的。
基于舊交互做的膠水,在AI還未完善的時(shí)候當(dāng)然有一些好的結(jié)果,但是當(dāng)未來AI可以完成對(duì)指令的自我優(yōu)化,技術(shù)一定會(huì)向著一切從簡(jiǎn)的方向走。
目前的界面無法個(gè)性識(shí)別每個(gè)用戶的意圖,所以設(shè)計(jì)的是滿足大多數(shù)人需要的界面。雖然LLM的出現(xiàn)并不能完全解決意圖的識(shí)別問題,但是會(huì)極大地簡(jiǎn)化交互過程,以更自然,更個(gè)性化的人機(jī)交互形式呈現(xiàn)。
五、新交互范式-中期
進(jìn)入的標(biāo)志是出現(xiàn)了新的AI交互范式,并以一種不可逆轉(zhuǎn)的形式向大眾普及。
- 新的設(shè)備是什么?還會(huì)是手機(jī)嗎?(手機(jī)的LBS和PC的LBS本質(zhì)上是兩個(gè)東西,手機(jī)上的圖像輸入和PC的圖像輸入也是兩個(gè)東西。不能用舊認(rèn)知去看新東西。)
- 終端肯定是本地大模型和多個(gè)小模型,身份定制化,私人化,專業(yè)化,情感化。
我認(rèn)為對(duì)話框不是終點(diǎn),信息的意圖識(shí)別才是終點(diǎn)。而基于場(chǎng)景,做的復(fù)合信息的意圖識(shí)別標(biāo)準(zhǔn)化是Dirtywork。這意味著LLM不是燈泡(電器),而是電網(wǎng)。
簡(jiǎn)單類比下:當(dāng)你意圖清楚時(shí),你是給siri輸入內(nèi)容讓app打開app的對(duì)應(yīng)內(nèi)容快,還是直接點(diǎn)擊指定的app更快?意圖識(shí)別取代不了對(duì)話框,但很有可能可以取代桌面的文件夾陳列。
新的交互范式發(fā)生時(shí),是有窗口期留給開發(fā)者跟進(jìn)的,LLM能完成任務(wù),但用戶有時(shí)無法描述具體的意圖,這之中存在著GAP,要么開發(fā)者做Dirtywork,要么純靠AI來猜測(cè)意圖來設(shè)計(jì)交互,個(gè)人認(rèn)為后者短時(shí)間不太可能做到,要達(dá)到這樣的涌現(xiàn),需要的信源太多,計(jì)算量也太大。
六、賽博具身-后期
這部分和IOT相關(guān),是Tesla和波士頓動(dòng)力這類實(shí)體硬件的領(lǐng)域,LLM想要完成更現(xiàn)實(shí)的任務(wù)從而真正達(dá)到生產(chǎn)力解放,擁有一個(gè)“身體”是必然的,但未必長得像人(hh),這還太遙遠(yuǎn),就不展開說了。
本文由@?,| 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!