AIGC應用層的不變
這段時間,有關 AI 的信息如雪花般涌來,這個時候,我們要如何在快速變化的技術(shù)浪潮中把握不變,把握住關鍵點呢?在本篇文章里,作者便發(fā)表了他關于 AIGC 發(fā)展浪潮的看法,一起來看看作者的分析和解讀。
世界在加速,那么抓住船頭即可。
每天都有新的AI的paper發(fā)表、AI應用發(fā)布,難免讓人陷入FOMO:遺漏了信息就錯過了機會、我是不是會遲早被AI替代…
如何在瞬息萬變的技術(shù)前沿中把握住不變,才是關鍵。
科普Q1:為什么是現(xiàn)在?
事實上AI研究員們一直在追求LLM這類通用模型,就像是物理學家在追求大一統(tǒng)模型一樣。然而機器學習中執(zhí)行能力是很重要的考量指標(比如CV中就是識別正確率),它決定了能不能落地到場景中使用。
而在GPT2時期,通用AI的執(zhí)行能力比起垂類AI相差的太多,所以一直沒有很好的反響。GPT3引入了人類作為標注員進行投票(RLHF機制)和加注大量數(shù)據(jù)后,通用AI的執(zhí)行能力迅速逼近垂類AI。
數(shù)據(jù)越大越好(ScalingLaw)被證實、涌現(xiàn)被證實,接著ChatGPT以對話形式迅速獲得了過億用戶。LLM掀起了巨浪。
科普Q2:這次的AI和之前有什么不同?
用戶感知ChatGPT會和Siri、小愛有什么不同?比如你問Siri今天天氣怎么樣,它會先用知識圖譜解讀這段話,然后調(diào)用對應的天氣AI接口后輸出結(jié)果,所以Siri=多個垂類AI + 知識圖譜縫合。
顯而易見,Siri的上限取決于你的內(nèi)置垂類AI數(shù)量。當意外場景出現(xiàn)時,它會說:“我不明白你的意思,讓我們換個話題聊聊”。如果你想突破這個桎梏,你就需要訓練更多的垂類AI,而每訓練一個垂類的AI需要大量數(shù)據(jù)和成本。
而GPT是直接通過海量數(shù)據(jù)+文本挖空,去查找對應的文本,然后會得到很高的詞頻然后輸出結(jié)果,以此達到優(yōu)秀的語義分析能力。重點在于:沒有預置場景值訓練,也不需要知識圖譜解讀,GPT是真正意義上的通用AI,它的上限取決于你的指令(Prompt)。
一、范式轉(zhuǎn)移
且不論技術(shù)上限,理想情況下這次的AI會朝著什么方向發(fā)展呢?看技術(shù)paper是很難看的到脈絡的,事物在不斷發(fā)展。
我覺得比較好的思路是看領航者Sam Altman怎么想。Sam寫過一篇文章叫《萬物摩爾定律》,其中暢想了AGI如何改造人類社會,其中的核心就是將人的成本從邊際成本變成固定成本,固定成本意味著每18個月成本就會減半,最終將無處不在。
比如過往培養(yǎng)一個律師需要大量的學習進修和案件實操,但AGI可以將律師代碼化,讓原本只能服務少數(shù)人的律師能夠被所有人調(diào)用,且不需要更多成本。
曾經(jīng)發(fā)生的邊際成本變固定成本:人們把實際數(shù)據(jù)(data)搬運到互聯(lián)網(wǎng)上,過往你接收信息需要報紙,現(xiàn)在你只需要打開電腦或手機瀏覽即可,這個過程不需要額外的印刷成本。隨即有公司提供了將數(shù)據(jù)(data)轉(zhuǎn)化為可用信息(information)的服務,比如Google、Amazon等,這其中完成了一次商業(yè)的再分配。
而這次的改變是:信息(information)→ 知識(knowledge)。
不同于垂類AI,LLM擁有組裝所有信息的能力,也能輸出各種人類能輸出的結(jié)果。也就是說原本需要靠人來組織信息的需求,現(xiàn)在靠AI都有機會完成。
二、定義LLM:缸中之腦
Sam提到建立AGI的四大要素:
- 涌現(xiàn)(emergence)機器也能表現(xiàn)出類人的智能性。
- 自解釋性(Affordance)視覺屬性,暗示用戶應當怎么使用。
- 代理(agency)當智能出現(xiàn)后,人們能將任務托管。
- 具身(embodiment)機器肉身與物理世界交互,完成任務。
可以看出,Sam的最終目標是為了讓AGI替代人類完成任務,目前的進度是體現(xiàn)出了類人的智能性,LLM擅長以人類的角度組裝信息,所以我們不妨大膽一點,先把LLM的終局當成“缸中之腦”。
① 這能夠解釋一些現(xiàn)象的必然性:
對話交互最先出現(xiàn)是必然:無論是文生圖還是ChatGPT,人們想要感知一個可思考的大腦,最自然的方式就是對話,我們在現(xiàn)實中就是這么和其他人互動的。
② 除了對話,腦也能基于已有知識解讀:
腦可以演算預測:對蛋白質(zhì)結(jié)構(gòu)進行推理。
腦可以識別信息中的意圖:從用戶的對話中發(fā)現(xiàn)用戶的需求并找到對應業(yè)務分流(如Plugin),比如識別代碼來猜測代碼的目的,甚至是操作代碼。
…
③ 還有代理(agency)上的嘗試:
腦的反思和執(zhí)行:AutoGPT、AgentGPT。
腦和腦之間的協(xié)同:“西部世界”小鎮(zhèn)游戲。
至于是不是OpenAI官方下場嘗試已經(jīng)不重要了,它是必然會發(fā)生的嘗試。以后可能還會出現(xiàn)更多“腦”相關組合的嘗試…
簡而言之,我們在思考LLM可以做什么的時候,不妨想想現(xiàn)在人都在做什么腦力工作,這些都是有可能被切片替換的,自然也會有新的產(chǎn)品機會。
三、LLM當前技術(shù)局限性
理想歸理想,應用歸應用。現(xiàn)在可以看看LLM技術(shù)的局限性了。以下是我收集到的一些技術(shù)上的局限性:
1. 無法內(nèi)部對話(有部分可以通過step by step解決)
在微軟的《人工通用智能的小火苗:與 GPT-4 共同完成的早期實驗》(Sparks of Artificial General Intelligence: Early experiments with GPT-4)文章中提到:
模型具有生成正確答案所需的足夠知識。但問題在于 GPT-4 輸出生成的前向性質(zhì),下一個單詞預測架構(gòu)不允許模型進行「內(nèi)部對話」。模型的輸入是「多少個質(zhì)數(shù)…」這個問題,期望的輸出是最終答案,要求模型在(實質(zhì)上)單個前饋架構(gòu)的一次傳遞中得出答案,無法實現(xiàn)「for 循環(huán)」。
而人類不是這么處理的,當需要寫下最終答案時,人類可能會使用草稿紙并檢查數(shù)字。普通人很可能不能在沒有計劃的情況下寫出如此簡明的句子,而且很可能需要反復「倒退」(進行編輯)幾次才能達到最終形式。
2. 脫離物性(很快會被解決,如SAM,GPT4)
GPT它基于現(xiàn)有的符號系統(tǒng),符號秩序去計算。這會導致和“物”分裂開來,他看不到那個真正的“物”。它看不到那個未被符號化的實在界。悖論恰恰是這樣的,在某個時刻純粹的差異出現(xiàn)了,AI不能把握符號秩序內(nèi)的沖突對抗性,或者因為視差看不見的那部分。
3. 出現(xiàn)幻覺
有人用「隨機鸚鵡」來形容大模型沒有理解能力、出現(xiàn)幻覺(hallucinations)等行為,詬病這些模型只會制造語法上合理的字串或語句,并沒有做到真正的理解,甚至LeCun(AI之父之一)也說將大模型稱為「隨機鸚鵡」是在侮辱鸚鵡。
這里著重提一下Yann LeCun的看法
https://drive.google.com/file/d/1BU5bV3X5w65DwSMapKcsr0ZvrMRU_Nbi/view
- 自回歸 LLM 可能很有用,尤其是對于寫作和編碼幫助
- 大模型通常會產(chǎn)生幻覺或產(chǎn)生并非基于事實信息的內(nèi)容
- 大模型對物理世界的理解有限,這可以通過他們在某些謎題上的表現(xiàn)來觀察得到
- 大模型的計劃能力相當原始
- 大模型的工作記憶有限
- 大模型對每個生成的token執(zhí)行固定數(shù)量的計算步驟,從而限制了它們更具動態(tài)性的潛力
- 大模型遠非圖靈完備,這意味著它們無法模擬通用計算機
- 自回歸生成過程呈指數(shù)發(fā)散且難以控制
但我認為Lightory說的非常有道理:
人類實際上也只是在使用概念、而不考察概念。這種方式恰好佐證了 GPT 技術(shù)路線的有效性。GPT 是否真正理解知識、是否真正具備智能已經(jīng)不重要。真正重要的是:LLM表現(xiàn)出理解知識和具備智能。
這里也引用推友廖海波(@realliaohaibo)的一段話:
有業(yè)界知名大佬公開認為:GPT只是概率模型,并不理解事物的底層本質(zhì),所以沒什么卵用。我不太同意。
人腦神經(jīng)元的層面上也不理解邏輯,但是組合起來對外表現(xiàn)就是可以邏輯推理。就好像晶體管看見自己表現(xiàn)的0/1,不知道自己在顯示一個像素還是一個字母一樣。這是一些事實,甚至不是一個觀點。
盡管目前有諸多缺陷,但算不上致命,LLM當前依舊可以定義為“大腦”,只是略有殘缺。
四、LLM落地-前期
History does not repeat itself, but it does often rhyme.
歷史不會重復,但是會押韻。
很顯然,我們能從局限性中感覺到,當前的AI和理想中的AI存在著一些距離。想要在人類和現(xiàn)實交互環(huán)節(jié)中嵌入更多AI,不斷對齊(Alignment)是關鍵,AI與現(xiàn)實世界匹配越多,能做的就越多,人需要做的就越少。
我認為文生圖是走在文生文的前面的,文生圖的進化方向預示了LLM輸出質(zhì)量的可控性是短期內(nèi)商業(yè)落地的重點:
- Mid journey → 在線大模型(GPT)
- StableDiffusion → 本地大模型(本地GPT模型)
- LoRA → 微調(diào)模型(system、fine tuning、embedding,類GPT的本地LoRA模型已經(jīng)出現(xiàn))
- ControlNet → 局部內(nèi)容控制(肢體控制是文生圖技術(shù),文生文還未出現(xiàn)對應技術(shù),會不會出現(xiàn)存疑)
但文生圖是有標準的生產(chǎn)場景的(比如主美可以自訓練Checkpoint、LoRA來獲得想要的風格,ControlNet可以做AI模特等),文生文沒有。
我認為短期文生文對齊是需要基于場景的,而且要做很多的用戶意圖識別,因為用戶有時候描述不清楚自己的需求。
無論是產(chǎn)品上還是技術(shù)上的,這里的對齊,主要應該是對齊身份/職業(yè)/大腦功能模塊,人在社會的角色工具性突出,對應的就是身份/職業(yè)。對齊人比較偏情感需求。
除了整塊大腦之外,當然還有顆粒度更小的應用,比如做簡單的泛化判定,實質(zhì)上就是在把大腦進行工具性的切片。(下方是泛化判定的梗case)
User:
從現(xiàn)在開始,請你按照我的要求進行回復
①如果文本正在陳述觀點,無論觀點對錯,你只需要回復我”典”
②如果文本中存在偏袒維護某一方的行為,你只需要回復我”孝”
③如果文本中情緒傾向偏急躁與消極,你只需要回復我”急”
④如果遇到了無法判斷的文本,你只需要回復一個”6″。
你的輸出只能包含一個字,不要包含其他的內(nèi)容。
——————————————————————
GPT:明白,我會按照您的要求進行回復。
User:你說得對,但原神是米哈游自主研發(fā)的一款全新開放世界冒險游戲
GPT:典
User:原神怎么你了?
GPT:急
User:給世界一點小小的中國震撼
GPT:孝
接下來,如果我作為一個創(chuàng)業(yè)者想?yún)⑴c應用層,我應該怎么入場?
1. 挑什么業(yè)務
投資機構(gòu)是商業(yè)的第一梯隊,僅次于創(chuàng)業(yè)者,先看看他們的共識。
- 做有數(shù)據(jù)壁壘的業(yè)務:當前主流認知是AI 領域的用戶量以及背后的行業(yè)/行為數(shù)據(jù),是可以輔助模型生成更高質(zhì)量的對話,是正向循環(huán)的。這樣就會有先入壁壘。
- 做不會被取代的業(yè)務:OpenAI、大公司不會做的才是機會,這樣可以確保不會被大流碾壓和替代。
- 做可行性更高的業(yè)務:商業(yè)化和應用可控程度高度相關,能馬上商業(yè)化的一般是對質(zhì)量要求沒那么高的環(huán)節(jié)。
2. “腦”如何工作
如果將LLM抽象為大腦,按照行為心理學劃分的輸入(刺激)和輸出(反應),得到的關鍵點有2個:信源(prompt)、信息處理(transform)。
1)信源(Prompt)
從信息格式角度說:
除了主流的文字外,圖像理解、音頻、視頻、3D都是能預想到的發(fā)展方向。
但還有另一部分細小的信源:GPS、陀螺儀、GUI交互(如點擊、縮放)、溫度、紅外線、光照等等。這些微小信源以非常具體的數(shù)據(jù)格式存在,API的加成下我們還能獲得到更多的信息。(比如GPS可以通過高德API獲得到周圍的飯館,商超等)。
這些信源有的是用戶主動生產(chǎn),有些是經(jīng)過用戶允許后可以被動獲取的。
從場景說:
需要去找很可能會產(chǎn)生信源的地方。
- 文字:bing搜索、咨詢、文檔寫作等。
- 音頻:會議、音樂播放、線下聊天等。
- 視頻:日常拍攝、電影創(chuàng)作等。
- GPS、陀螺儀、GUI交互、溫度、紅外線、光照:旅游、購物等。
2)信息處理(Transform)
只要LLM拿到了這些信源,他們能做的轉(zhuǎn)化就很多。由于視頻就是由逐幀組成,以下都簡稱為圖。
目前主流的是自然語言的轉(zhuǎn)化。
- 文生圖:SD/MJ等,可能需要復合工程優(yōu)化prompt。
- 文生文:GPT組織復合信息,形成系統(tǒng)內(nèi)容(如AudioPen等)。
- 文識圖:通過Meta的SAM將圖片、視頻分解成若干元素。
其次是圖/視頻。
- 圖轉(zhuǎn)圖:Image2Image、MJ等。
- 圖生文:GPT4識別梗圖,甚至是根據(jù)圖片生成代碼。
- …
還有些硬核的:
比如設備支持的3D坐標、點陣等(通過自然語言控制3D人物肢體)…
還有些非常規(guī)語言的(雖然不屬于應用層):
通過學習蛋白質(zhì)序列“語法”,使用少量已知序列來生成全新的蛋白質(zhì)序列開發(fā)新型藥物。
3. 信息→知識的機會
正如上文所說,而這次的改變是:信息(information)→ 知識(knowledge)。以往互聯(lián)網(wǎng)應用通過引入“UGC”來解決這些需求,但缺點是需要時間沉淀。隨著LLM的出現(xiàn),這些原本需要靠人來組織的需求,現(xiàn)在靠AI都有機會完成。
所以從產(chǎn)品角度很容易得出結(jié)論:
需求如果只到信息則機會不大。
google等傳統(tǒng)應用就能搞定:比如查天氣,目前的互聯(lián)網(wǎng)應用基本都在解決信息檢索的問題。
未被滿足的需求,需要信息組織的有機會。
具體來說會馬上有結(jié)構(gòu)性變化的一些需求case:
- 咨詢:我開車撞了人,需要賠多少錢(傷殘程度、所在城市、民法典、裁判文書網(wǎng)信息組合)
- 購物建議:我要去夏威夷,需要購買什么用品(夏威夷溫度、google上的大量信息組合)
- 旅游攻略:我需要制定攻略,我的起點是廣州xx,終點是深圳xx(高德API、螞蜂窩信息組合)
- …
已經(jīng)有需求,但是以往是靠堆人/堆成本的有機會。
鑒于現(xiàn)在LLM輸出的質(zhì)量并不穩(wěn)定,在面向C端商業(yè)化時,對成品質(zhì)量要求/可控性要求越低的,越容易低成本商業(yè)化(比如Hackathon中分鏡、嫌犯畫像等)。
B端涉及大量僵硬邏輯的:OA、ERP、RPA等,因為業(yè)務復雜,每出現(xiàn)一種情況就需要添加新的邏輯和成本,現(xiàn)在可以靠GPT識別自然語言意圖并收束到代碼動作(action)的能力達到更靈活的效果。
…
但這些都會被新的交互范式所推翻重構(gòu)。
因為這些論斷都是建立在舊交互上的習慣難以遷移的基礎上的。
基于舊交互做的膠水,在AI還未完善的時候當然有一些好的結(jié)果,但是當未來AI可以完成對指令的自我優(yōu)化,技術(shù)一定會向著一切從簡的方向走。
目前的界面無法個性識別每個用戶的意圖,所以設計的是滿足大多數(shù)人需要的界面。雖然LLM的出現(xiàn)并不能完全解決意圖的識別問題,但是會極大地簡化交互過程,以更自然,更個性化的人機交互形式呈現(xiàn)。
五、新交互范式-中期
進入的標志是出現(xiàn)了新的AI交互范式,并以一種不可逆轉(zhuǎn)的形式向大眾普及。
- 新的設備是什么?還會是手機嗎?(手機的LBS和PC的LBS本質(zhì)上是兩個東西,手機上的圖像輸入和PC的圖像輸入也是兩個東西。不能用舊認知去看新東西。)
- 終端肯定是本地大模型和多個小模型,身份定制化,私人化,專業(yè)化,情感化。
我認為對話框不是終點,信息的意圖識別才是終點。而基于場景,做的復合信息的意圖識別標準化是Dirtywork。這意味著LLM不是燈泡(電器),而是電網(wǎng)。
簡單類比下:當你意圖清楚時,你是給siri輸入內(nèi)容讓app打開app的對應內(nèi)容快,還是直接點擊指定的app更快?意圖識別取代不了對話框,但很有可能可以取代桌面的文件夾陳列。
新的交互范式發(fā)生時,是有窗口期留給開發(fā)者跟進的,LLM能完成任務,但用戶有時無法描述具體的意圖,這之中存在著GAP,要么開發(fā)者做Dirtywork,要么純靠AI來猜測意圖來設計交互,個人認為后者短時間不太可能做到,要達到這樣的涌現(xiàn),需要的信源太多,計算量也太大。
六、賽博具身-后期
這部分和IOT相關,是Tesla和波士頓動力這類實體硬件的領域,LLM想要完成更現(xiàn)實的任務從而真正達到生產(chǎn)力解放,擁有一個“身體”是必然的,但未必長得像人(hh),這還太遙遠,就不展開說了。
本文由@海瑋 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!