投身LLM(大型語言模型),要從本質(zhì)上想明白3個(gè)問題
由于人工智能的快速發(fā)展,許多人終于開始理解和接受這個(gè)事實(shí):AI 離我們并不遙遠(yuǎn),它正在改變我們的世界。作者在看LLM(大型語言模型)的機(jī)會(huì)時(shí),深度思考了3個(gè)問題:LLM下一個(gè)發(fā)展未來是什么、哪些落地方向更有前景、我們要做些什么準(zhǔn)備。希望能夠給各位帶來啟發(fā)。
最近我自己在看LLM的機(jī)會(huì),也和創(chuàng)業(yè)者、投資人、從業(yè)者進(jìn)行非常多的交流。大家普遍的感覺是“我知道他很好,但我應(yīng)該怎么做?”。在被OpenAI拖著狂奔的過程中,涌現(xiàn)出了很多機(jī)會(huì),大家都處于一種興奮而迷茫的狀態(tài)。
特別在OpenAI聯(lián)手微軟依次打翻文本應(yīng)用(Jasper/Grammarly),辦公軟件(微軟 Copilot),開發(fā)框架(OpenAI插件之于langchain),低代碼(今天剛出的新聞)后,這種迷茫更進(jìn)一步疊加了對(duì)中心化LLM巨頭鯨魚翻身的恐懼。
在深度思考后,我總結(jié)出這三個(gè)問題,并從底層本質(zhì)進(jìn)行了回答。他將會(huì)是我接下來看LLM機(jī)會(huì)的核心框架,希望對(duì)你有所幫助。歡迎點(diǎn)贊,轉(zhuǎn)發(fā),再看。
- LLM下一個(gè)發(fā)展未來是什么
- 哪些落地方向更有前景
- 我們要做些什么準(zhǔn)備
01 LLM下一個(gè)發(fā)展未來是什么
我在2月26日、3月2日分別做過LLM的未來預(yù)判,正確率幾近100%,其中一篇是:重磅:盤點(diǎn)7大方向,誰將誕生ChatGPT領(lǐng)域的尤里卡時(shí)刻(七個(gè)方向僅有一個(gè)未被兌獎(jiǎng))
思考框架
但有一位朋友問了我一個(gè)印象很深刻的問題,“你是怎么做出這些預(yù)判的呢?”。這就是知其然和知其所以然的區(qū)別了,當(dāng)時(shí)我回答不上來,現(xiàn)在我有了思考后的初步框架,與各位分享:
- 現(xiàn)在存在哪些問題需要解決
- 做哪些嘗試可以帶來更大的空間(當(dāng)然也帶來更多的待解決問題)
- 這些方向技術(shù)上是否可行
- 4. 這些方向的商業(yè)價(jià)值是否值得投入去改變
由此,我將LLM的未來分為兩類:現(xiàn)狀修復(fù),開拓增量。同時(shí)施加技術(shù)和商業(yè)的雙重判斷進(jìn)行校準(zhǔn)。
表層知識(shí)
現(xiàn)狀修復(fù)
No.1 居高不下的推理成本
目前表現(xiàn)最優(yōu)的OpenAI GPT-3 Davanci 價(jià)格是0.02美元/1Ktoken(大約3800漢字/元),特化微調(diào)后的GPT-3.5 turbo價(jià)格是0.002美元/1Ktoken(38000漢字/元)。同期國內(nèi)的百度文心一言據(jù)說API價(jià)格是0.12元/1Ktoken,比Davanci版本略微便宜一點(diǎn)。
列舉這么多數(shù)據(jù),是為了直觀告訴大家現(xiàn)在的推理成本到底有多貴,只有少數(shù)業(yè)務(wù)能夠滿足到這個(gè)價(jià)格/成本的剪刀差。
基于這個(gè)問題,可以延伸出若干個(gè)子方向:
開源平替小模型,例如Meta開源的LLama及延伸出Alpaca-lora,ColossalChat等等,通過針對(duì)性微調(diào),在更小參數(shù)量級(jí)(10B或100B)級(jí)別上對(duì)齊千億參數(shù)的效果。
上下文壓縮,通過文件分塊后語義檢索,或者長文分段摘要在合并等方式縮減上下文長度。例如ChatPDF,乃至bing(雖然他沒公開,但我猜是)。
LLM本身的優(yōu)化,例如英偉達(dá)在芯片層的工作,以及算法、模型結(jié)構(gòu)、任務(wù)調(diào)度方面的優(yōu)化。
可謂是八仙過海,各顯神通,大語言核心廠家在做優(yōu)化的同時(shí),小玩家也通過各種手段拼命壓縮成本。要讓LLM進(jìn)一步踏入千家萬戶,迎來像AI繪畫側(cè)SD算法那種爆發(fā),推理成本一定是最重要的第一個(gè)方向。
并且他也一定能快速被解決,不管從LLM本身出發(fā),還是上下文壓縮的技術(shù)迭進(jìn),還是開源平替小模型,他的各項(xiàng)技術(shù)前景都是現(xiàn)實(shí)的。所以如果4月1號(hào)OpenAI又宣布降價(jià),別驚訝,常規(guī)操作。
No.2 垂直適配難題
目前要微調(diào)一些專用于垂直領(lǐng)域的LLM,會(huì)面臨若干問題:
頭部大模型價(jià)格高昂:OpenAI的Davanci基本模型調(diào)用價(jià)格為0.02美元/1Ktoken,但微調(diào)后模型的使用價(jià)格變成了0.12美元/1Ktoken,翻了6倍。
而事實(shí)上,基于Lora機(jī)制(凍結(jié)大部分模型參數(shù),僅微調(diào)調(diào)整少量參數(shù))實(shí)現(xiàn)的微調(diào)新模型,他的成本不可能翻6倍之多。我懷疑OpenAI在通過這種極其高昂的定價(jià)策略,逼迫使用者進(jìn)行低階模型的微調(diào)(在次一級(jí)模型上微調(diào)后,盡管價(jià)格仍然翻6倍,但只是上一級(jí)模型價(jià)格的60%),從而獲得低階模型微調(diào)適配的珍貴數(shù)據(jù)。所以O(shè)penAI下調(diào)微調(diào)模型價(jià)格的空間理論上是存在的。
而現(xiàn)在開源平替模型的出現(xiàn)可能沖擊OpenAI的這種策略,他的微調(diào)價(jià)格可能會(huì)產(chǎn)生相應(yīng)調(diào)整,并可能也開放自己的小模型平替。但這種情況其實(shí)和Google推出LLM一樣,是自己在刨自己的根,非常難做出決定。
另一方面,微調(diào)的任務(wù)能力有限,目前常見的微調(diào)主要為通用領(lǐng)域,例如更好的營銷文案寫作,更友好/更專業(yè)/更嚴(yán)肅的回答方式,針對(duì)性的文本提取,情緒分類等傳統(tǒng)NLP任務(wù)。真正迫切的知識(shí)更新效果很差的,即讓LLM專門記住我這批專業(yè)數(shù)據(jù),并老實(shí)回答,這也是為什么ChatGPT到現(xiàn)在還是只有21年以前記憶的原因之一。
No.3 上下文中注意力失控
在這里要簡單科普一下上下文和注意力是什么。大家會(huì)看到GPT的原始版本是2K左右的token上下文支持,GPT-3時(shí)代變成4K,GPT-4時(shí)代變成8K和32K。
那么為什么上下文會(huì)是一個(gè)要逐步被解決的問題呢?因?yàn)樗谋举|(zhì)是,當(dāng)你輸入一個(gè)超長上下文(包括你的指示、你的補(bǔ)充知識(shí)、你的示例等),LLM需要對(duì)你的上下文進(jìn)行全面的理解,用到一個(gè)叫“注意力”的技術(shù)去計(jì)算每個(gè)字與字之間的關(guān)系,甚至這種關(guān)系產(chǎn)生在你輸入的第一個(gè)字和你回答的最后一個(gè)字之間也存在。
當(dāng)LLM生成回答的時(shí)候,他會(huì)基于注意力權(quán)重來計(jì)算本次應(yīng)該生成哪個(gè)字來形成答案。而這個(gè)注意力權(quán)重他是要對(duì)所有你輸入的上下文文本進(jìn)行計(jì)算的,文本越多,他的計(jì)算資源要求就越多(這也是為什么OpenAI以token計(jì)費(fèi),并且輸入的文本也要錢)。
大概了解上下文和注意力后,我們回歸這個(gè)問題——那么當(dāng)我計(jì)算了所有的注意力后,哪些注意力是更重要的呢?
這就是所謂注意力失控,或者說根本就不給我控。通俗來說,如果我希望你記得某個(gè)關(guān)鍵信息,我會(huì)把那個(gè)字體標(biāo)紅、放大10倍。
而在LLM的技術(shù)中,其實(shí)也有類似手段。在GPT-3.5 turbo API(即CHatGPT這個(gè)版本)中,他們定義了一個(gè)叫System的字段,可以看為是允許開發(fā)者自行定義最關(guān)鍵的注意力點(diǎn)。但實(shí)踐中,system中的內(nèi)容總是被遺忘,并且僅有一個(gè)字段來承載也不夠適配業(yè)務(wù)中的豐富需求。
所以,可控,可配,可調(diào)的自定義注意力,是一個(gè)非常關(guān)鍵的優(yōu)化點(diǎn),可能在后續(xù)版本出現(xiàn)。
No.4 安全性補(bǔ)足
我寫這篇文章的時(shí)候,馬斯克發(fā)起的公開信已經(jīng)有1000個(gè)人聯(lián)署了,大概內(nèi)容就是“AI很可怕,在找到約束方法前,你們(OpenAI)不準(zhǔn)再迭代拉!”。
在LLM安全方面,其實(shí)OpenAI建立了第一套標(biāo)準(zhǔn),主要分為兩個(gè)方面:
幻覺,即不要回答你不知道的東西,不知為不知是智也。
有毒,不要種族歧視,不要性別歧視,不要地域歧視,不要引導(dǎo)做負(fù)面事情,陽光向上保持健康做個(gè)好AI等等。
在他們的公開論文中,GPT-4在2022年8月已就位,拖到23年3月才發(fā)布,全是為了解決上述的安全問題。
我對(duì)這個(gè)方向的看法是:翻版的西方環(huán)保問題。
他是不是問題?是的。為什么大家要說這個(gè)問題?有真正的擔(dān)憂,也有利益上的訴求。他真的會(huì)被執(zhí)行嗎?領(lǐng)先者用它敲打追隨者,追隨者用它聲討領(lǐng)先者,雙方肯定會(huì)揮舞大棒打成一團(tuán)(我原本以為還要再等一段時(shí)間)。
他稍微與環(huán)保問題不一樣的地方是:環(huán)保不存在技術(shù)實(shí)現(xiàn)問題,更多是利益的糾纏。而LLM的幻覺和有毒性,真的沒辦法完全解決,這一點(diǎn)的判斷我完全站在楊老板這邊。
有一個(gè)有趣的公司,Anthropic,成員來自O(shè)penAI中脫離而出的創(chuàng)業(yè)者。一開始被Google投資了,和OpenAI一起上線了Poe應(yīng)用做對(duì)比,效果實(shí)差。而且他的金主Google也發(fā)力自己搞了,整個(gè)情況風(fēng)雨交加。但是他找到了一條合適的路子,站在了LLM安全這個(gè)領(lǐng)域,并推出所謂的RLAIF(人類反饋約束安全變成AI反饋約束安全)。
如果讓我說,這就是時(shí)代的風(fēng)口,環(huán)保問題解決不了,但是環(huán)保會(huì)撐起來一個(gè)龐大市場(chǎng),并誕生如同環(huán)保少女這樣的頂流。
No.5 可解釋
這是我在7大方向文章中唯一不被現(xiàn)實(shí)兌獎(jiǎng)的預(yù)測(cè)。但我仍然認(rèn)為這是一個(gè)很重要的方向,解釋性在所有決策類業(yè)務(wù)上都是非常重要的。
我最近幾年沒在做AI,做的是搜索推薦,你可以把這個(gè)搜索推薦也看成某種意義上的AI決策(AI決定什么東西到你面前)。而這個(gè)領(lǐng)域中,越是高行動(dòng)成本的,就越需要可解釋性和信息背書。
例如推薦你看某個(gè)短視頻,你的成本幾乎沒有,不準(zhǔn)的代價(jià)是手指劃走;推薦你看某個(gè)電影,你的成本是幾十塊+現(xiàn)場(chǎng)觀影的兩小時(shí),不準(zhǔn)則收獲壞心情;推薦你買金融產(chǎn)品,你的成本是一堆錢,不準(zhǔn)則失去這筆錢。
你會(huì)發(fā)現(xiàn),越是高行動(dòng)成本的事情,你越需要推薦的解釋理由以及更豐富的信息背書(影評(píng),導(dǎo)演,精彩片段等等)。LLM也是這樣的,他如果要進(jìn)一步發(fā)展,就一定需要更深入地介入人類生活,更進(jìn)一步地去接管,輔助高行動(dòng)成本的事情,在這個(gè)過程中缺乏解釋性是一個(gè)超級(jí)大的問題。
從純粹LLM技術(shù)本身,我不看好他被解決——神經(jīng)網(wǎng)絡(luò)的可解釋性都是一個(gè)超級(jí)古老的大難題,更何況LLM這種集大成技術(shù)的可解釋性。但通過Cot,產(chǎn)品設(shè)計(jì),信源定位等方式總是能部分緩解的,這也可能成為未來所有LLM設(shè)計(jì)必涉及的一個(gè)范式。
No.6 本質(zhì)學(xué)習(xí)
這個(gè)觀念來自下面這篇文章,是OpenAI技術(shù)人員分享的的LLM迭進(jìn)理念https://mp.weixin.qq.com/s/hQmvltuMlClBonM6UJmtLg
文章中OpenAI的人員認(rèn)為LLM的正確做法是:“明確 AGI 基礎(chǔ)模型的目標(biāo)(任務(wù))并搜集盡可能多的有效數(shù)據(jù),然后使用所有可能的無損壓縮方式,從而得到對(duì)任務(wù)方法的最小描述長度。”我的理解就是學(xué)習(xí)本質(zhì),而不是學(xué)習(xí)表層知識(shí)。
整個(gè)思路有點(diǎn)像我本文的分享框架,比起給你表層知識(shí),不如給你獲得、分析這個(gè)知識(shí)的思考框架,用哲學(xué)上的話來說,就是先驗(yàn)勝于后驗(yàn)。例如我知道特朗普是美國總統(tǒng),不如我理解總統(tǒng)、美國這些概念,進(jìn)而再通過Bing獲取信息來整合。
這也是我認(rèn)為OpenAI放棄進(jìn)一步堆疊知識(shí),而借由外部工具(計(jì)算器,wiki,Bing)來提升能力的原因。他并不是對(duì)現(xiàn)實(shí)妥協(xié)了,而是始終在堅(jiān)持他心中的最優(yōu)策略,就像這幾年他一直堅(jiān)持GPT方向一樣。
但可惜的是,即使他發(fā)現(xiàn)了一些新知識(shí),大概也不會(huì)發(fā)paper了。
No.7 業(yè)務(wù)安全
這個(gè)部分邏輯很簡單,排除成本問題,很多企業(yè)還面臨數(shù)據(jù)安全問題。并且這種安全問題可能到了云端私有化也解決不了的程度。
因此OpenAI下一個(gè)重點(diǎn)一定會(huì)包括與Azure一起推進(jìn)的云端私有化開放,但與此同時(shí)大量的小模型廠家(基于開源模型改一改自研的那些)也一定會(huì)迎來屬于他們的機(jī)會(huì)。
這個(gè)真的很簡單,我不多說什么了,只是這個(gè)事實(shí)確實(shí)還未完全發(fā)生,勉強(qiáng)算是預(yù)測(cè),所以我放上來寫一下。
No.8 降低門檻
門檻的一部分來自成本,在第一個(gè)章節(jié)已經(jīng)講過了。
門檻的第二部分來自各種開發(fā)框架,例如langchain或者Colossal-AI,支持開發(fā)者更便捷的實(shí)現(xiàn)應(yīng)用。
門檻的第三部分我不太確定,有點(diǎn)懷疑是低代碼+AI繪畫+開發(fā)框架串起來的APP工作流。即未來每個(gè)人都能極低成本實(shí)現(xiàn)自己的APP。
這部分OpenAI有可能會(huì)親自下場(chǎng),特別是門檻三種人人都是產(chǎn)品經(jīng)理,人人都能構(gòu)建自己APP的這個(gè)事情,具有非常大的意義。
開拓增量
No.1 理解(多模態(tài))
在微軟的KOSMOS-1論文中(即我發(fā)現(xiàn)多模態(tài)未來的那篇),他舉的例子可不止圖像理解,還在旁邊放了音頻、視頻,這也是大家目前很容易預(yù)見的。
但我再補(bǔ)充另一部分細(xì)小的信源:陀螺儀,觸碰(屏幕),溫度,紅外線,光照,濕度等等。
這些概念其實(shí)和圖像、音頻、視頻不太一樣,他們本身不具備豐富的人類信息,并且通常以清晰明了的數(shù)據(jù)格式存在(例如溫度=17°C)。在LLM落地到手機(jī)這類新的終端后,他將遠(yuǎn)不止獲取到圖像、音頻、視頻這樣的信息,還包括N多人類傳統(tǒng)用于刻畫客觀環(huán)境的量化信息。
我反而很期待針對(duì)這些細(xì)小信源的應(yīng)用,因?yàn)樗麄兊男畔⒔Y(jié)構(gòu)很簡單,基本都是代碼常見格式,是現(xiàn)有能力能夠快速兼容的,比起音頻、視頻要做的語義融入簡單太多。
另外有一個(gè)超級(jí)遙遠(yuǎn)的未來(我覺得很遙遠(yuǎn)…說不定過幾天又開發(fā)布會(huì)了),目前自動(dòng)駕駛側(cè)某種意義上是對(duì)真實(shí)世界的建模,那么如果真實(shí)3D世界能夠被LLM理解,那么整個(gè)世界會(huì)向LLM進(jìn)一步揭開了面紗。
No.2 干預(yù)
理解的下一步是行動(dòng)。
首先,ChatGPT插件某種程度上就是一種干預(yù)行動(dòng),只是受限于安全風(fēng)險(xiǎn),OpenAI做了控制,將所有步驟停留在產(chǎn)生影響的前一步(訂機(jī)票,最后訂那一步你自己做)。
其次,今日消息(28號(hào)),OpenAI投資了挪威機(jī)器人公司1X;并且之前他在機(jī)械手臂方面也是有相關(guān)技術(shù)積累的(Dactyl系列)。
但LLM的行動(dòng)要解決和他現(xiàn)在的安全性問題是存在極大沖突的。在前面可解釋性部分提過,AI僅僅輔助我們決策,我們都有那么高的要求,更何況他現(xiàn)在要直接干預(yù)世界?
這個(gè)部分,我在短期內(nèi)是不抱期待的,我認(rèn)為技術(shù)上的安全的問題很難解決。畢竟誰也不想被剃頭機(jī)器人真的把頭剃掉吧。
No.3 多端融合
微軟目前的所有嘗試,都是在圍繞PC落地:bing,office全家桶,GitHub。所以在這個(gè)烽火連三月,爆發(fā)出的殺手級(jí)產(chǎn)品基本上是生產(chǎn)力方向的應(yīng)用。
剩余的終端如手機(jī),VR,耳機(jī),音箱等等,其實(shí)還處在緩慢的適應(yīng)期。
一個(gè)原因是頭部終端廠家沒完全放棄,想自己搞搞看看能不能突破,另一方面是他們可能獲得信息時(shí)間較晚,微軟的整個(gè)動(dòng)手準(zhǔn)備可能從去年8月就開始嘗試了,而大部分終端廠家可能等到11月30日ChatGPT發(fā)布才反應(yīng)過來。
這個(gè)趨勢(shì),大家也形成共識(shí)了,我不談他的邏輯了,重點(diǎn)說說這個(gè)方向要注意的地方:
1.要去看更多的信息輸入,例如我前面講到的,PC所不具備的陀螺儀,溫濕度,觸碰等等
2. 要去看設(shè)備特性的差異,例如手機(jī)的LBS和PC的LBS本質(zhì)上是兩個(gè)東西,手機(jī)上的圖像輸入和PC的圖像輸入也是兩個(gè)東西。手機(jī)更具備時(shí)空跟隨屬性,和固定的PC不相同,不能簡單用PC側(cè)的認(rèn)知去看待新的設(shè)備端口。
3. 去看低成本的終端方案,單機(jī)跑的小模型(效果差),能不能在終端跑通垂類應(yīng)用?
4. 要去看全新的交互范式,CUI+GUI的最終答案是什么,不要被目前的對(duì)話框限制住,要知道當(dāng)初移動(dòng)時(shí)代開端的時(shí)候,每個(gè)APP都長得和PC端一模一樣。
No.4 被綁住翅膀的插件
ChatGPT插件發(fā)布后,我沒有寫文章,因?yàn)闆]有想象中那么驚喜。
從目前來看,他更接近Alexa Echo的 Skill Store而不是蘋果的Apple Store。
這兩者的區(qū)別在于,蘋果本身的特性(移動(dòng),陀螺儀,觸碰,實(shí)時(shí)LBS等)給眾多基于他的APP提供了廣闊的創(chuàng)造性,而Skill Store提供的特性有限,并且因?yàn)檩斎胼敵鰡我唬ㄕZ音),產(chǎn)生了非常大的限制(所以后面又加了屏幕)。
要更進(jìn)一步發(fā)展,一方面GPT-4的圖像模態(tài)需要開放,另一方面ChatGPT要落到更多的應(yīng)用端,從端上獲得更豐富的信息輸入,并掌握更多的輸出手段。
插件市場(chǎng)一定要用這種思維去看,LLM是核心能力,但這個(gè)核心能力也受限于端的輸入(信息獲取)和輸出(交互手段),所以關(guān)鍵不是現(xiàn)在插件能做什么,而是未來插件能做什么。
02 哪些落地方向更有前景
思考框架
這次是我自己問自己:“你分析的依據(jù)是什么?你為什么認(rèn)為這個(gè)好,那個(gè)差?”,下面與你分享我的框架:
1. 這次技術(shù)與以往的根本性差異是什么?
就像插件部分對(duì)音箱、手機(jī)、PC的分析一樣,我們先看清楚技術(shù)帶來的本質(zhì)的變化:
- 第一,更成熟的CUI,可以讓LLM幫你做任何事情,基本如臂指使(做不做得到,做不做的對(duì)兩說)。
- 第二,強(qiáng)大的理解能力,不僅限于文字,同時(shí)包括圖像、音頻、視頻、3D
- 第三,強(qiáng)大的生成能力,不僅限于內(nèi)容生成,也包括代碼(應(yīng)用),數(shù)據(jù)(標(biāo)注數(shù)據(jù))
- 第四,一定的推理能力,能夠進(jìn)行基本邏輯的推理,例如先干什么在干什么最后干什么,能夠幫助你把一些事情串起來(我說的不是做數(shù)學(xué)題哈哈,不是那種推理)。
- 第五,人機(jī)信任,人類以往對(duì)AI都是惡意接觸,即我不相信你是個(gè)人,并且會(huì)做各種極端測(cè)試,那么新技術(shù)帶來的信任(或者說局部信任)將是一個(gè)本質(zhì)變化。
2. 你正在看的這個(gè)方向是存量還是增量?
存量市場(chǎng)指這個(gè)市場(chǎng)以前就存在,例如客服,教育,游戲,通常來說存量市場(chǎng)的壁壘在于資深的業(yè)務(wù)邏輯,同時(shí)已經(jīng)擁有非常多的資深玩家。當(dāng)新技術(shù)到來時(shí),舊玩家會(huì)紛紛擁抱,進(jìn)入新一輪內(nèi)卷,直到卷完后再次形成動(dòng)態(tài)平衡。
在存量市場(chǎng)中,新玩家純靠LLM技術(shù)幾乎難以突破(特別是這種技術(shù)某種意義上非常平等,應(yīng)用門檻很低)。
同時(shí)存量市場(chǎng)本身服務(wù)于某些市場(chǎng)需求,這些市場(chǎng)需求是否會(huì)因?yàn)樾录夹g(shù)帶來的體驗(yàn)提升,進(jìn)一步擴(kuò)大便捷,推動(dòng)增量產(chǎn)生也是不一定的(要分行業(yè)去看,甚至要分具體應(yīng)用去看)。
增量市場(chǎng)指這個(gè)市場(chǎng)以前或許存在,但相關(guān)技術(shù)不達(dá)標(biāo),所以整個(gè)市場(chǎng)一片藍(lán)海,沒有強(qiáng)有力的老玩家,大家眾生平等各憑本事。
請(qǐng)注意,不是說增量一定就比存量好,存量才是當(dāng)前世界的絕大多數(shù),并且AI對(duì)每個(gè)存量市場(chǎng)的破壞式更新和增量帶動(dòng)也都不一樣。
3. 你正在看的這個(gè)方向會(huì)被巨頭顛覆嗎?
- 第一,這個(gè)方向在不在巨頭們的主賽道上,這個(gè)大家懂的都懂
- 第二,觀察OpenAI的未來發(fā)展方向,至少目前小模型,開發(fā)框架,整合工作流等都需要警惕OpenAI下場(chǎng)
最后,我分享一個(gè)可怕的猜測(cè):GPT-X的迭代節(jié)奏是什么?
- A階段,我提供一個(gè)1.0模型,給2B客戶或2C用戶使用,我需要從中收集的是“在當(dāng)前1.0版本能力范圍內(nèi)”,你們做了怎樣的微調(diào),怎樣的Prompt來令LLM達(dá)成你們想要的業(yè)務(wù)效果。
- B階段,使用收集到的Prompt或微調(diào)數(shù)據(jù)進(jìn)行人工校正,標(biāo)注,形成SFT監(jiān)督數(shù)據(jù)集,重新走RLHF模式,獲得2.0模型
- C階段,開放2.0模型,干翻一堆舊的延伸應(yīng)用——以前需要額外優(yōu)化的場(chǎng)景,現(xiàn)在通用的LLM能力已經(jīng)能夠支持了。然后基于2.0版本,再次收集“在2.0版本能力范圍內(nèi)”,你們做了怎樣的微調(diào),怎樣的Prompt來令LLM達(dá)成你想要的業(yè)務(wù)效果
……將以上過程無限循環(huán)。
這個(gè)猜測(cè)你可以結(jié)合回顧我前面的“本質(zhì)學(xué)習(xí)”章節(jié),和OpenAI的理念是相符的。他們從始至終,要做到的事情,就不是鍛煉LLM對(duì)于表層知識(shí)的理解(例如特朗普是誰),而是要鍛煉LLM的思考框架。而Prompt指令中凝練了人類對(duì)任務(wù)的表達(dá)和要求,是這個(gè)階段中最有價(jià)值的數(shù)據(jù)。
當(dāng)我們還在感嘆中文世界的語料數(shù)據(jù)(例如paper、文章)等不如英文世界時(shí),OpenAI眼中的高質(zhì)量數(shù)據(jù)可能已經(jīng)從事實(shí)數(shù)據(jù)變?yōu)橹噶顢?shù)據(jù)了。
4. 他的技術(shù)前置成立嗎?他的商業(yè)潛力有足夠空間嗎?
這部分我沒啥好說的,純看你的技術(shù)理解和商業(yè)判斷…這不是在一篇小文章里能說明白說完的事情。
表層知識(shí)
No.1 情感方向
情感方向是我目前看到唯一一個(gè)純粹的增量市場(chǎng),在過去技術(shù)的限制使這個(gè)方向的發(fā)展十分微弱。在LLM出現(xiàn)后,他的技術(shù)前提已經(jīng)使得這個(gè)市場(chǎng)成為可能。
但是情感方向存在三個(gè)問題:
- 第一,留存問題。近乎所有這類型的應(yīng)用都會(huì)發(fā)現(xiàn),長期留存的用戶少之又少,短期興奮嘗試占據(jù)了大部分比例。這個(gè)問題要解決全看對(duì)用戶的需求捕捉靈敏度,只能通過核心故事,功能設(shè)計(jì),玩法設(shè)計(jì)來解決。
- 第二,信任問題。在近期,人類的觀念仍未改變,對(duì)初次接觸的AI充滿惡意。在惡意前置的情況下,用戶會(huì)格外挑剔。這個(gè)問題也不好解決,只能等待新技術(shù)帶來的思潮轉(zhuǎn)變。
- 第三,時(shí)長與精力問題。投注感情是一件看似不需要體力實(shí)則非常耗費(fèi)精力的事情,用戶在此類產(chǎn)品上消費(fèi)的時(shí)間越多,會(huì)越覺疲憊,對(duì)產(chǎn)品的離心力會(huì)更大。一個(gè)好的解決方式是構(gòu)建心流,但難度很大。而反面則是用戶本身就難以有足夠理由在這個(gè)APP上提供足夠的時(shí)長。
No.2 新的范式
新的技術(shù)發(fā)展總會(huì)帶來新的范式,例如PC時(shí)代表格工具對(duì)傳統(tǒng)表格的降維打擊(不僅僅是表格,更是查詢、加工)。而Notion更進(jìn)一步,試圖推進(jìn)All-in-one,形成Word、Excel等多種格式的統(tǒng)一,讓創(chuàng)作者專注表達(dá)想法,而Notion負(fù)責(zé)輸出時(shí)的多樣化演繹。
那么Notion,或者說現(xiàn)在的Notion AI 就是最終的形式嗎?或者說像Office Copilot那樣快捷實(shí)現(xiàn)多種文件的互相轉(zhuǎn)換和便捷操作是最終的形式嗎?
會(huì)不會(huì)有一種新的文件格式“.ai”,只需要你寫好你的大綱論點(diǎn),就可以在演示過程中實(shí)時(shí)自由延伸(擴(kuò)寫),并變換多種展示方式(從導(dǎo)圖到PPT,又在局部變成可交互表格)?
我也無從得知,這種空想也沒有意義,需要許許多多細(xì)微的創(chuàng)新堆疊起來才能成為新時(shí)代的標(biāo)準(zhǔn)范式。
事實(shí)上,新技術(shù)出現(xiàn)初期,人類的想象力總會(huì)被約束在舊的思維框架中而不自知。例如《Power and Prediction》這本書中的例子,當(dāng)電力出現(xiàn)時(shí),要用它取代工廠中蒸汽機(jī)。
僅僅只是替換就可以嗎?蒸汽是有管道鏈接到各個(gè)機(jī)器的,而電力只需要一根電線。蒸汽是必須常開的,而電力卻可以即時(shí)開關(guān)。蒸汽動(dòng)力舉例衰減嚴(yán)重,所以他需要在工廠中間,而電力卻不用。所有這些本質(zhì)不同最終催生了對(duì)工業(yè)生產(chǎn)在技術(shù),工具,管理等多維度的深刻改變。
因此,我不相信目前簡單在舊模式上疊加的創(chuàng)作,生產(chǎn)提效就是終局范式,更不要說生活范式由于更娛樂化的手機(jī)、VR、音箱等端還未完全落地,更是起步初期。
在這樣一個(gè)時(shí)期,誰先打磨出新的文件格式,先打磨出新的范式(創(chuàng)作/工作/生活),誰就有可能吃到最好的機(jī)會(huì)?!歉杏X巨頭們絕不會(huì)放過這個(gè)場(chǎng)景。
No.3 AI化浪潮中的機(jī)會(huì)
AI化是浪潮,那么幫助他人跟上浪潮的過程就會(huì)產(chǎn)生機(jī)會(huì)。這個(gè)他人,又可以分為2C和2B。
但不管2C2B,我們都可以把他們粗略地分為三類:
1. 賺信息差的錢
- 2C:教畫畫,教注冊(cè),教寫作,教分銷,10天漲粉30000,批量起號(hào)日賺5000。
- 2B:每月20美元,幫助你開掉數(shù)據(jù)分析人員,5000元快速接入CHatGPT進(jìn)直播間/小程序/公眾號(hào)
2. 賺工具+AI差價(jià)的錢
- 2C:ChatPDF,ChatPaper,或其他任何工作、娛樂價(jià)值的AI應(yīng)用
- 2B:SaaS服務(wù)疊加AI,有些觀點(diǎn)認(rèn)為LLM會(huì)摧毀大部分SaaS,我的觀點(diǎn)恰恰相反。LLM能夠提升SaaS的能力上限,并降低他的適配成本,從而推動(dòng)SaaS繁榮。
3. 賺自主訓(xùn)練模型的錢
- 2C:單機(jī)版LLM,劣化但能用
- 2B:私有化部署,或MaaS但相比巨頭LLM更低價(jià)
No.4 勞動(dòng)力遷移中的機(jī)會(huì)
農(nóng)業(yè)革命后,單位農(nóng)業(yè)生產(chǎn)力溢出,導(dǎo)致農(nóng)民流向了工業(yè)。工業(yè)革命后期,溢出勞動(dòng)力流向了第三產(chǎn)業(yè)。那么現(xiàn)在,因?yàn)锳I溢出的勞動(dòng)力(并且較為優(yōu)質(zhì)),他們會(huì)流向哪里?
是附生在新AI的周邊服務(wù)上,還是流向內(nèi)容產(chǎn)業(yè)(我們的內(nèi)容供給到極限了嗎?),還是像有的朋友所說,回流到第一第二產(chǎn)業(yè)?
這種勞動(dòng)力遷移中,一定會(huì)伴隨著相應(yīng)的機(jī)會(huì)出現(xiàn)。機(jī)會(huì)在哪里,我看不出來。但一個(gè)好的方法是觀察美國,他們的勞動(dòng)力市場(chǎng)更敏銳,他們的資本家也更冷酷,整個(gè)遷移方向有可能在美國先表現(xiàn)出來。
No.5 人文思潮的變化
生產(chǎn)力的變化也會(huì)帶來人文思潮的變化,例如工業(yè)革命抹除了男性和女性的體力差距,并使女性具備經(jīng)濟(jì)獨(dú)立,從而推動(dòng)人格獨(dú)立。再例如移動(dòng)時(shí)代的碎片化特性使得短平快的奶頭樂內(nèi)容逐步取代長篇深度內(nèi)容。
那么LLM技術(shù)會(huì)帶來什么?一個(gè)猜想是前面提及的“信任感”,人類可能在未來逐步更相信AI,不再具備初次使用時(shí)的惡意。另一個(gè)極端則是對(duì)“AI危機(jī)”的警惕抗拒,例如今天馬斯克發(fā)起的聯(lián)名信其實(shí)就借用了這樣的焦慮。
但是否還有其他更深遠(yuǎn)的影響呢?例如AI內(nèi)容提效后,進(jìn)一步推動(dòng)創(chuàng)作者的兩級(jí)分化:99.9%的好作者,和0.1%的超級(jí)好作者?例如AIGC飛速爆發(fā)后,對(duì)機(jī)器推薦的信任轉(zhuǎn)向真實(shí)KOL的信任(人肉信息過濾器)?
不過人文思潮的變化更多影響通常集中在內(nèi)容行業(yè),或者說創(chuàng)作者領(lǐng)域,我能想到的就是趕緊開個(gè)反AI的號(hào),從今天開始立人設(shè)。
No.6 能不能更具體點(diǎn)
看到這里你可能會(huì)有些失望,你說得這些似乎都很寬泛,有沒有更實(shí)在具體一點(diǎn)的干貨。
首先,如果你自己沒有任何方向上的思考判斷(并且是結(jié)合你自己過往經(jīng)驗(yàn)的),我奉勸不要下場(chǎng),任何只消化表層知識(shí)而不建立自身框架的行為都是雁過無痕的,就像收藏=已讀一樣。
其次,如果你真的要…看我的分析庫鏈接吧,里面有69個(gè)方向(在這個(gè)大章節(jié)的開頭),但是這個(gè)庫我后面的更新頻率會(huì)越來越低,因?yàn)樗麑?duì)我的價(jià)值越來越低了。我已經(jīng)過了看遍青山的階段。
03 我們要做些什么準(zhǔn)備
思考框架
我們要去判斷這次技術(shù)浪潮帶來的改變,基于變化決定我們要做什么準(zhǔn)備
- 生產(chǎn)力的飛躍,帶來生產(chǎn)效率的提升,重復(fù)性工作消亡,并產(chǎn)生更廣闊的生產(chǎn)范圍
- 生產(chǎn)力飛躍帶來的認(rèn)知錯(cuò)亂,觀念建立就被打破,認(rèn)知共識(shí)后就被拋棄
- 生產(chǎn)力與生產(chǎn)關(guān)系不適配時(shí)產(chǎn)生的陣痛,包括勞動(dòng)力市場(chǎng)、人文思潮、經(jīng)濟(jì)變化
表層知識(shí)
1. 擁抱UGA元年
在這里,讓我創(chuàng)造一個(gè)詞語:UGA,User Generated application,區(qū)別于UGC。
現(xiàn)在越來越多的趨勢(shì)表明,LLM的輻射范圍不僅僅局限在內(nèi)容創(chuàng)作領(lǐng)域,更包括應(yīng)用創(chuàng)作領(lǐng)域,OpenAI接口的易用性,Github Copilot、Microsoft Power platform的發(fā)布都證明這一點(diǎn)。
以下是一個(gè)APP搭建過程中的一些必要?jiǎng)趧?dòng):
- 原型圖/設(shè)計(jì)稿/宣傳畫:AI繪畫工具搞定
- 后端/算法/前端:開源框架/Github Cpilot/Microsoft Power platform搞定
- 數(shù)據(jù):LLM生成搞定
- 運(yùn)營:好吧好像暫時(shí)還得我自己來
所以你需要做的第一件事是,開始你的創(chuàng)意,并用各種工具努力去把它做出來,不要管他多丑陋、多無聊,開始才是最重要的。
2. 找本質(zhì),先驗(yàn)勝于后驗(yàn)
在LLM盛行的未來,表層知識(shí)的價(jià)值會(huì)越來越低,有史可證:
在沒有搜索引擎的時(shí)候,我們會(huì)記錄所有知識(shí),有了搜索引擎后,知識(shí)隨用隨取。
而LLM時(shí)代,他比搜索引擎更進(jìn)一步,能夠幫我們更高效,更匹配地找到所需知識(shí)。
那么當(dāng)LLM落地到手機(jī)端甚至VR端的未來,你不僅在電腦面前無所不知,而是隨時(shí)隨地?zé)o所不知了。
在這種情況下,你最稀缺的能力就是更本質(zhì),更先驗(yàn)的底層思考框架,就像OpenAI的他們的目標(biāo)一樣——始終找到更優(yōu)雅的理解這個(gè)世界的方式。
3. 保持好奇心,但做好信息管理
飛速變化的世界,會(huì)有非常多的信息涌進(jìn)來,在這方面,我以個(gè)人的經(jīng)驗(yàn)給一些建議:
- 第一,挑選你的信源。這里要注意你的信源是跟隨你的成長而變化的,有些作者在你初期會(huì)覺得很有幫助,但隨著你的自我迭代,他們理應(yīng)是從信源被移出的——這就是你已經(jīng)平視甚至俯視他了。永遠(yuǎn)不要覺得“萬一他發(fā)了一些有用的怎么辦?”,注意力是非常珍貴的,果斷、勇敢下手干掉!移出關(guān)注,不看朋友圈,取消訂閱!
- 第二,做高效飛速的閱讀。我的閱讀習(xí)慣是,先從頂部到尾部快速瀏覽一遍,根據(jù)標(biāo)題或關(guān)鍵字判斷內(nèi)容質(zhì)量,然后再判斷是否值得深入閱讀。所以英文世界其實(shí)對(duì)我很不友好,我不是不能讀英文,但是我的語言水平?jīng)]有到一目十行的地步……這個(gè)時(shí)候就用一些語言翻譯工具吧。從這個(gè)角度來說——文字,其實(shí)也是視覺模態(tài)。
- 第三,做有輸入的閱讀。我現(xiàn)在基本不在移動(dòng)端閱讀,移動(dòng)端用來做過濾篩選,我會(huì)通過第二點(diǎn)中的方法判斷信息質(zhì)量,然后轉(zhuǎn)發(fā)到稍后閱讀。當(dāng)天在PC端進(jìn)行掃貨,然后轉(zhuǎn)譯摘要,記錄到flomo中。如果讀過而不提取精華,那么本質(zhì)和收藏是沒有區(qū)別的。
4.擁抱不可控性
很多人問我,AI產(chǎn)品經(jīng)理有別于其他行業(yè)產(chǎn)品的本質(zhì)區(qū)別是什么。
我的觀點(diǎn)發(fā)表在AIGC之我見 Vol.12,到目前都沒有變過:“技術(shù)理解,商業(yè)判斷,產(chǎn)品設(shè)計(jì)這些都是產(chǎn)品的基本功,不會(huì)因?yàn)樗茿I產(chǎn)品就有本質(zhì)上的區(qū)別。AI產(chǎn)品經(jīng)理最大的本質(zhì)區(qū)別在于對(duì)不可控性的控制,他手里的工具在技術(shù)、市場(chǎng)、效果等各方面都呈現(xiàn)出極大的不可控性,而產(chǎn)品經(jīng)理最核心的能力就是控制它,在起伏的海浪中尋找One piece”
現(xiàn)在將這句話送給讀到這里的各位,現(xiàn)在這不僅是AI產(chǎn)品經(jīng)理的核心能力了,也是這場(chǎng)時(shí)代風(fēng)暴下所有人應(yīng)當(dāng)共有的能力。
本文由@馬丁的面包屑 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
寫得不錯(cuò)
大佬方便的話加個(gè)微信18357040465一起交流溝通,我是全棧工程師,一直在關(guān)注LLM領(lǐng)域的創(chuàng)業(yè)機(jī)會(huì)