智能原生應(yīng)用的腦、手、意

1 評(píng)論 2438 瀏覽 1 收藏 15 分鐘

AI原生應(yīng)用的特征以及作為引擎的大模型,我們?cè)撊绾味攘克欠裰悄??本文以一個(gè)假象場景,來看看當(dāng)中有哪些環(huán)節(jié)以及需要什么樣的智能,彼此之間的配比如何。

從《從手機(jī)App到AI原生應(yīng)用》開始我們其實(shí)寫了幾次AI原生應(yīng)用的特征以及作為引擎的大模型應(yīng)該如何進(jìn)行度量它到底智能不智能,到底能不能干點(diǎn)事了,但還是比較抽象,概念和邏輯的成分比較多。

所以這次我們按一個(gè)假象場景來完整舉一個(gè)例子,看下在這個(gè)過程中到底有哪些環(huán)節(jié),這些環(huán)節(jié)需要什么樣的智能,彼此間的配重又是什么樣子。

一、假如你想做自己的主播分身

之前我們提到過,AI應(yīng)用落地快慢可能和幻覺有益還是有害相關(guān),所以我們舉個(gè)離現(xiàn)實(shí)比較近,幻覺基本沒什么害處的例子。

假如你想開播了,但又不想自己上,而是做一個(gè)自己的數(shù)字代理或者說分身,那這個(gè)數(shù)字代理人真想取得效果都要搞定什么呢?(取得效果是指有人愿意看,有粉絲等)

首先是最基礎(chǔ)的產(chǎn)研部分:先打造自己的外殼,也就是形象要像那么回事,然后給它匹配上看、聽、說、想的能力(計(jì)算機(jī)的輸入輸出、存儲(chǔ)和CPU…)。這里面看、聽、說基本上是用過去十年反復(fù)打磨的技術(shù),比如圖像識(shí)別、語言識(shí)別、語音合成等,想的部分要基于大模型了,它來基于綜合各種輸入產(chǎn)生自己的輸出。當(dāng)程序員把這些都綜合連接起來,基本上就有一個(gè)數(shù)字分身,它能基于各種輸入做點(diǎn)反饋,做到這里基本上完成了手的部分,腦的部分屬于有了,但還不好使。

這時(shí)候即使導(dǎo)入了最好的大模型,它也還是一個(gè)很傻的Bot,別說取得效果,基本上就沒人會(huì)看完任何一個(gè)直播段落。這時(shí)候在單純的單點(diǎn)技術(shù)上使勁內(nèi)卷是沒前途的(包括大模型),那樣搞不定粉絲也搞不定留存,回報(bào)大致為0。

改善起來第一步肯定是希望能加入人格特征,讓它的性格特征和你更像,比如是不是對(duì)人友善、表達(dá)是不是犀利,也要社會(huì)一點(diǎn):會(huì)說話能聯(lián)絡(luò)感情等。這時(shí)候要盡可能記住過去和某個(gè)人說過什么。這部分不純粹是技術(shù),但技術(shù)相關(guān)性還是很高,通常需要找找過去干過的老司機(jī),純粹的干prompt估計(jì)搞不定。

這步是個(gè)檻,搞定了算通過圖靈測試1.0,別人分不出到底是不是你了,但現(xiàn)在其實(shí)搞不定這事,無邊界閑聊還行,限定到人格特征上表現(xiàn)就沒想的那么好。搞不定的情況下,會(huì)出現(xiàn)什么結(jié)果呢?看著有點(diǎn)智能有點(diǎn)像你的一個(gè)人,在那里叨叨,但毫無特色和趣味性。能不能吸引到粉絲呢?這要看你到底播什么了。我估計(jì)播動(dòng)物世界沒準(zhǔn)行,娛樂估計(jì)夠嗆。這是下面的話題,進(jìn)一步從技術(shù)進(jìn)步到產(chǎn)品。

通過圖靈測試1.0的智能產(chǎn)品已經(jīng)有用了,在這之前是純粹工具,在這之后就有點(diǎn)Agent的意思,但價(jià)值還沒想的那么大。

通過圖靈測試1.0這樣的一個(gè)數(shù)字分身有什么用呢?它好處是信息吞吐量大,不知疲憊,人模人樣;壞處是智能還是不夠,做不出很好的性格、才藝、出眾的觀點(diǎn)、有趣的隨機(jī)應(yīng)變等。那適合做什么事呢?它適合做內(nèi)容本身有趣,主播是配角的事。

那些事是這類的呢?比如播動(dòng)物世界、講故事、播新聞,偶爾穿插點(diǎn)互動(dòng)。

這是在干什么呢?是在縮減場景對(duì)智能的需求。智能供給不足就只能降級(jí)。那理想狀況是什么樣呢?

這本質(zhì)是一個(gè)更好用了的智能音箱(參照:大模型有能力打穿智能音箱/硬件的市場壁壘么?

理想狀況是這個(gè)數(shù)字分身還要能接入實(shí)時(shí)的熱點(diǎn),動(dòng)態(tài)的生成要輸出的內(nèi)容,比如圖片、視頻,然后做主播。這種熱點(diǎn)要匹配大家的關(guān)注點(diǎn),要新穎,要匹配平臺(tái)的規(guī)則,不單是正向的規(guī)則,還要把握好反向的尺度,否則會(huì)被抬走或者封殺。這部分會(huì)衍生非常多的細(xì)節(jié)工作,比如那個(gè)是現(xiàn)在主推的,這得跟著平臺(tái)走才行,否則你權(quán)重不好它不推你,不也白搭。對(duì)平臺(tái)這是個(gè)智能對(duì)智能的過程,但受眾這是個(gè)綜合分析的過程,對(duì)創(chuàng)作這是個(gè)創(chuàng)意創(chuàng)新的過程。這事能干了,算是通過圖靈測試2.0,一旦過了至少可以和人類二分天下。

過不了,比如不管內(nèi)容的時(shí)效或者不管平臺(tái)熱點(diǎn)的捕捉,就都還是干半截活!是智能供給不足。這部分如果成功,那基本上可以有粉絲了。到這里也才算是腦子長成,并且培養(yǎng)出了自己的風(fēng)格(意)

假設(shè)這能做到了,就完了么?

還沒有。這些都搞完了,主要解決了硅基智能和硅基智能的關(guān)系,相當(dāng)于能夠比較匹配平臺(tái)的規(guī)則和現(xiàn)實(shí)的熱點(diǎn)。

郭德綱捧人的主要方法就是反復(fù)提這個(gè)人。你做主播如果有人拉扯顯然效果會(huì)更好。那和誰合作,怎么合作還是需要人去做。把這個(gè)場景全覆蓋了,才算真正的你的代理。

從這個(gè)視角看現(xiàn)在能完成的百分之三十不到。更何況這只是一個(gè)相對(duì)簡單的C端場景,B端場景比這個(gè)要復(fù)雜的多。

(全是這造型的話,最開始還行,時(shí)間長了自己就得能顛覆自己,否則就可能還不如獅子吸引人,這種邏輯的理解其實(shí)很挑戰(zhàn)通過了圖靈測試2.0的只能分身)

二、AI的悖論

往深處挖掘,在上面這個(gè)過程中有幾個(gè)典型的悖論:

第一個(gè)悖論是越極化技術(shù),離產(chǎn)生效果越遠(yuǎn)。在整個(gè)過程里技術(shù)最關(guān)鍵,但最核心的部分絕大多數(shù)人得對(duì)外部形成依賴。在具體場景邊界內(nèi)判斷OpenAI等能干到什么程度是最關(guān)鍵的尺度判斷。這時(shí)候純粹技術(shù)背景的同學(xué)容易擼起袖子自己上,但在這個(gè)局部上投入越大,你在別的部分的精力就越少,然后效果就出不來。上面的產(chǎn)品要想達(dá)成PMF,顯然不是就算法能搞定的,而是要在清楚算法限度的前提下,內(nèi)外的融合來回折騰。知道平臺(tái),社會(huì)現(xiàn)實(shí),然后把有限且成熟的技術(shù)力量投過去,變成自己的產(chǎn)品力量(只有產(chǎn)品的力量用戶可感知)。價(jià)值只可能在外部創(chuàng)造。這就是悖論,技術(shù)是第一驅(qū)動(dòng),但你極化它的話,會(huì)死的很慘。(純做模型不是這邏輯,但大部分其實(shí)是看模型的熱鬧,不真的有做模型的機(jī)會(huì))

第二個(gè)悖論可以叫只有獅子才能生存,但其實(shí)不是獅子。

上面這樣的產(chǎn)品注定依賴于大量的技術(shù)供應(yīng)鏈,除了極大的大廠,沒人能全部搞定各個(gè)環(huán)節(jié),不管是大的算法、云服務(wù)還是小的平臺(tái)數(shù)據(jù)分析(沒有平臺(tái)的反饋數(shù)據(jù)你根本不知道下面要干啥),投流策略等。這意味著做AI的產(chǎn)品越來越只能做總成。Agent其實(shí)就是總成,平均算算一個(gè)Agent可能需要10家以上的技術(shù)供應(yīng)商。這時(shí)候作為團(tuán)隊(duì)你個(gè)頭是大的,至少消耗是大的,也就意味著你就需要捕食大的獵物才能活下來。這就很悖論,要用很小的團(tuán)隊(duì)撬動(dòng)綜合度非常高的事情,就必須精英化,否則肯定干不好。這可以拿非洲大草原的動(dòng)物做個(gè)類比:胡狼啥都吃,個(gè)頭也小,撿撿剩肉也能對(duì)付;鬣狗和野狗就吃的比較多,但單兵戰(zhàn)斗力差就只能成群結(jié)隊(duì)才可能干倒水牛,欺負(fù)落單豹子什么的,但就不能挑食;獅子在食物鏈最頂端吃的又多,那就必須戰(zhàn)斗力爆表,最怕就是獅子的胃口但胡狼的戰(zhàn)斗力。

做很多小工具很像胡狼吃吃也就飽了,沒那么多肉但也能活的還不錯(cuò)。

Agent就不行,這地兒確實(shí)有肉,但就像大水牛一樣,不是比較猛的獅子根本拿不下,但大部分團(tuán)隊(duì)早期怎么可能是獅子,所以做起來就擰巴。

三、 智能原生的尺度

假如跨越了這些障礙,也成功搞定了數(shù)字分身,那我們回頭看看,在這樣一種產(chǎn)品上取得效果,關(guān)鍵的節(jié)點(diǎn)有那些。

第一個(gè)顯然得像,不管是聲音還是形象。這就是做殼,殼要做不好后面的就不要說了。這事現(xiàn)在做的七七八八,就是貴和便宜的區(qū)別。這部分最具體,確實(shí)可以用很多指標(biāo)來衡量。

第二就是擬人。即使不出彩,好歹要沒那么傻。這里對(duì)應(yīng)的標(biāo)準(zhǔn)就是老的圖靈測試。

第三就是在標(biāo)定場景下的智能。核心的判斷標(biāo)準(zhǔn)其實(shí)是圖靈測試2.0。不是閑聊天而是真的在一個(gè)場景下,從分析到性格到價(jià)值標(biāo)準(zhǔn)到表達(dá)能頂一個(gè)人。這事其實(shí)遠(yuǎn)遠(yuǎn)搞不定。搞不定就只能打折,退化后商業(yè)價(jià)值也就縮小。

第四則是管理智能。這個(gè)更復(fù)雜,但前面如果搞定必然遞進(jìn)到這里,因?yàn)轱@然能搞定一個(gè)Agent任何一個(gè)團(tuán)隊(duì)就絕不會(huì)只搞定一個(gè)。而每一個(gè)Agent都產(chǎn)生大量的信息,這種信息的膨脹根本不是人所能管理的,想像下一個(gè)公司里的人能管理5000萬主播么?這時(shí)候就需要一個(gè)把所有Agent都管理起來的系統(tǒng)。這個(gè)系統(tǒng)的良性運(yùn)轉(zhuǎn)又需要提供足夠充分的數(shù)據(jù)。兩者互相促進(jìn),最終就會(huì)變成智能原生的組織和智能原生的系統(tǒng)。最終走到這里是曲折的,但只要Agent大量產(chǎn)生,就必然會(huì)這樣。那時(shí)候人會(huì)退到管理智能的背后。

在這過程里面圖靈測試2.0承上啟下。

在當(dāng)前這個(gè)階段,最適合的其實(shí)就是用圖靈測試2.0的視角,持續(xù)觀察各個(gè)場景,要確切的知道最先進(jìn)的AI技術(shù)到底能不能通過這個(gè)場景的測試。一旦通過,那就可以做事了。

在這里場景的邊界既是一個(gè)商業(yè)判斷也是一個(gè)技術(shù)判斷。

小結(jié)

在過去我們一度這么區(qū)分整個(gè)軟件產(chǎn)品的架構(gòu):最底層是操作系統(tǒng)等基礎(chǔ)設(shè)施,在上面是數(shù)據(jù)庫等,再上面才是各種應(yīng)用。有趣的是各種工具雖然小,比如壓縮軟件,嚴(yán)格劃分其實(shí)應(yīng)該在操作系統(tǒng)這里。與此類比,大模型以及各種工具其實(shí)在操作系統(tǒng)那個(gè)位置,上面我們說的則是應(yīng)用的邏輯,不適合做模型的情況。

這種應(yīng)用在過去二十年間其實(shí)更迭了三次:一次是伴隨著Win95開始的Windows應(yīng)用,比如現(xiàn)在可能還有人在用的Foxmail和視頻播放器都是這時(shí)候的產(chǎn)物;一次則伴隨著PC互聯(lián)網(wǎng),比如當(dāng)年的Discuz;一次則是大家都熟悉的手機(jī)APP。上面說的智能原生應(yīng)用看著和前面這些還是非常不同,可能構(gòu)成新的更迭。

專欄作家

琢磨事,微信公眾號(hào):琢磨事,人人都是產(chǎn)品經(jīng)理專欄作家。聲智科技副總裁。著有《終極復(fù)制:人工智能將如何推動(dòng)社會(huì)巨變》、《完美軟件開發(fā):方法與邏輯》、《互聯(lián)網(wǎng)+時(shí)代的7個(gè)引爆點(diǎn)》等書。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 咩咩……

    來自廣東 回復(fù)