字節(jié)為AI埋下了三條主線
此前被熱議的豆包留存問(wèn)題,豆包助手與即夢(mèng)在字節(jié)內(nèi)部戰(zhàn)略優(yōu)先級(jí)變化的討論,答案都在三條主線搭建的立體框架里。
過(guò)去兩年中,字節(jié)在AI領(lǐng)域展現(xiàn)出了強(qiáng)勢(shì)的投入決心、靈活的組織能力和積極的產(chǎn)品策略,從一個(gè)起步遲緩的追趕者,快速轉(zhuǎn)變成為一家在大模型領(lǐng)域中布局全面、進(jìn)展迅速的領(lǐng)先者。
梳理字節(jié)在AI領(lǐng)域的動(dòng)作可以發(fā)現(xiàn),基礎(chǔ)大模型、通用助手和AI應(yīng)用三個(gè)方向上的探索,共同為其構(gòu)建了一個(gè)立體的AI發(fā)展框架。
首先,在基礎(chǔ)大模型領(lǐng)域,字節(jié)旗下的豆包大模型在通用語(yǔ)言、視頻生成、語(yǔ)音對(duì)話、視覺(jué)理解等方面建立了比較完備的能力組合。其次,在通用助手方面,豆包已經(jīng)成為僅次于ChatGPT的助手類(lèi)應(yīng)用,日活躍用戶數(shù)接近900萬(wàn)。最后,在應(yīng)用領(lǐng)域,字節(jié)推出了多個(gè)AI應(yīng)用,其中即夢(mèng)被認(rèn)為正在承擔(dān)起成為AI時(shí)代「抖音」的重任。
這個(gè)框架下,我們可以嘗試為字節(jié)AI業(yè)務(wù)的發(fā)展描摹出一個(gè)更具體的「兩橫多縱」發(fā)展格局,為多樣化的AI業(yè)務(wù)嘗試找到字節(jié)體系內(nèi)的站位,為此前圍繞豆包助手與即夢(mèng)在字節(jié)內(nèi)部戰(zhàn)略優(yōu)先級(jí)變化的討論,提供新的判斷邏輯:
字節(jié)AI的兩橫多縱格局
基礎(chǔ)大模型以及與之相配合的AI應(yīng)用開(kāi)發(fā)平臺(tái)扣子為自身的通用助手、應(yīng)用開(kāi)發(fā)提供能力支持的同時(shí),還能依托火山引擎的算力支撐和云服務(wù),幫助更多企業(yè)AI化自己的產(chǎn)品與服務(wù)。
通用助手和作為載體的AI硬件形成了一個(gè)滿足用戶獲取基礎(chǔ)信息和服務(wù)需求的入口,這是一種更底層的、連接B端與C端需求的能力。應(yīng)用則聚焦視頻、音樂(lè)、教育、社交等場(chǎng)景,承接不能被通用助手滿足的深度需求。
具體來(lái)說(shuō),位于應(yīng)用方向的即夢(mèng)事實(shí)上承擔(dān)了字節(jié)的防守職責(zé),面對(duì)AI給視頻創(chuàng)作、分享帶來(lái)的沖擊,探索延續(xù)字節(jié)在視頻領(lǐng)域優(yōu)勢(shì)的可能性。而豆包大模型家族和豆包助手則承擔(dān)了字節(jié)向B端、向底層尋求突破的進(jìn)攻任務(wù)——這也是字節(jié)在移動(dòng)互聯(lián)網(wǎng)階段積極嘗試,卻沒(méi)有獲得理想成果的領(lǐng)域。
Google的2025年戰(zhàn)略會(huì)議上,CEO Sundar Pichai表示,這是至關(guān)重要的一年,必須全力以赴,尋求建立AI領(lǐng)域的絕對(duì)領(lǐng)先優(yōu)勢(shì)。這句話說(shuō)出了很多大廠的心聲,其中也一定包括字節(jié)。
進(jìn)入2025年,調(diào)整好進(jìn)攻姿態(tài)的字節(jié),將會(huì)展現(xiàn)出更兇猛的攻勢(shì),嘗試構(gòu)建自身在AI領(lǐng)域的統(tǒng)治力。浙商證券在研報(bào)中指出,字節(jié)2024年在AI上投入巨大,資本開(kāi)支達(dá)到800億元,2025年這個(gè)數(shù)據(jù)預(yù)計(jì)會(huì)達(dá)到1600億。字節(jié)旗下的AI音樂(lè)創(chuàng)作產(chǎn)品海綿音樂(lè)也贊助了東方衛(wèi)視今年的跨年晚會(huì)。
放長(zhǎng)遠(yuǎn)來(lái)看,AI賦予字節(jié)的最大憧憬并不是打造出多少個(gè)AI時(shí)代的爆款應(yīng)用,而是一個(gè)突破自我、重新確定生態(tài)位的機(jī)會(huì)。
一、豐富的模型能力是基礎(chǔ)
豆包大模型家族是字節(jié)在AI時(shí)代的根基所在。豐富的模型能力不僅能夠支撐字節(jié)在通用助手和AI應(yīng)用領(lǐng)域的嘗試,維持字節(jié)在C端的影響力,還能吸引更多B端客戶依托豆包大模型來(lái)創(chuàng)造或重構(gòu)AI時(shí)代的場(chǎng)景服務(wù)能力,為字節(jié)在to B業(yè)務(wù)上創(chuàng)造更大發(fā)展空間。
過(guò)去一年,豆包大模型家族在通用模型、視頻生成模型、視覺(jué)理解模型、3D生成模型、音樂(lè)生成模型、代碼大模型等方向上都實(shí)現(xiàn)了快速開(kāi)發(fā)與迭代?;鹕揭婵偛米T待表示,很多用戶在使用豆包大模型過(guò)程中獲得的最大驚喜,不僅來(lái)自模型效果好,還來(lái)自迭代速度快。
2024年12月舉辦的火山引擎Force冬季大會(huì)上,豆包大模型的能力進(jìn)一步得到了提升。通用模型Doubao-Pro的理解精度和生成質(zhì)量較5月和8月發(fā)布的版本有了大幅提升。豆包視覺(jué)理解模型能夠識(shí)別和理解動(dòng)物影子、雜志上印刷的星云和個(gè)人的體檢報(bào)告,音樂(lè)模型已經(jīng)可以創(chuàng)作3分鐘時(shí)長(zhǎng)的音樂(lè)。
就像李想在與騰訊新聞的對(duì)談中所說(shuō),基座模型是人工智能時(shí)代的操作系統(tǒng)+編程語(yǔ)言。企業(yè)要做的就是將模型的各種能力編寫(xiě)成符合場(chǎng)景需求的AI應(yīng)用。不斷豐富、增強(qiáng)的模型能力,會(huì)讓火山引擎擁有一塊好用的敲門(mén)磚,幫助其滲入到更多商業(yè)化場(chǎng)景中。
火山引擎公布的數(shù)據(jù)顯示:在信息處理場(chǎng)景,最近3個(gè)月豆包的調(diào)用量增長(zhǎng)了39倍;在客服與銷(xiāo)售場(chǎng)景,調(diào)用量增長(zhǎng)16倍;在硬件終端場(chǎng)景,調(diào)用量增長(zhǎng)了13倍;在AI工具場(chǎng)景,豆包調(diào)用量增長(zhǎng)了9倍。
企業(yè)對(duì)基礎(chǔ)模型的需求增長(zhǎng),給火山引擎帶來(lái)了新的增長(zhǎng)機(jī)會(huì),讓其有志成為AI云原生的領(lǐng)軍企業(yè)。一方面,火山引擎會(huì)擴(kuò)大規(guī)模優(yōu)勢(shì),通過(guò)規(guī)模大、彈性高、成本便宜,吸引企業(yè)進(jìn)行遷移。另一方面,可以抓住大模型帶來(lái)的技術(shù)變革機(jī)遇,通過(guò)豆包大模型獲得更多關(guān)注和新的合作機(jī)會(huì)。
面向Agent的探索,會(huì)是豆包大模型在2025年的一個(gè)突破方向。隨著能力邊界的拓展,在語(yǔ)言能力上疊加了視覺(jué)理解、深度推理能力的大模型開(kāi)始有能力處理更加復(fù)雜的任務(wù)。在很多關(guān)于2025年的預(yù)測(cè)中,都將「具備代理執(zhí)行能力的Agent」視為一項(xiàng)重要的內(nèi)容。
譚待也表示,如果一個(gè)Agent能夠幫助人們寫(xiě)一首打油詩(shī),它的價(jià)值就不大,但如果能夠幫助人完成完整的作業(yè)輔導(dǎo)過(guò)程,就會(huì)帶來(lái)更大的價(jià)值。未來(lái)會(huì)有越來(lái)越多的企業(yè)依賴基礎(chǔ)大模型構(gòu)建自己Agent化的場(chǎng)景服務(wù),每一個(gè)Agent都是一項(xiàng)高度集成的能力組合。
不斷進(jìn)化的大模型能力支撐下,走向成熟的Agent很可能會(huì)徹底推開(kāi)AI應(yīng)用時(shí)代的大門(mén)。字節(jié)如果能憑借豆包大模型、扣子和云服務(wù)基礎(chǔ)抓住這扇門(mén)開(kāi)啟的機(jī)會(huì),就有很大可能填補(bǔ)上作為to B領(lǐng)域后來(lái)者的短板,給B端客戶選擇字節(jié)的云服務(wù)提供更多籌碼。
二、工具化的助手正在成為連接器
同時(shí),作為能力底座的基礎(chǔ)大模型打破了移動(dòng)互聯(lián)網(wǎng)時(shí)代C端與B端的界限。譚待認(rèn)為,「大模型的C端和B端背后其實(shí)都是同一個(gè)東西,就是那個(gè)模型本身,因?yàn)樗械哪芰Χ际莾?nèi)化到其中了?!惯@意味著,依托基礎(chǔ)大模型能力進(jìn)行的場(chǎng)景AI化實(shí)踐,未來(lái)有可能會(huì)被聚合到一個(gè)跨越C端與B端的門(mén)戶中。
目前看來(lái),通用助手更有可能成為這個(gè)在基礎(chǔ)大模型之上,負(fù)責(zé)連接一切需求與能力、虛擬與現(xiàn)實(shí)的門(mén)戶,也是一個(gè)像移動(dòng)互聯(lián)網(wǎng)時(shí)代的微信、Google搜索一樣的超級(jí)入口。如果豆包助手能夠成為這個(gè)門(mén)戶,那字節(jié)就擁有了在移動(dòng)互聯(lián)網(wǎng)時(shí)代幾番追求而不得的更為底層的入口。
就像公眾號(hào)《信息平權(quán)》在文章中分析的:過(guò)去,字節(jié)的邊界局限于頭條和抖音,圖文和短視頻信息流為主要形態(tài),基于此去拓展商業(yè)化,發(fā)現(xiàn)即便是帝國(guó)也有邊界。而AI有潛力成為字節(jié)拓展其邊界的抓手,可與千行百業(yè)、線上線下、軟件硬件鏈接。
也正是在「掌控新一代超級(jí)入口」的誘惑下,做搜索引擎的Google與做新能源汽車(chē)的理想,都將AI助手視為未來(lái)業(yè)務(wù)的關(guān)鍵點(diǎn)。
Pichai將Gemini應(yīng)用升級(jí),確定為Google實(shí)施全面領(lǐng)先戰(zhàn)略的關(guān)鍵支柱之一。Google認(rèn)為,Gemini不僅是一個(gè)聊天機(jī)器人,更是一個(gè)具有多種功能的AI工具,是未來(lái)業(yè)務(wù)增長(zhǎng)的重要引擎。
在李想看來(lái),助手還處在非常初期的階段,大家如今在做的種種嘗試,都是想將AGI的L3階段的門(mén)票拿在手里。所謂的AGI的L3階段,就是人人可用的to C智能體出現(xiàn)。
誰(shuí)能在B端整合更多能力,創(chuàng)造出更多Agents,同時(shí)在C端連接更多用戶,誰(shuí)就可能在圍繞通用助手進(jìn)行的入口之爭(zhēng)中,建立更大的優(yōu)勢(shì)。
豆包助手之于字節(jié)的重要性,與Gemini之于Google一樣,要遠(yuǎn)高于聊天機(jī)器人的價(jià)值。
《智能涌現(xiàn)》接觸到的知情人士表示,豆包助手目前的用戶互動(dòng)時(shí)長(zhǎng)、互動(dòng)輪次都不算高,且在過(guò)去一年中增長(zhǎng)幅度不明顯,有管理層提出,這種基于文本的對(duì)話類(lèi)產(chǎn)品,大概率不是最理想的產(chǎn)品形態(tài)。但我們認(rèn)為,這依然是站在聊天機(jī)器人的定位上,對(duì)豆包助手作出的評(píng)價(jià)和判斷。
聊天機(jī)器人只是豆包助手的一項(xiàng)能力,隨著連接的不斷豐富,字節(jié)大概率會(huì)為豆包助手會(huì)在聊天之外,注入更加豐富的能力,讓其向Agents階段邁進(jìn)。
一方面,豆包助手會(huì)繼續(xù)整合視頻生成、視頻理解等大模型的創(chuàng)新成果,拓展基礎(chǔ)能力的邊界。這一點(diǎn)在不久前豆包助手電腦版的更新上有比較明確的體現(xiàn)。相比之前的版本,新版的豆包助手電腦版變成了一款具備AI搜索、視頻生成、文本創(chuàng)作、圖像生成能力的工具集合。
另一方面,按照量子位智庫(kù)的統(tǒng)計(jì),豆包助手累計(jì)用戶數(shù)超過(guò)1.6億。豆包助手還能以領(lǐng)先的用戶體量,吸引更多樣的Agent融入其中,提升自身處理復(fù)雜任務(wù)的能力。我們的一個(gè)判斷是,在用戶拉新之后,未來(lái)服務(wù)和能力的豐富度,將在很大程度上決定通用助手的用戶留存能力。
作為能力合集和需求連接器的通用助手,會(huì)更傾向于即用即走的用戶使用習(xí)慣,而不是注重用戶時(shí)長(zhǎng)的殺時(shí)間邏輯。豆包戰(zhàn)略研究負(fù)責(zé)人周昊認(rèn)為,對(duì)于大模型產(chǎn)品,好像很難定義哪一個(gè)是「最關(guān)鍵的用戶需求」。因?yàn)樗焐褪且粋€(gè)通用型產(chǎn)品,每個(gè)用戶打開(kāi)它時(shí),想要解決的問(wèn)題都不一樣。
因此,豆包助手要做的是,滿足好不同用戶在不同場(chǎng)景下的需求,依靠無(wú)縫連接的交互方式,陪伴用戶度過(guò)每一個(gè)需要知識(shí)和幫助的時(shí)刻。豆包助手此前給到大家的印象會(huì)更接近于一款有趣的AI社交產(chǎn)品,但從字節(jié)的戰(zhàn)略發(fā)展需求上看,豆包助手需要扮演多面手的角色,甚至擁有像Ola Friend一樣的AI硬件軀體。
三、AI應(yīng)用滿足更深度的需求
相較于通用助手,AI應(yīng)用滿足的是用戶在某個(gè)領(lǐng)域或場(chǎng)景中更深度的需求。簡(jiǎn)單來(lái)說(shuō),前者像前臺(tái)客服,匯聚全面需求,并負(fù)責(zé)解決常見(jiàn)需求,后者則是后臺(tái)工程師,負(fù)責(zé)解決更為專(zhuān)業(yè)、棘手的問(wèn)題。字節(jié)旗下的抖音、剪映、今日頭條等產(chǎn)品都屬于后者。
在AI時(shí)代,抖音、剪映、今日頭條等應(yīng)用的能力會(huì)被進(jìn)一步打散,一部分視頻內(nèi)容可以直接在豆包助手內(nèi)獲取和呈現(xiàn),簡(jiǎn)單的圖片、視頻編輯能力也能夠在AI助手中得以實(shí)現(xiàn)。但是,也依然會(huì)有相應(yīng)的AI應(yīng)用存在,為重度用戶提供場(chǎng)景化的服務(wù),比如刷視頻、社交的需求,很難單純依靠豆包助手得到滿足。
未來(lái),基礎(chǔ)大模型+通用助手,可能會(huì)成為字節(jié)App工廠的新一代能力池和流量池。這個(gè)基礎(chǔ)上,新的AI應(yīng)用能夠被不斷地孵化出來(lái)。
但目前,這個(gè)基礎(chǔ)并不成熟,字節(jié)目前的AI應(yīng)用還是在依托抖音流量實(shí)現(xiàn)成長(zhǎng),沒(méi)有完成面向AI時(shí)代的模式切換。這也給我們理解通用助手和AI應(yīng)用的關(guān)系帶來(lái)了干擾。
《智能涌現(xiàn)》的報(bào)道中,字節(jié)管理層有人提出,長(zhǎng)期看,需要找到更低門(mén)檻、更「多模態(tài)」的產(chǎn)品形式,剪映和即夢(mèng)可能是合適的入口。但是,它在本質(zhì)上與貓箱、豆包愛(ài)學(xué)、海綿音樂(lè)等產(chǎn)品一樣,是一個(gè)面向垂直領(lǐng)域的產(chǎn)品,即便是疊加上世界模型的期待,也很難成為更底層的入口。
在剪映業(yè)務(wù)負(fù)責(zé)人張楠的介紹中,抖音是一個(gè)「真實(shí)世界」的相機(jī),而即夢(mèng)希望借助生成式AI技術(shù),成為想象力世界的相機(jī),記錄每個(gè)人的奇思妙想,幫助每個(gè)有想法的人輕松表達(dá)、自由創(chuàng)作。同時(shí),即夢(mèng)也在從AI工具出發(fā),嘗試孵化關(guān)于AI內(nèi)容的社區(qū)。
即夢(mèng)的發(fā)展路徑與抖音高度相似,都是從降低用戶的創(chuàng)作門(mén)檻出發(fā),在不斷擴(kuò)大的創(chuàng)作者群體推動(dòng)下,形成一個(gè)內(nèi)容平臺(tái)。即夢(mèng)App內(nèi)的短片一欄,就是一個(gè)與抖音相似的刷視頻的界面,只不過(guò)用戶在這里刷到的都是利用大模型創(chuàng)作的AI視頻內(nèi)容。有用戶僅發(fā)布過(guò)一個(gè)視頻,已經(jīng)獲得了146個(gè)贊。
視頻確實(shí)是實(shí)現(xiàn)自然交互必不可少的一塊拼圖。但我們認(rèn)為,這里的視頻更多是指通過(guò)攝像頭理解世界的能力,可以被集成在手機(jī)、電腦、眼鏡、機(jī)器人等硬件設(shè)備中,幫助人與機(jī)器更順暢地交流;而不是即夢(mèng)所代表的發(fā)揮想象,創(chuàng)造視頻內(nèi)容的能力,讓人們一直待在虛擬世界中的能力。
字節(jié)在AI時(shí)代的布局目前呈現(xiàn)出了兩橫多縱的形態(tài)。豆包大模型和豆包助手是兩橫,即夢(mèng)、豆包愛(ài)學(xué)、海綿音樂(lè)是多縱。還是類(lèi)比移動(dòng)互聯(lián)網(wǎng)時(shí)代,微信是一橫,而抖音體量再大,也僅是代表視頻領(lǐng)域的一縱。
如果豆包大模型是字節(jié)準(zhǔn)備的操作系統(tǒng)和編程語(yǔ)言,那么豆包助手會(huì)是設(shè)備的桌面,即夢(mèng)是在這個(gè)桌面上的一個(gè)視頻領(lǐng)域的應(yīng)用。
同樣的,豆包愛(ài)學(xué)、海綿音樂(lè)、貓箱可以看作字節(jié)在教育、音樂(lè)、社交等領(lǐng)域推出的AI時(shí)代的應(yīng)用。頭頂「App工廠」頭銜的字節(jié),在AI時(shí)代仍在延續(xù)自己對(duì)關(guān)鍵垂直領(lǐng)域的產(chǎn)品嘗試,未來(lái)我們也可能會(huì)在健康、游戲等領(lǐng)域看到字節(jié)推出的AI應(yīng)用。
正如Google談及2025年時(shí),Pichai認(rèn)為這是一個(gè)顛覆性時(shí)刻,賭注從未如此之高。其實(shí),包括字節(jié)在內(nèi),站在大模型牌桌上的企業(yè),都在下注去賭一個(gè)更長(zhǎng)遠(yuǎn)的未來(lái),大家需要比的是,口袋夠不夠深,眼光夠不夠毒,定力夠不夠足,運(yùn)氣夠不夠好,以及戰(zhàn)略框架是否明確。
作者 | 李威(北京)
本文由人人都是產(chǎn)品經(jīng)理作者【窄播】,微信公眾號(hào):【窄播】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!