字節(jié)大模型內(nèi)部賽馬,下一個爆款 or 燒錢深坑?
在人工智能技術(shù)的推動下,AI視頻和音樂生成領(lǐng)域正成為科技巨頭們爭奪的新戰(zhàn)場。本文將探索字節(jié)跳動在AI賽道上的探索之路,以及它能否在這場技術(shù)競賽中創(chuàng)造出下一個爆款產(chǎn)品。
今年最火的兩款全球AI產(chǎn)品,當(dāng)屬視頻生成大模型產(chǎn)品Sora和音樂生成大模型產(chǎn)品Suno。
今年4月,經(jīng)Suno爆改的周杰倫金曲《以父之名》和《夜曲》直接封神,在音樂界掀起了一股不小的波瀾。不少人認(rèn)為,這兩條賽道會催生出新的爆款產(chǎn)品,誰能夠拿下其中一條賽道,誰就能成為AI行業(yè)的王者。
兩款A(yù)I產(chǎn)品的火爆,迅速點燃了國內(nèi)大廠對這兩條賽道的爭奪戰(zhàn)。阿里發(fā)布了通義萬相AI視頻服務(wù),字節(jié)跳動發(fā)布了“PixelDance”,快手發(fā)布了視頻大模型產(chǎn)品“可靈”,QQ音樂、網(wǎng)易云音樂也發(fā)布了AI創(chuàng)作功能,而AI頭部公司的Minimax、生數(shù)科技、智譜AI也紛紛跟進(jìn)。
在這兩條熱門賽道中最不遺余力的當(dāng)屬字節(jié)。9月24日,火山引擎在深圳舉辦AI創(chuàng)新巡展上,發(fā)布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型,意味著字節(jié)正式宣告進(jìn)軍AI視頻生成賽道。
不僅如此,字節(jié)還在音樂生成賽道上,推出了Seed-Music音樂生成模型,并于今年7月推出了發(fā)布了全新版本的海綿音樂APP,主打“一鍵創(chuàng)作你的AI音樂”,這款產(chǎn)品也是字節(jié)AI音樂產(chǎn)品的代表作。
至此,字節(jié)完成了在AI視頻和AI音樂這兩條熱門賽道上的全布局。火力全開之下的字節(jié),能夠得償所愿嗎?
01 字節(jié)AI賽道創(chuàng)業(yè):試錯、內(nèi)部賽馬并舉
豆包視頻生成大模型的發(fā)布,是字節(jié)在AI領(lǐng)域的一次重磅亮相。
據(jù)火山引擎介紹,豆包視頻生成模型基于DiT架構(gòu),通過高效的DiT融合計算單元,讓視頻在大動態(tài)與運(yùn)鏡中自由切換,擁有變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多鏡頭語言能力。
而在此前視頻生成模型大多只能完成簡單指令,豆包視頻生成模型則能實現(xiàn)自然連貫的多拍動作與多主體復(fù)雜交互。例如,后者可以讓不同人物完成多個動作指令的互動,使人物樣貌、服裝細(xì)節(jié)甚至頭飾,在不同運(yùn)鏡下也保持一致,接近實拍效果。
基于豆包視頻生成大模型,字節(jié)內(nèi)部也推出了相關(guān)的具有AI視頻生產(chǎn)能力的產(chǎn)品,主要由兩個業(yè)務(wù)團(tuán)隊在推進(jìn),一個是豆包,一個是剪映,可以看做是內(nèi)部的一場賽馬。
豆包對外的產(chǎn)品是豆包APP,剪映則是即夢AI APP,兩者的底層技術(shù)都是使用的豆包視頻生成大模型,即夢使用的是豆包視頻生成大模型“PixelDance”。
兩款產(chǎn)品雖然都有著視頻生成能力,但即夢更具有代表性。
即夢的前身是Dreamina,是原字節(jié)跳動中國CEO、轉(zhuǎn)崗至剪映的業(yè)務(wù)負(fù)責(zé)人張楠的創(chuàng)業(yè)項目。剛上線之時,這僅僅是一個文生圖的創(chuàng)作產(chǎn)品。隨后,Dreamina瞄上了Sora的潛力,內(nèi)部基于PixelDance模型開始研發(fā)視頻生成能力,今年2月,Dreamina的視頻生成服務(wù)開啟對外測試。
今年5月,Dreamina改名即夢,宣布其AI作圖和AI視頻生成功能全量上線,并在抖音內(nèi)進(jìn)行大量投放。張楠更是在朋友圈轉(zhuǎn)發(fā),稱即夢剛剛上線,還有很多待優(yōu)化的地方。
音樂生成方面,海綿音樂APP則是字節(jié)的代表,這款產(chǎn)品是字節(jié)在AI賽道上試錯的一個典型案例。海綿音樂的前身是2022年2月的海綿樂隊APP。Tech星球了解到,這是字節(jié)內(nèi)部的一款創(chuàng)業(yè)項目,但這款產(chǎn)品誕生之初并不是奔著AI而去,而是服務(wù)于汽水音樂和抖音上對音樂編輯有所需求的用戶。
到了2022年底,隨著國內(nèi)AI浪潮出現(xiàn)后,海綿樂隊才開始轉(zhuǎn)向AI領(lǐng)域,并加入AI作曲能力,但此時的創(chuàng)作能力很一般,“因為此時的字節(jié),并沒有成體系的音樂生成大模型,海綿樂隊只能靠自己去摸索”,一位曾在海綿樂隊工作的員工向Tech星球表示。
2023年6月推出了新版本,主打哼唱成曲和伴奏制作,雖然在AI能力上仍不出眾,但對接下來的試錯和更新提供了經(jīng)驗。隨著豆包音樂生成模型的出現(xiàn),才讓海綿樂隊有了一戰(zhàn)之力,最終在今年7月,更名為海綿音樂,主攻AI音樂創(chuàng)作賽道。目前,已經(jīng)開始在各渠道進(jìn)行投放推廣。
需要注意的是,字節(jié)的AI產(chǎn)品在這兩條賽道上的發(fā)展并不是獨立,而是相互競爭。豆包、即夢在近期也開始推出音樂生成服務(wù),逐步滲透到AI音樂賽道,“競爭是無可避免的,誰都想成為爆款A(yù)I產(chǎn)品,誰都想成為或繼續(xù)保持在內(nèi)部的核心位置,這無疑需要AI產(chǎn)品更加具有綜合體驗”,即夢的一位運(yùn)營告訴Tech星球。
02 左手視頻,右手音樂
據(jù)七麥數(shù)據(jù)顯示,字節(jié)視頻生成APP即夢自今年8月上線以來,在iOS端的攝影與錄像(免費(fèi))榜單的排名逐漸上升,兩個月時間,已經(jīng)穩(wěn)定在前40的名次,安卓端,近30天日均下載量,為22978次。
借助抖音APP以及投放,即夢的視頻生成服務(wù)逐漸成為不少抖音創(chuàng)作者的首選。
但即夢并不滿足于此,今年8月,即夢開始在AI短劇領(lǐng)域的創(chuàng)作探索。聯(lián)合抖音、博納影業(yè)AIGMS制作中心出品并制作《三星堆:未來啟示錄》。即夢還在抖音內(nèi)發(fā)起了“即夢AI迷你劇場”的活動,支持AI短劇的創(chuàng)作。
截至9月,豆包大模型日均tokens使用量已經(jīng)超過1.3萬億,相比5月首次發(fā)布時猛增十倍,其中不乏即夢所作出的貢獻(xiàn)。
在商業(yè)模式上,即夢已推出會員體系,有79元單月、69元連續(xù)包月和659元包年的基礎(chǔ)會員等不同訂閱方式。具體來說,基礎(chǔ)會員每月可使用505個積分生成約2020張圖片或168個AI視頻。
有分析人士認(rèn)為,即夢目前的產(chǎn)品功能、商業(yè)模式聚焦于服務(wù)UGC(用戶生成內(nèi)容),與抖音的生態(tài)融合將是未來的發(fā)展重點。
相比于字節(jié)在視頻生成方面取得的成績,字節(jié)在音樂生成方面,目前仍然是不溫不火。七麥數(shù)據(jù)顯示,海綿音樂有著廣告投放,但并沒有在iOS端,取得排名,近30日日均下載量僅為15次。
音樂行業(yè)人士李磊認(rèn)為,雖然AI音樂很火,但好聽的AI歌曲創(chuàng)作多來自于專業(yè)人士,普通用戶對于AI音樂生成工具的使用門檻和學(xué)習(xí)成本也有一定的要求,如果工具過于復(fù)雜或難以使用,就會影響用戶的體驗和接受度。而且,用戶對AI音樂的接受度也需要時間來培養(yǎng)。
“字節(jié)在多個領(lǐng)域都有業(yè)務(wù)布局,在資源有限的情況下,公司需要在不同業(yè)務(wù)之間進(jìn)行資源分配和權(quán)衡。AI音樂生成領(lǐng)域雖然具有很大的發(fā)展?jié)摿?,但在前期需要大量的研發(fā)投入和市場推廣,相比于更加成熟的AI視頻,公司肯定更愿意加大對這一塊的力度投入”,一位汽水音樂的運(yùn)營小可告訴Tech星球。
03 下一個AI爆款,還是燒錢深坑
不可否認(rèn),AIGC(人工智能生成內(nèi)容)是一個巨大的市場,量子位智庫預(yù)計,2024年我國AIGC應(yīng)用市場規(guī)模達(dá)到200億。2030年,我國AIGC應(yīng)用將成為萬億規(guī)模市場,五年(2024-2028年)平均復(fù)合增長率超過30%。
目前,國內(nèi)在視頻生成模型方面,有優(yōu)勢的是快手和字節(jié)跳動,因為二者的業(yè)務(wù)離視頻更近,能夠待其視頻生成足夠優(yōu)秀之后會快速完成拉新,并帶動用戶體驗提升。
而背靠快手的視頻生成AI產(chǎn)品可靈,也成為了字節(jié)在AI視頻賽道上最有力的競爭者。
可靈的發(fā)展速度也很迅猛,今年8月的官方數(shù)據(jù)顯示,可靈累計生成視頻數(shù)量超過1600萬,不到2個月,可靈AI已有超過360萬用戶,累計生成3700萬個視頻和超過一億張圖片。
近日,快手副總裁、大模型團(tuán)隊負(fù)責(zé)人張迪宣布,可靈AI將內(nèi)測視頻人臉模型功能。該功能基于創(chuàng)新的ID保持能力,支持用戶自助訓(xùn)練人臉模型,完成訓(xùn)練后,可使用該模型進(jìn)行5秒至10秒的文生視頻。
此外,AI視頻生成技術(shù)研發(fā)成本高和周期長也是一個事實。據(jù)界面新聞報道,百度CEO李彥宏稱“百度不做Sora”后,有關(guān)“中國版Sora到底值不值得做”的話題,在微博、小紅書等社交媒體引發(fā)眾多爭論。
李彥宏在內(nèi)部講話中稱,Sora這種視頻生成模型的投入周期太長,10年、20年都可能拿不到業(yè)務(wù)收益,無論多火爆,百度都不去做。
AI音樂生成方面,版本正在快速迭代,字節(jié)仍需快馬加鞭。近日,AI音樂創(chuàng)作平臺Suno推出的一項創(chuàng)新功能——SunoScenes,允許用戶通過上傳照片和視頻作為提示詞,生成與之相匹配的30秒音樂。
而且,音樂數(shù)據(jù)的版權(quán)問題也是一個挑戰(zhàn)。獲取合法的音樂數(shù)據(jù),需要與版權(quán)方進(jìn)行合作,這可能會增加成本和難度。同時,音樂數(shù)據(jù)的質(zhì)量也參差不齊,如何篩選和整理高質(zhì)量的音樂數(shù)據(jù)用于模型訓(xùn)練是一個重要的問題。
文 | 陳橋輝
本文由人人都是產(chǎn)品經(jīng)理作者【Tech星球】,微信公眾號:【Tech星球】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!