上手試了快手的視頻AI,我發(fā)現(xiàn)它竟然有點(diǎn)領(lǐng)先。。。
本文深入體驗(yàn)并分析了快手推出的視頻AI技術(shù)——可靈AI,與市場(chǎng)上其他同類(lèi)產(chǎn)品如Sora進(jìn)行了對(duì)比。文章通過(guò)實(shí)際測(cè)試案例,展示了可靈AI在視頻生成效果上的領(lǐng)先之處,以及它在商業(yè)化方面的潛力和挑戰(zhàn)。
Sora 再不向大伙兒開(kāi)放,就真要被同行們給?“?碾壓?”?了。。。
先是前幾天,快手新搞出來(lái)個(gè)文生視頻的模型可靈 AI ,悄摸兒的在外網(wǎng)火了。
一出來(lái),網(wǎng)友們就直接把它和 Sora 放在一個(gè)擂臺(tái)上,讓人意外的是,可靈 AI 竟然一點(diǎn)都不輸,有的時(shí)候效果比 Sora 還要好一點(diǎn)。
就比如 “ 螞蟻在巢穴中爬行 ” 這樣的提示詞,可靈生成視頻的質(zhì)感跟 Sora 差不太多,而且它還營(yíng)造出了太陽(yáng)光照進(jìn)洞穴時(shí)的光影。
還有同樣是 “ 拉力賽車(chē) ” 的畫(huà)面,可靈的理解比 Sora 更貼合原意一點(diǎn)。咱們能很明顯看到, Sora 畫(huà)面里的車(chē)在原地打圈,而可靈生成的賽車(chē)是真的有在賽道上飆。
它也能像 Sora 一樣生成兩分鐘所有的視頻,像這個(gè)?“?小男孩在花園里騎自行車(chē)經(jīng)歷秋冬春夏四季變換?”?的視頻,畫(huà)面穩(wěn)定性、光影變化啥的,跟 Sora 那段經(jīng)典視頻有得一拼。
相較于 Sora ,可靈 AI 還會(huì)更適合咱們中國(guó)寶寶體質(zhì)一些,像大熊貓這類(lèi)的中國(guó)元素,它也能迅速 get 到。
甚至已經(jīng)有老外為了玩上快手的 AI , “ 求 ” 著讓國(guó)內(nèi)網(wǎng)友幫他生成一些視頻。。。
而就在世超琢磨可靈?AI?的時(shí)候,網(wǎng)上又突然蹦出來(lái)一個(gè)新的視頻模型?Luma AI?,同樣能生成長(zhǎng)達(dá)兩分鐘的高清視頻。而且官網(wǎng)示例的效果,也是直逼 Sora 。
像是它生成人在潛水時(shí)的瞬間,臉部周?chē)鷼馀葑兓娴囊粯?,在整個(gè)大幅度運(yùn)動(dòng)過(guò)程中,臉部也沒(méi)出現(xiàn)啥畸變。
還有房間爆炸時(shí),鏡頭推進(jìn)的畫(huà)面,整得人都有種看好萊塢大片的錯(cuò)覺(jué)了。
看到這兒,不知道差友們什么感受,反正世超已經(jīng)有點(diǎn)兒坐不住了,立馬托朋友從快手那要來(lái)了個(gè)內(nèi)測(cè)資格,也順便登上了 Luma 的試用界面,準(zhǔn)備親自上手試試這兩個(gè) AI ,看看它們到底有沒(méi)有傳說(shuō)中的這么厲害。
據(jù)它們倆的宣傳,可靈 AI 和 Luma 算是都有各自擅長(zhǎng)的領(lǐng)域??伸`這塊兒,網(wǎng)友們都說(shuō)它生成吃播視頻是一絕,而 Luma 官網(wǎng)上宣傳的則是 “ 電影感 ” ,還能通過(guò)圖片 + 提示詞生成視頻。
那咱也不廢話了,直接在它倆各自的地盤(pán)上開(kāi)測(cè)。
首先咱們來(lái)到的比試地點(diǎn),是快手比較擅長(zhǎng)的 “ 吃播 ” ,讓它們同時(shí)生成一段 “ 一個(gè)男人在吃意大利面 ” 的視頻。
有一說(shuō)一,可靈 AI 除了嗦面的時(shí)候有點(diǎn)不穩(wěn)定,其他畫(huà)面說(shuō)是從快手的吃播視頻里截取的,估計(jì)都有忽悠到不少人。
到了 Luma 這兒,畫(huà)風(fēng)就突然變得詭異了,男嘉賓就跟有超能力一樣,啥餐具都不用就開(kāi)吃了,而且嘴巴動(dòng)得也非常不自然。
既然生成吃播的視頻 Luma 不太行,那接下來(lái)咱就試試它比較擅長(zhǎng)的 “ 電影感 ” 。
本以為?Luma?要大施拳腳了,沒(méi)想到它一上來(lái)就拉了坨大的。
讓它生成一段 “ 外星人大戰(zhàn)機(jī)器人 ” 的畫(huà)面,還是那個(gè)老毛病,同一個(gè)人物,一會(huì)兒變成機(jī)器人,一會(huì)兒變成怪獸,全程都沒(méi)看到打斗的痕跡。
同樣的提示詞喂給可靈,它倒是把戰(zhàn)斗的場(chǎng)面給整出來(lái)了,就是有點(diǎn)經(jīng)不起細(xì)看,手里拿的刀都是軟的。。。
好在之后的表現(xiàn)還行,讓它們同時(shí)生成 “ 頂級(jí)富豪在別墅開(kāi)派對(duì) ” 的視頻,都挺有模有樣,唯一的缺點(diǎn)就是面部表情都不太穩(wěn)定。
各自擅長(zhǎng)的領(lǐng)域比完了,那緊接著來(lái)第二回合,考驗(yàn)下這倆?AI?對(duì)物理世界的理解程度。
讓它們生成一段 “ 貓咪和正在睡覺(jué)的主人互動(dòng) ” 的視頻,先是 Luma 這邊,它一上來(lái)就直接擺爛,只生成了一段黑色貓咪的視頻,連人的影子都沒(méi)看到。。。
要不說(shuō)全靠同行襯托,對(duì)比之下可靈 AI 的效果就強(qiáng)多了。有貓,有睡覺(jué)的人,硬要扣缺點(diǎn)的話,就是沒(méi)怎么看到貓和主人之間的互動(dòng)。
后面世超又試了好一些,發(fā)現(xiàn)在一些簡(jiǎn)短的提示詞跟前,快手可靈的表現(xiàn)都還不錯(cuò),比如玩偶熊在瀑布前彈吉他,小樣騎自行車(chē)等等。
Luma 這邊就跟使喚久了,想罷工一樣,各種 Bug 都出來(lái)了,小熊彈個(gè)吉他都能彈出幻影來(lái)。
還把羊自個(gè)兒變成了自行車(chē)。。。
更抽象的是,因?yàn)?Luma 有圖片輸入,在試的時(shí)候總能整出來(lái)不少樂(lè)子。比如讓它給豬豬俠的表情包整個(gè)后續(xù),搞到一半就給整成驚悚片了。。
還有經(jīng)典的 “ 外國(guó)老頭 nice ” 梗圖,他喝可樂(lè)是這樣子的,多少有的鬼畜。
甚至還有網(wǎng)友給各種梗圖,都腦補(bǔ)上了后續(xù)。
總之,整體體驗(yàn)下來(lái),世超覺(jué)得,要論效果,快手可靈 AI 的效果還是會(huì)更穩(wěn)定、更好一點(diǎn)。最起碼和其他能用到的視頻 AI 比,它已經(jīng)是相當(dāng)不錯(cuò)了。
而把模型訓(xùn)練成這樣,快手是摸著 Sora 這塊石頭過(guò)河,也到用了 DiT 架構(gòu)。把 transformer 融合進(jìn)擴(kuò)散模型里,這樣一來(lái),通過(guò)堆參數(shù)、堆訓(xùn)練數(shù)據(jù)等等就能提升模型性能,而在視頻數(shù)據(jù)這塊兒,快手自然是不缺的。
不過(guò)現(xiàn)在除了效果外,視頻 AI 還有另外一個(gè)不得不重視的問(wèn)題,商業(yè)化。
不知道大伙們有沒(méi)有注意到,雖說(shuō) Sora 之后,類(lèi)似的 AI 是一個(gè)接一個(gè),連字節(jié)、阿里這樣的大廠們,都搶著上這個(gè)賽道。
但大部分廠商在宣布自己也有這種模型后,幾乎就很少有進(jìn)一步的動(dòng)作了。
像是 Sora ,已經(jīng)好幾個(gè)月沒(méi)更新過(guò)他們的案例庫(kù),其他有向大伙們開(kāi)放的視頻 AI ,也只更新到 5s 的視頻長(zhǎng)度就沒(méi)再繼續(xù)了。。。
而搞成這樣子,說(shuō)白了還是做視頻 AI 太花錢(qián),又找不到啥賺錢(qián)的路子。
像是學(xué)圖片 AI 一樣收會(huì)員費(fèi),根本就 cover 不掉它的成本,據(jù)調(diào)查機(jī)構(gòu) Factorial Funds 稱(chēng),以 Sora 為例,它 30 億參數(shù)(主流猜測(cè) )的訓(xùn)練成本,比 1.8 萬(wàn)億參數(shù)的 GPT-4 還要多。
這還只是訓(xùn)練,實(shí)際用時(shí)的推理成本更多,國(guó)內(nèi)有 AI 企業(yè)做過(guò)一個(gè)折算,差不多兩分鐘的視頻要花掉 180 塊錢(qián),看這數(shù)據(jù),也難怪 AI 廠商們都不敢公開(kāi)進(jìn)度。。。
但話說(shuō)回來(lái),世超還是挺看好快手做這種 AI 的,畢竟它本身就有個(gè)視頻平臺(tái)在。說(shuō)不定之后可靈也能像因?yàn)轲ね翞V鏡爆火的 Remini 一樣,靠 “ 發(fā)帖助手 ” 的定位摸索出一個(gè)賺錢(qián)的路子來(lái)。
這不,世超立馬就想到了一個(gè)點(diǎn)子,不如學(xué)一學(xué)這次的 Luma ,玩玩抽象,指不定流量就來(lái)了。
本文由人人都是產(chǎn)品經(jīng)理作者【汪仔0636】,微信公眾號(hào):【差評(píng)】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!