无码流出在线免费观看,大尺度黄色网址

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

Sora誕生，國(guó)內(nèi)AI該怎么辦？

科技云報(bào)到

2024-02-29

0 評(píng)論 886 瀏覽 2 收藏

14 分鐘

Sora的出現(xiàn)引起了國(guó)內(nèi)外科技圈人士的廣泛關(guān)注，有關(guān)國(guó)內(nèi)外AI行業(yè)發(fā)展的問(wèn)題，也被擺到了臺(tái)面上。當(dāng)下，國(guó)內(nèi)AI廠商需要思考如何調(diào)整戰(zhàn)略，抓住機(jī)會(huì)窗口。

“跟不上的可能就要被淘汰了?！笨吹絊ora演示視頻后，從業(yè)10多年的動(dòng)畫(huà)制作師黃斌得出了這樣的判斷。

隨著影視業(yè)失業(yè)潮呼聲漸起，Sora的誕生也給中國(guó)AI行業(yè)帶來(lái)了巨大的焦慮。

360集團(tuán)創(chuàng)始人周鴻祎認(rèn)為，Sora模型展現(xiàn)出了超越當(dāng)前中國(guó)同類(lèi)產(chǎn)品的性能和技術(shù)水平，這不僅體現(xiàn)在Sora可能實(shí)現(xiàn)通用人工智能（AGI）的時(shí)間表上，還體現(xiàn)在其實(shí)際應(yīng)用效果和創(chuàng)新能力上。

更有甚者，網(wǎng)上流傳著“Sora的誕生是牛頓時(shí)刻”的說(shuō)法，認(rèn)為Sora代表了新一輪產(chǎn)業(yè)革命的興起。

事實(shí)上，國(guó)內(nèi)在經(jīng)過(guò)“百模大戰(zhàn)”之后，才剛剛在文本模型上取得顯著成果，達(dá)到或超過(guò)GPT-3.5的水平，并正朝著GPT-4的方向努力追趕。

但Sora的誕生，展示了OpenAI在多模態(tài)模型而非單一文本領(lǐng)域的突破性進(jìn)展，讓國(guó)內(nèi)AI廠商追上甚至超越OpenAI，幾乎成了不可能完成的任務(wù)。

由此不少網(wǎng)友對(duì)中國(guó)AI發(fā)出質(zhì)問(wèn)：

為什么Sora沒(méi)有誕生在中國(guó)？中國(guó)跟美國(guó)的AI差距越來(lái)越大，Sora這波國(guó)內(nèi)慢了十年吧？永遠(yuǎn)都是在追趕路上，為啥沒(méi)有原創(chuàng)？

在一句句靈魂版的拷問(wèn)中，中國(guó)AI廠商集體陷入了沉默。

那么，在Sora這樣的多模態(tài)大模型上，中美到底有多大差距？追趕的難點(diǎn)在哪兒？在種種限制之下，中國(guó)是否有自己的優(yōu)勢(shì)？

一、中美AI差距幾何？

盡管OpenAI承認(rèn)Sora仍處于開(kāi)發(fā)的早期階段，需要進(jìn)一步完善，但業(yè)界已形成一個(gè)共識(shí)——Sora的推出標(biāo)志著生成人工智能領(lǐng)域的一個(gè)重要里程碑。

這是因?yàn)镾ora不僅僅是一個(gè)文生視頻的工具，更是AGI的一個(gè)關(guān)鍵節(jié)點(diǎn)，它驗(yàn)證了一條通向AGI的可行技術(shù)路線。

和之前的GPT-3一樣，Sora再次驗(yàn)證了Scaling Law可以在這個(gè)技術(shù)方向上繼續(xù)發(fā)揮作用實(shí)現(xiàn)涌現(xiàn)。

而這背后，不僅是驚人的資本和算力支持的結(jié)果，更是通過(guò)無(wú)數(shù)工程實(shí)驗(yàn)試錯(cuò)和強(qiáng)大技術(shù)力量支持的結(jié)果。

不少人推斷，OpenAI手里應(yīng)該已經(jīng)有一個(gè)基本完整的多模態(tài)GPT-5，可以根據(jù)需要隨時(shí)釋放其中的某一部分打擊對(duì)手，或者引導(dǎo)輿論。

360集團(tuán)創(chuàng)始人周鴻祎更是直接斷言，Sora的出現(xiàn)，意味著AGI（人工通用智能）的實(shí)現(xiàn)將從10年縮短到1年。

事實(shí)上，在Sora面前，無(wú)論是現(xiàn)有的頂級(jí)AI模型如Pika、Runway等，還是在多模態(tài)AI上有投入的國(guó)內(nèi)廠商，基本上都被“吊打”了。

這也側(cè)面反映出中美在AI技術(shù)研發(fā)深度和資源投入上的差距。

首先，門(mén)檻來(lái)自算力。

雖然有學(xué)者認(rèn)為Sora只是一個(gè)大約30億參數(shù)的模型，訓(xùn)練成本并沒(méi)有想象的高，但視頻數(shù)據(jù)本身的處理、標(biāo)注等成本，加上長(zhǎng)視頻在推理階段注定的巨大token數(shù)量和算力消耗，顯然對(duì)任何公司都是難以承受的挑戰(zhàn)。

即便Sora真的只有30億參數(shù)，視頻分析對(duì)算力的消耗應(yīng)該也是遠(yuǎn)遠(yuǎn)超過(guò)一個(gè)千億模型的。在國(guó)內(nèi)GPU被卡脖子之后，算力是一個(gè)巨大的挑戰(zhàn)。

其次，是高質(zhì)量的數(shù)據(jù)。

根據(jù)OpenAI發(fā)布的技術(shù)報(bào)告，Sora強(qiáng)大能力歸功于兩點(diǎn)：其一是使用了基于Transformer的擴(kuò)散模型（Diffusion Model）；其二是將不同類(lèi)型視覺(jué)數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一格式——像素塊（patch），從而能利用數(shù)量龐大、質(zhì)量過(guò)硬且算力性?xún)r(jià)比高的數(shù)據(jù)。

業(yè)內(nèi)人士認(rèn)為，數(shù)據(jù)質(zhì)量和數(shù)量上的顯著優(yōu)勢(shì)，很可能是Sora成功的最關(guān)鍵因素之一。

在算力方面，雖然OpenAI訓(xùn)練Sora模型使用的GPU卡數(shù)量并非無(wú)法企及，但其他公司在具備足夠硬件資源的情況下，仍然難以復(fù)制OpenAI的成功，主要瓶頸還是在于如何獲取和處理大規(guī)模高質(zhì)量的視頻數(shù)據(jù)。

2022年，OpenAI曾宣布以創(chuàng)新方法來(lái)訓(xùn)練AI模型，省去標(biāo)注大量資料的訓(xùn)練過(guò)程。

據(jù)報(bào)道，OpenAI所公布的視頻預(yù)訓(xùn)練模型（VPT），讓AI學(xué)會(huì)了在《我的世界》里從頭開(kāi)始造石鎬。

研究人員首先收集一波數(shù)據(jù)標(biāo)注外包們玩游戲的數(shù)據(jù)，其中包含視頻和鍵鼠操作的記錄。

然后，利用這些數(shù)據(jù)制作逆動(dòng)力學(xué)模型（IDM），從而推測(cè)出視頻里每一步在進(jìn)行的時(shí)候，鍵鼠都是怎么動(dòng)的。這樣只需比原來(lái)少很多的數(shù)據(jù)就可以實(shí)現(xiàn)目的。

這項(xiàng)研究發(fā)表于2022年6月，同時(shí)文中還注明這個(gè)工作已經(jīng)進(jìn)行了一年之久，也就是說(shuō)，OpenAI至少?gòu)?021年起就開(kāi)始進(jìn)行這項(xiàng)研究。

Logenic AI聯(lián)合創(chuàng)始人李博杰認(rèn)為，OpenAI的先發(fā)優(yōu)勢(shì)決定了早期的數(shù)據(jù)壁壘，對(duì)于后進(jìn)入市場(chǎng)的公司來(lái)說(shuō)，增加了追趕的難度。

“即使是谷歌這樣全球數(shù)據(jù)量最大的公司，在訓(xùn)練大模型時(shí)，訓(xùn)練數(shù)據(jù)也未必能比OpenAI更好”，李博杰表示。

相比之下，國(guó)內(nèi)公司在數(shù)據(jù)上的積累和利用上也存在一定差距：一方面，由于政策變化和其他限制，后來(lái)者可能無(wú)法獲取之前可用的一些關(guān)鍵數(shù)據(jù)；另一方面，隨著AI生成內(nèi)容越來(lái)越多地充斥互聯(lián)網(wǎng)，原始的真實(shí)世界數(shù)據(jù)被“污染”，使得獲取高質(zhì)量、無(wú)偏見(jiàn)的訓(xùn)練數(shù)據(jù)更加困難。

最后，是創(chuàng)新的訓(xùn)練方法。

Sora實(shí)現(xiàn)了將Transformer和擴(kuò)散模型結(jié)合的創(chuàng)新，首先將不同類(lèi)型的視覺(jué)數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的視覺(jué)數(shù)據(jù)表示（視覺(jué)patch），然后將原始視頻壓縮到一個(gè)低維潛在空間，并將視覺(jué)表示分解成時(shí)空patch（相當(dāng)于Transformer token），讓Sora在這個(gè)潛在空間里進(jìn)行訓(xùn)練并生成視頻。

接著做加噪去噪，輸入噪聲patch后，Sora通過(guò)預(yù)測(cè)原始“干凈”patch來(lái)生成視頻。

OpenAI發(fā)現(xiàn)，訓(xùn)練計(jì)算量越大，樣本質(zhì)量就會(huì)越高，特別是經(jīng)過(guò)大規(guī)模訓(xùn)練后，Sora展現(xiàn)出模擬現(xiàn)實(shí)世界某些屬性的“涌現(xiàn)”能力。

總的來(lái)說(shuō)，Sora是好的架構(gòu)+好的數(shù)據(jù)，然后把模型做大，達(dá)到量變到質(zhì)變。

盡管Sora在方案設(shè)計(jì)上大部分是已有的技術(shù)，但能夠做出驚艷效果的也只有Sora，這也說(shuō)明在訓(xùn)練過(guò)程中有很多訓(xùn)練技巧的問(wèn)題要解決。

二、中國(guó)AI廠商能否追趕OpenAI？

Sora的技術(shù)突破讓AI焦慮在國(guó)內(nèi)蔓延開(kāi)來(lái)，但中國(guó)AI并非完全無(wú)招架之力。在Sora出現(xiàn)并占據(jù)大眾視野之前，國(guó)內(nèi)也曾有多家上市公司在多模態(tài)AI方面展開(kāi)過(guò)布局。

2023年12月18日，東方證券在一份研報(bào)中提及，國(guó)內(nèi)的?？低?、大華股份、螢石網(wǎng)絡(luò)等視頻分析行業(yè)領(lǐng)先廠商，紛紛投入到多模態(tài)大模型研究和行業(yè)應(yīng)用落地進(jìn)程。

與此同時(shí)，百度、阿里、騰訊、華為、字節(jié)跳動(dòng)等大廠也都布局了多模態(tài)基礎(chǔ)大模型。

據(jù)不完全統(tǒng)計(jì)，2023年12月至今三個(gè)月內(nèi)，已有包括萬(wàn)興科技、博匯科技、易點(diǎn)天下、數(shù)碼視訊、漢王科技、當(dāng)虹科技、東方國(guó)信等在內(nèi)的十余家A股公司，在投資者互動(dòng)平臺(tái)披露過(guò)視頻生成模型領(lǐng)域的業(yè)務(wù)情況。

盡管目前國(guó)內(nèi)廠商呈現(xiàn)的“文生視頻”效果遠(yuǎn)不如Sora，但Sora所用到的基礎(chǔ)模型LLM、文生圖模型DALL·E 3、大規(guī)模視頻數(shù)據(jù)集、AI算力體系、大模型開(kāi)發(fā)工具棧等核心基礎(chǔ)設(shè)施，中國(guó)都已經(jīng)具備。

比如原創(chuàng)的基礎(chǔ)大語(yǔ)言模型文心一言、訊飛星火、BAICHUAN等，以及文生圖模型文心一格、騰訊混元等，加上過(guò)去一年大模型基礎(chǔ)設(shè)施的突飛猛進(jìn)，有能力和條件支持中國(guó)AI修成正果，在視頻生成賽道再現(xiàn)類(lèi)似ChatGPT式的成功。

騰訊研究院資深專(zhuān)家王鵬認(rèn)為，Sora的發(fā)布進(jìn)一步明確了DiT（=VAE編碼器+ViT+DDPM+VAE解碼器）是多模態(tài)AI的可行方向，中國(guó)AI大廠仍然有可能以現(xiàn)有資源在一年左右接近Sora目前的水平。

三、中國(guó)AI的機(jī)會(huì)

事實(shí)上，不僅是技術(shù)代際差異并沒(méi)有想象中的那么大，視頻生成模型走向行業(yè)的長(zhǎng)跑才剛剛開(kāi)始。大模型的價(jià)值需要商業(yè)化來(lái)證明，Sora也不例外。

首先，相比“人人皆可上手”的大語(yǔ)言模型，視頻生成模型的應(yīng)用門(mén)檻更高，受眾群體更小。目前OpenAI僅開(kāi)放給創(chuàng)作者使用，而非像ChatGPT那樣開(kāi)放給大眾。

不難看到，視頻生成模型從研發(fā)到落地，整個(gè)過(guò)程會(huì)更加緩慢，應(yīng)用潛力與商業(yè)出口還有待探索。

其次，Sora雖然強(qiáng)大，但成本確實(shí)是一個(gè)現(xiàn)實(shí)問(wèn)題。

有人估算，Sora生成一條視頻的成本在幾美元到幾十美元不等，如果普及到大眾使用，成本需要降到目前的1%才能接受。

降低成本的同時(shí)提高生成質(zhì)量和邏輯連貫性，是亟待解決的關(guān)鍵挑戰(zhàn)。

同時(shí)，考慮到無(wú)法解決“幻覺(jué)”的問(wèn)題，要想生成真正可控可用的視頻，短期內(nèi)成本高昂。

這些局限性，都為中國(guó)AI產(chǎn)學(xué)各界留下了較長(zhǎng)的追趕窗口期。

目前，Sora能夠激活多大的商業(yè)價(jià)值尚不明確，但是利用大模型找應(yīng)用場(chǎng)景卻是中國(guó)市場(chǎng)的優(yōu)勢(shì)所在。

中國(guó)擁有豐富的行業(yè)和場(chǎng)景，如果中國(guó)AI廠商能為垂直的行業(yè)用戶(hù)解決具體的場(chǎng)景問(wèn)題，打磨好工具，做好視頻生成模型的提示詞工程，以便非專(zhuān)業(yè)背景的廣大行業(yè)用戶(hù)們上手使用，那么在特定領(lǐng)域超過(guò)GPT-4甚至是GPT-5的可能性是非常大的。

不僅如此，中國(guó)AI廠商也可以在Sora等大模型的基礎(chǔ)上，做進(jìn)一步的應(yīng)用創(chuàng)新，例如在Sora之上能夠提供更復(fù)雜的視頻剪輯能力、革新醫(yī)療教學(xué)與模擬訓(xùn)練等，從而率先探索出商業(yè)化之路。

結(jié)語(yǔ)

Sora作為人工智能視頻生成技術(shù)的重大突破，顯示了中美之間存在顯著的技術(shù)差距。這對(duì)于中國(guó)科技界而言，既是警醒也是鞭策。在承認(rèn)現(xiàn)實(shí)差距的同時(shí)，中國(guó)AI也不必妄自菲薄，審視自我、調(diào)整戰(zhàn)略、奮起直追，抓住機(jī)會(huì)窗口，才是彎道超車(chē)的必由之路。

原文標(biāo)題：Sora陰影之下，焦慮的中國(guó)AI

來(lái)源公眾號(hào)：科技云報(bào)到（ID：ITCloud-BD），云計(jì)算、網(wǎng)絡(luò)安全、人工智能、大數(shù)據(jù)、區(qū)塊鏈領(lǐng)域垂直新媒體。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @科技云報(bào)到授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash，基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App