Runway:AI Native Tools工廠,下一個時代的視頻創(chuàng)作工具

1 評論 12506 瀏覽 12 收藏 44 分鐘

本文作者從Runway公司的產(chǎn)品著手進(jìn)行講解,介紹了Runway的產(chǎn)品歷程及公司特色,分析了其市場定位與外部競爭,并在最后研究探討了Runway公司的未來發(fā)展,推薦給感興趣的伙伴們閱讀~

Runway 是什么?是 Stable Diffusion model 背后的研究團隊的公司;是目前最受關(guān)注的 AI native 視頻創(chuàng)作軟件;是新產(chǎn)品 demo 總是很酷炫,但用戶很難拿到內(nèi)測的“最強廣告公司”;是基于云端和瀏覽器的團隊協(xié)作產(chǎn)品——視頻編輯領(lǐng)域的 figma。

但更進(jìn)一步看,我們認(rèn)為 Runway 的模式是一個 AI native tools 工廠,和字節(jié)的路徑很像。字節(jié)以推薦算法+資訊作為載體,制造了段子、新聞、貼圖、短視頻、中視頻等一系列產(chǎn)品,爆款程度不一。而 Runway 以“AI + 視覺創(chuàng)作”為載體,隨著 AI 技術(shù)每一次浪潮的迭代推出了 30 多個圖像視頻編輯工具,也有不少在業(yè)界成為爆款。

Runway 的產(chǎn)品哲學(xué)很清晰:一直站在 AI 技術(shù)演進(jìn)的前沿,始終基于 AI 新技術(shù)的邊界,尋找視頻和圖像編輯的全新方法。他們不希望做一個更好的 Photoshop 或 Premiere,而是希望借助云計算和 AI 的力量塑造全新的工作流。

從技術(shù)和產(chǎn)品結(jié)合的角度看,Runway 不斷把最前沿的計算機視覺技術(shù)封裝成工具,裝入自己的云端視頻編輯平臺,可以說抓住了每次 AI 技術(shù)進(jìn)步的機會:

  • 在 StyleGAN 等生成技術(shù)成熟時,Runway 做了一個機器學(xué)習(xí)模型平臺,讓用戶可以方便地訓(xùn)練、部署視覺模型,許多用戶在 Runway 上調(diào)用 StyleGAN 模型生成肖像;
  • 在圖像語義理解、分割等技術(shù)成熟時,Runway 選擇不斷優(yōu)化綠幕、圖像修復(fù)等技術(shù),大幅節(jié)省視頻編輯時間,服務(wù)于專業(yè)的視頻編輯師;
  • 如今 Stable Diffusion 為代表的圖像生成技術(shù)成熟,Runway 于是開始發(fā)力生成相關(guān)技術(shù),目前 Runway 的 Gen-2 模型是市場上最好的視頻生成模型,用戶已經(jīng)可以在簡單場景生成效果驚艷的短視頻。
  • 也正因為 Runway 總想走在技術(shù)最前沿,而 AI 生成的技術(shù)成熟度還不高,Runway 的產(chǎn)品也面臨挑戰(zhàn);
  • 視頻編輯工具層面,Runway 不適合精細(xì)度要求高、特別專業(yè)的場景,更多專業(yè)用戶把它的 tools 當(dāng)成 Adobe 的補充而非替代;而中小客戶方面又面臨剪映(Capcut)這種更方便、更移動原生產(chǎn)品的競爭;
  • 在圖像生成方面,雖然 Runway 是 Stable Diffusion 的早期作者,圖片生成質(zhì)量落后于 Midjourney 和 Stability AI,目前內(nèi)測的視頻生成產(chǎn)品,效果還待更多用戶來驗證。

以下為本文目錄,建議結(jié)合要點進(jìn)行針對性閱讀。

  1. Thesis
  2. 全新的 AI 創(chuàng)作方式
  3. Runway 產(chǎn)品歷程
  4. Runway 公司特色
  5. 定位與競爭
  6. 團隊與融資
  7. 關(guān)鍵討論與未來

一、Thesis

我們認(rèn)為,Runway 的模式是一個 AI native tools 工廠,是否能從好用的單點工具閉環(huán)成用戶不可或缺的工作流產(chǎn)品,值得長期關(guān)注。

1. Runway 的模式是一個 AI native tools 工廠,有利于在目前技術(shù)更迭較快的背景下快速發(fā)布產(chǎn)品,獲得用戶反饋和迭代方向。

他們已經(jīng)發(fā)布了 30 多個 AI Magic Tools,包括文本生成、圖像生成、音頻處理、視頻摳圖等市面上主流 AI 功能:

  • 基于 AI tools ,他們研發(fā)了一套基于 Web 端的視頻編輯軟件,主打“協(xié)作”和“快”,試圖幫助視頻后期編輯和特效師提高生產(chǎn)效率;
  • 在圖像生成技術(shù)成熟后,Runway 基于 Stable Diffusion 模型開發(fā)了圖像生成、無限圖像,類似 Lensa 魔法頭像的 Customer AI Training 等功能,又在近期開始內(nèi)測視頻生成模型 Gen-1 和移動 APP。

2. Runway 面臨專業(yè)工具 Adobe 和輕量級產(chǎn)品剪映的競爭 :

  • 在專業(yè)視頻編輯場景,Runway 難以撼動 Adobe 的護(hù)城河,其編輯工具目前無法應(yīng)對專業(yè)精細(xì)化的要求,同時專業(yè)編輯軟件 Adobe 和達(dá)芬奇(Davinci Reslove)也在 Runway 發(fā)布的新功能半年后就更新 AI 工具插件;
  • 在輕量化視頻制作場景,Runway 面對高度嵌入抖音(TikTok)工作流體系的剪映(Capcut);
  • 在圖像生成領(lǐng)域,Runway 在生成圖像的質(zhì)量上落后于 Midjourney,Stability AI。

3. 從近期發(fā)布看,Runway 有望將單點的 AI Tools 組合成團隊協(xié)作產(chǎn)品,提高對用戶工作流的介入:

  • 他們最近發(fā)布的 Custom AI Training 和 Gen-2 視頻生成功能都很適合移動端,比如拍攝一張照片或一段視頻后經(jīng)過簡單的特效處理和編輯就可以分享至社交和內(nèi)容平臺;
  • Gen-2 功能目前是市場上最好的視頻生成模型,能夠在簡單場景生成令人驚艷的效果,有可能會引起一波熱潮;
  • 同時團隊正在 APP 中內(nèi)測 Image to Image 功能,這與上面兩種功能有著相同的技術(shù)棧,倘若未來 Runway 可以將視頻生成功能和編輯工具形成閉環(huán)的產(chǎn)品,那么將有大量 Youtube、Tiktok 用戶完全基于 Runway 進(jìn)行視頻制作創(chuàng)作。

二、全新的 AI 創(chuàng)作方式

Generative AI 的本質(zhì)是創(chuàng)造性任務(wù)的民主化,新的 AI 工具將原本需要多年專業(yè)學(xué)習(xí)、歷時數(shù)個小時的創(chuàng)造性工作壓縮到了幾秒,如今任何人都可以借助 Runway、Midjourney 在專業(yè)廣告、產(chǎn)品攝影等場景里打開創(chuàng)作空間。

Runway CEO 在訪談中表示,圖像的生成問題可能會在幾個月內(nèi)解決(“解決 ”,表示任何人都可以從電腦和瀏覽器中獲得專業(yè)級視覺效果),而視頻將會趕上。

從各種公開演講我們都沒有看到 Runway CEO 討論新時代內(nèi)容平臺的問題,他們似乎只想成為未來的內(nèi)容創(chuàng)作工具,如果我們假設(shè)未來十年會有全新的內(nèi)容形態(tài)和內(nèi)容平臺,未來的年輕人會希望使用 Runway 來制作視頻, 就像 Primere 和剪映(CapCut)之于Youtube 和 Tiktok 一樣。

1. AI 對視頻編輯的優(yōu)化

傳統(tǒng)的視頻制作分為前期和后期:

在視頻制作的前期工作中,首先需要經(jīng)驗豐富的人進(jìn)行劇本創(chuàng)作和分鏡規(guī)劃,通常由 excel 完成,而如今剪映(CapCut)也將其作為前期功能集成進(jìn)軟件中,未來有望通過聊天形式輔助完成文案、劇本創(chuàng)作。

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

分鏡規(guī)劃完成后,接下來就是素材拍攝、制作和整理工作:

素材管理的相關(guān)工作耗時、枯燥、繁重,一方面需要將各類素材進(jìn)行文件格式的統(tǒng)一,各類視頻素材庫檢索效率較低,難以滿足需求,另一方面面臨設(shè)備、時間約束,甲方需求等挑戰(zhàn)。

而未來我們可以通過多模態(tài)生成模型針對圖片、視頻素材進(jìn)行管理,對圖像進(jìn)行語義理解,翻譯成文本 Prompt,每次只需要一個聊天框入口,輸入你想要的圖片內(nèi)容。算法一方面可以大大提高檢索效率、另一方面可以隨時生成所需的圖片視頻素材,比如我們可以通過 Runway 的特效視頻生成作為某一段視頻的素材。

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

( 圖源:Runway 官網(wǎng))

視頻制作的后期則包括了邏輯剪輯、音樂制作、粗調(diào)成片、細(xì)調(diào)和字幕添加等工作,它們占據(jù)了專業(yè)視頻編輯工作的 80%,Runway 有提供音頻去噪、自動風(fēng)格變換等功能。

不僅如此,許多專業(yè)視頻還要包括視覺特效的制作,而在特效制作過程中,最費力的工作便是 Green Screen(綠幕摳圖)及 Inpainting(圖像修復(fù)),這也是 Runway 的主打的兩項功能。

綜上,我們可以總結(jié)出生成式 AI 技術(shù)對于當(dāng)下視頻創(chuàng)作工作流的優(yōu)化:

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

三、Runway 產(chǎn)品歷程

1. 從 ML 模型平臺到 AI Tools 工廠

Runway 創(chuàng)業(yè)之初的產(chǎn)品形態(tài)是一個關(guān)于 ML(機器學(xué)習(xí))模型的應(yīng)用商店,用戶可以在這上面使用數(shù)百個模型。就像我們可以很方便地在 Hugging Face 平臺使用不同的 NLP 模型一樣,用戶可以在 Runway 平臺上方便地調(diào)用流行的圖像處理模型,比如 StyleGAN 模型。

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

在 5 分鐘內(nèi)將機器學(xué)習(xí)模型從 GitHub

移植到 RunwayML

GAN (對抗生成網(wǎng)絡(luò))是早期圖像生成的主流算法,基于 GAN 模型發(fā)展出了許多人臉生成的玩法,2018 年 12 月,Nvidia 的研究人員發(fā)表 StyleGAN 相關(guān)論文,該模型可以生成無限張假的肖像畫。

在圖像生成方面,GAN 模型在生成內(nèi)容無法同時滿足高度可控性和高分辨率,而如今的圖片生成模型主流技術(shù)是 Diffusion 模型。

隨后 Runway 開始基于最新的 AI 算法開發(fā)相應(yīng) AI magic tools,目前已發(fā)布 30 余個 AI 創(chuàng)作工具,包含音頻、圖片、視頻、3D 和生成五個大類,涵蓋了幾乎所有的音視頻內(nèi)容生成和處理工具。

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

2. 從單點 AI 工具到云視頻編輯套件

在深度學(xué)習(xí)的研究過程中,Runway 發(fā)現(xiàn)大約 80% 的視頻編輯時間都是那些逐幀編輯的非創(chuàng)造性操作,并且也有許多視頻制作行業(yè)里的制作人對 Runway 的技術(shù)感興趣,于是基于視頻摳圖類的 AI Tool 打造了一套云原生的視頻編輯工具。

Video Editing 是 Runway 目前的主打功能,在產(chǎn)品形態(tài)上,Runway 基于 Web 打造了一個視頻編輯軟件,前端頁面依然遵循著一些傳統(tǒng)視頻創(chuàng)作的用戶習(xí)慣,保持了底部界面的軌道,帶有多編輯系統(tǒng),音軌、關(guān)鍵幀動畫以及對文本、圖像的支持。

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

Runway 的前端界面

視頻后期特效/微調(diào)中,最耗時費力的便是:Green Screen(綠幕摳圖)、Inpainting(圖像修復(fù))這兩項工作,而 Runway 通過三個 AI Tool 的幫助,可以節(jié)省大量的時間:

1)Green Screen,可以把選擇的對象以綠幕的方式作為視頻主題剪裁出來,通過點選的方式 AI 自動幫你補全貼合主題的輪廓;

2)Inpainting,視頻修復(fù)功能,類似圖片的 PS 功能,通過手動選擇對象范圍,將選定范圍內(nèi)的主題刪除,并用周圍的背景通過 AI 計算進(jìn)行填充;

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

( 內(nèi)容源:Runway 官網(wǎng))

3)Motion Tracking,選定一個視頻內(nèi)的主體,當(dāng)你添加其他的效果(比如標(biāo)題)時可以跟隨這個主體運動。

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

(內(nèi)容源:Runway 官網(wǎng))

Ruwnay 在官網(wǎng)上展示了兩個案例:

  1. 使用 Adebo AE 軟件需要多次手工處理修正的人物選框工作,Runway 通過簡單的點擊,整個過程只需要 5s;
  2. 將一個動態(tài)的人物從背景中剪輯出來加上火焰特效,協(xié)作使用 Runway 和 Adobe 的兩個人只用了 6 分鐘就完成了制作并導(dǎo)出結(jié)果,而只用傳統(tǒng)軟件的對照組進(jìn)度則遠(yuǎn)遠(yuǎn)落后。

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

( 圖源:Runway官網(wǎng) )

但在產(chǎn)品的實際體驗效果中,比如主推的視頻修復(fù)功能,我們發(fā)現(xiàn)只有在環(huán)境單一,光源固定,人群稀少的情況下,這個功能可以最大限度的發(fā)揮,但依然穩(wěn)定地?zé)o法完成高度精細(xì)化的任務(wù),只能作為專業(yè)剪輯軟件的補充,所以在 Runway 推出類似功能后不到半年的時間里,專業(yè)剪輯軟件Davinci和 Adobe 就加入了類似功能。

3. 編輯視頻到生成視頻

團隊在基于 GAN 模型尋找圖像生成方法的時候發(fā)現(xiàn)了 Diffusion模型,于是在團隊算法科學(xué)家在 Disco Diffusion 基礎(chǔ)上進(jìn)行迭代優(yōu)化,構(gòu)建了 Stable Diffusion 的早期版本。

基于 Stable Diffusion 模型,團隊開發(fā)了 text to image、image to image、無限圖像、Custom Training 等一系列 Magic Tools:

1)“無限圖像”功能

用戶可以通過文字編輯,為世界名畫拓展邊界,也可以生成各種沒有邊界的圖像。

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

(圖源:Runway 無限圖像功能)

2)Custom AI training 功能

基于 Image to Image tools ,Runway 將過去模型托管平臺的服務(wù)升級為 Custom AI Training 產(chǎn)品,這類似于 Lensa AI 去年所推出的魔法頭像服務(wù),用戶只需要上傳特定肖像、動物、物品的多張照片,便可以直接進(jìn)行生成模型的訓(xùn)練,相當(dāng)于將 Fine-tune 民主化:

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

以前的 Runway ML lab

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

如今的 Runway AI Training

以肖像為例,用戶需要上傳 15-20 張個人照片,就可以支付 10 美元進(jìn)行訓(xùn)練,生成上百張生成圖片。

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

放入 15-20 張個人照片

( 圖源:Runway 官網(wǎng)展示肖像)

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

可生成上百張不同風(fēng)格照片

( 圖源:Runway 官網(wǎng)展示肖像)

每次訓(xùn)練完成,除了一次性生成上百張肖像照,系統(tǒng)還會生成一個標(biāo)簽化的 prompt,之后可以在 Runway 文生圖平臺調(diào)用該 prompt 生成新肖像。

3)視頻生成功能

2023 年 2 月 6 日, Runway 推出 Gen-1 功能,并在 Discord 中開啟內(nèi)測,用戶可以在服務(wù)器里上傳一段視頻,并 @Gen-1 機器人后輸入風(fēng)格 Prompt,然后就可以得到相應(yīng)風(fēng)格的視頻,在社區(qū)中,我們可以看到用戶的三種輸入形式。

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

( 圖源:Discord 社區(qū)用戶 vkuoo)

用戶也可以在輸入視頻的同時,輸入風(fēng)格圖片作為參考,可以得到效果更好的視頻。

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

( 圖源:Discord 社區(qū)用戶 TecateVirus )

當(dāng)然,同時輸入風(fēng)格圖片和文字描述也是允許的:

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

( 圖源:Discord 社區(qū)用戶 FARGO)

在活躍的社區(qū)氛圍加持下,Gen-1 模型飛速迭代,并在 3 月 20 日發(fā)布升級版 Gen-2,展現(xiàn)出模型的巨大提升,目前已經(jīng)能夠很好地將場景、色調(diào)簡單的幾何體變成酷炫的視頻,但對于復(fù)雜場景的視頻無法達(dá)到精細(xì)化的處理。

近期 Runway 開啟了手機 APP 內(nèi)測,將 Image to Image 功能引入移動端,模型會將用戶上傳的圖片解碼成 prompt 文本,用戶可以對 prompt 進(jìn)行編輯,應(yīng)用也提供了多種風(fēng)格 prompt 模版。Runway APP 內(nèi)測版 UI 界面,目前只有圖像編輯功能。

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

( 圖源:Runway APP 截屏)

四、Runway 公司特色

1. AI 研究驅(qū)動產(chǎn)品

Runway 的產(chǎn)品哲學(xué)很清晰:一直站在 AI 技術(shù)演進(jìn)的前沿,始終基于 AI 新技術(shù)的邊界尋找視覺創(chuàng)作的全新方式。

Runway 除了在 CVPR 和 NeurIPS 等會議上發(fā)表文章,還會舉辦講座和輔導(dǎo),保持和學(xué)界的緊密聯(lián)系,并參與公共社區(qū)的建設(shè),去年 Runway 的研究科學(xué)家 Patrick Esser 與德國慕尼黑大學(xué)的學(xué)者共同撰寫了 Stable Diffusion 的初始論文,Runway 隨后幫助構(gòu)建了 Stable Diffusion 的原始版本,并將該技術(shù)集成進(jìn)設(shè)計軟件的功能中。

Runway 團隊不僅重視底層模型的研究,還十分崇尚全面的技術(shù)堆棧,團隊希望能夠完全了解和控制產(chǎn)品部署及與用戶交互的方式,同時,在 CEO Cristóbal 看來,未來的單位算力成本會急劇下降,隨著硬件和軟件的優(yōu)化,我們將持續(xù)看到訓(xùn)練和模型運行成本隨著時間推移而降低,在工程技術(shù)方面的投資是值得的。

Runway 采用 Pytorch 框架建立自己的模型,使用 AWS 的集群,同時會自建系統(tǒng)優(yōu)化模型訓(xùn)練流程,并且會采用 WebGL 加速器完成前端的優(yōu)化。在推理端,他們使用 C++ 技術(shù)棧 ,以方便實時對視頻編碼解碼過程,同時建立了一整套流媒體系統(tǒng),并不斷地權(quán)衡模型的精度和速度,這保證了 Runway 對于自家產(chǎn)品的控制和表現(xiàn)力。

2. 云原生驅(qū)動協(xié)作

在產(chǎn)品體驗方面,Runway 的套件基于 Web 和云原生,同 Figma 和 Canva 一樣,這帶來了三個非常重要的好處:降低本地計算機性能要求,便于跨平臺協(xié)作,便于內(nèi)容分發(fā)。

CEO 在訪談中提到,希望未來大家制作視頻的感覺應(yīng)該類似于在 Google Docs 上的協(xié)作一樣,沒有必要下載和更新軟件,在合作者之間自由分享創(chuàng)作靈感,基于此,Runway 打造了基于合作為中心的一套自動化創(chuàng)作工具。

Runway 關(guān)于 AI 相關(guān)的計算都是在云端遠(yuǎn)程處理的,為此公司針對音視頻的網(wǎng)絡(luò)端傳輸做了大量優(yōu)化,可以預(yù)見,這家基于 AI 的云產(chǎn)品公司未來將會面臨巨大的網(wǎng)絡(luò)和服務(wù)器開銷。

五、定位與競爭

1. 市場定位

從 CEO 的分享、客戶訪談綜合來看,Runway 的定位是專業(yè)級、電影級視頻制作,并希望在未來得到更廣泛用戶的青睞,Runway 目前在主推 AI 創(chuàng)作電影節(jié) 和 Gen-2 社群。

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

(圖:Runway AI 電影節(jié)網(wǎng)站)

CEO 在最近的訪談中提到,Runway 的產(chǎn)品哲學(xué)不是做一個更好的 Photoshop 或者 Premiere ,它只是在尋找一種制作視頻、編輯圖像、音頻的新方法,其中的關(guān)鍵是 ML 驅(qū)動,云原生,讓每個人都可以輕松在電腦和瀏覽器中制作專業(yè)級視頻特效。對于產(chǎn)品定位,Runway 的團隊主要提到四點:專業(yè)、協(xié)作、快、很多 AI Magic Tools。

Runway 目前的客戶主要是電影級視頻編輯和特效制作者,他們的主要優(yōu)勢是更輕便、更高效,但其產(chǎn)品能力尚不足以撼動專業(yè)軟件,他的機會在于基于視頻生成技術(shù),讓更多的年輕人基于 Runway 進(jìn)行視頻創(chuàng)作和編輯,成為新一代的創(chuàng)作工具甚至內(nèi)容平臺。

客戶和從業(yè)人員這樣評價 Runway:

? 一位主要在 TikTok 平臺創(chuàng)作視頻的特效編輯師:

Runway 的體驗就是速度,我們想做一些看起來需要很長時間才能完成的東西,但它可能只需要一兩天,擁有能夠非??焖俚刂谱鞒稣嬲哔|(zhì)量的東西的工具是非常重要的,它改變了我的過程很多,當(dāng)您的項目截止日期非常緊迫,并且需要交付高質(zhì)量的東西時,您不想花時間在沒有成效的地方上,你不想做任何動態(tài)描寫和清理工作,只希望專注于添加素材庫、添加所有效果,為了能夠在幾分鐘而不是幾天內(nèi)清理一些東西,它節(jié)省了項目。

? 一支負(fù)責(zé) The Late Show with Stephen Colbert (一檔 CBS 綜藝節(jié)目)的專業(yè)特效團隊:

我們曾經(jīng)用 Runway 拍攝了 Stephen Colbert 紀(jì)念 Americone Dream 冰激凌周年的音樂視頻,有一個場景是需要把冰淇淋放在不同背景中以夸大冰淇淋的影響力,但由于冰淇淋和背景顏色均過于復(fù)雜,團隊嘗試了很多方法,都不是很成功,Runway 的圖像修復(fù)技術(shù)拯救了我們,將數(shù)小時的工作降低到幾分鐘,目前 Runway 已經(jīng)融入進(jìn)入團隊的工作流。

? 一位自由職業(yè)戲劇導(dǎo)演、編輯和特效藝術(shù)家:

他主要使用 Premiere 做編輯和視覺特效,但會在大多數(shù)專業(yè)項目中使用 Runway ,Runway 可以幫助節(jié)約大量制作時間,雖然 Adobe 做了類似的功能,但體驗不如 Runway,相比于雇很多專業(yè)的摳圖人員,日薪資 600-800 美元,Runway 每月低廉的訂閱費讓人值得一試。

? 前 Netflix 制片人:

我會主要使用 Runway 的團隊協(xié)作功能,但 Runway 這種基于新技術(shù)驅(qū)動的編輯軟件,難以撼動 Adobe 。該項目有機會像曾經(jīng)的 Instagram 一樣,從圖片墻成為新一代社交或者內(nèi)容平臺。

基于上文的 AI 內(nèi)容生成對于視頻制作流程的增益和客戶的反饋,我們列出以下表格,并認(rèn)為 Runway 的客戶主要是專業(yè)影視制作用戶、業(yè)余用戶與潛在用戶:

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

業(yè)余用戶指的是平均每個月都會制作并在社交媒體發(fā)出一些非專業(yè)化的小視頻,潛在用戶指的是幾乎很少制作視頻,但目前是 Instagram 等社交軟件的用戶,目前除中國外 Instagram 月活用戶為 20 億,而 Tiktok 用戶為 10 億。

2. 競爭分析

在視頻編輯產(chǎn)品層面,Runway 的主要競爭對手既包括 Adobe 這種巨頭公司,也有 Descript、CapCut 類的輕量化視頻制作產(chǎn)品。

1)Premiere/Davinci

Premiere 是 Adobe 旗下的專業(yè)視頻編輯軟件,Davinic 是由 Blackmagic Design 公司開發(fā)的專業(yè)編輯軟件。在實際的工作流中,Runway 和 Premiere/Davinci 往往是相互補充的關(guān)系,而非競爭關(guān)系,Runway 主打的是云端協(xié)作,便捷快速,在一些特定功能比如綠幕、摳圖,Runway 往往做得更好讓很多專業(yè)團隊愿意為它付費。

2)CapCut

CapCut 是剪映海外版,字節(jié)跳動旗下的免費視頻編輯和創(chuàng)作軟件,擁有各種娛樂性質(zhì)的視頻編輯功能,目前全球擁有數(shù)億用戶,Runway 目前與其沒有直接競爭關(guān)系,但他們同時在搶奪未來的“潛在客戶”,隨著 Runway 的發(fā)展,未來勢必要正面挑戰(zhàn) CapCut,而 CapCut 的產(chǎn)品核心競爭力其實是與 TikTok 的強綁定,所以在未來的戰(zhàn)場,Runway 需要綁定或者成為新的內(nèi)容平臺,才有機會成為最后的贏家。

3)Descript

Descript 是一款可以用文字編輯音頻和視頻的軟件,主推通過編輯文本來編輯視頻,是現(xiàn)在企業(yè)辦公方向視頻制作首選,和 Runway 的客戶群體并不相同,雖然 Runway 也期待面向企業(yè)級用戶,但 Runway 主推的是藝術(shù)類的視頻制作,而非辦公場景的視頻。

4)Veed

這是一家倫敦的初創(chuàng)公司,創(chuàng)始人 Keynejad 曾經(jīng)在設(shè)計工作室時要處理很多在線視頻,但他發(fā)現(xiàn)視頻處理軟件都龐大而臃腫,便開始構(gòu)建網(wǎng)頁視頻編輯器 Veed。截至 2022 年 2 月,Veed 有 100 萬用戶和 700 萬美元的 ARR,主要用戶是社交媒體視頻的創(chuàng)作者,從客群和面向的產(chǎn)品屬性看,目前該項目和 Runway 不構(gòu)成直接競爭。

5)Vidyo.ai

是一個在線視頻編輯平臺,它使用 AI 技術(shù)幫助用戶從長視頻中快速制作出適合在 TikTok、Instagram、LinkedIn 和 Facebook 等平臺分享的短視頻,在 2021 年 11 月獲得了 110 萬美元的種子輪融資,目前用戶數(shù)量不詳。Vidyo和 Runway 二者之間的競爭關(guān)系是 Generative AI 應(yīng)用層和全棧應(yīng)用公司之間的競爭,由于視頻生成和編輯的模型層仍舊在劇烈的變化,所以掌握核心的 AI 技術(shù)是更加穩(wěn)妥的選擇。

3. Text to Video 技術(shù)進(jìn)展

在 Diffusion 模型在圖片生成領(lǐng)域取得了重大成功后,各家研究團隊都對 Text to Video 展開了研究,目前比較領(lǐng)先的有:

1)Meta 于 2022 年 9 月發(fā)布了其下一代內(nèi)容制作工具 “Make-A-Video”。

他們主要將時間維度引入擴散模型,基于對于圖片中關(guān)鍵語義生成幾個視頻特定幀,進(jìn)而通過插幀補全的方式完成視頻生成,目前沒有發(fā)布產(chǎn)品,官網(wǎng)展示了三個方向的 Demo:

  • 通過輸入行為文字直接生成視頻;
  • 將一張靜態(tài)圖片轉(zhuǎn)變成短視頻;
  • 為一個視頻做背景、風(fēng)格切換。

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

Meta 視頻生成技術(shù)架構(gòu),采用先生成幾個關(guān)鍵幀,

再進(jìn)行插幀優(yōu)化方案

2)Google 在 2022 年 11 月份發(fā)布了 Google Imagen 視頻生成功能。

他們一方面和 Meta 一樣將時間維度引入擴散模型,另一方面采用先生成低分辨率視頻,再進(jìn)行優(yōu)化的技術(shù)方案,目前還沒有公開內(nèi)測,從 demo 看效果優(yōu)于 Meta 的模型,但依舊存在可控性差、分辨率差、時間較短等各種問題。

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

Google Imagen 視頻生成系統(tǒng) demo

3)Runway 于 2023 年 2 月發(fā)布了基于擴散器模型的視頻生成模型 Gen-1。

不同于 Meta 和 Google ,他們摒棄了文本直接生成視頻的技術(shù)路線,而是將輸入的視頻的進(jìn)行逐幀風(fēng)格遷移,最后再將風(fēng)格進(jìn)行統(tǒng)一優(yōu)化的方案,這大大降低了視頻生成的難度,可以讓用戶更好地控制視頻的生成效果,并在和用戶的數(shù)據(jù)高效迭代六周后發(fā)布升級版 Gen-2 模型,可以說這是目前最領(lǐng)先的視頻生成模型:

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

Runway Gen-1 論文展示案例,

基于時序擴散模型進(jìn)行視頻風(fēng)格遷移

OpenAI 在視頻制作和生成角度并沒有過多的進(jìn)展,但從內(nèi)部員工了解,他們已經(jīng)有一個更好的 DALL·E 模型,效果超越 Stable Diffusion,OpenAI 目前具有領(lǐng)先的大模型訓(xùn)練基礎(chǔ)和多模態(tài)技術(shù),同時堅持“大力出奇跡”的長期戰(zhàn)略,沒有人知道他們未來將視頻數(shù)據(jù)引入大模型后,還會給公眾釋放什么樣的驚喜。

OpenAI 投資了視頻編輯軟件公司 Descript,并提供了 GPT4 接口的優(yōu)先使用權(quán),Descript 的技術(shù)原理是將文本切片、音頻切片、視頻切片一一對應(yīng),在用算法相關(guān)技術(shù)進(jìn)行快速匹配,而非大家所想象的 text to video 功能。

六、團隊與融資

1. 公司發(fā)展

Cristóbal Valenzuela 是 Runway 項目的 CEO, 他本科就讀于智利排名第一的私立院校阿道夫伊瓦涅斯大學(xué) (AIU) ,獲得經(jīng)濟學(xué)和工商管理學(xué)士學(xué)位,并于 2012 年獲得了設(shè)計藝術(shù)碩士學(xué)位,畢業(yè)后留校任教。

從 2016 年開始,深度學(xué)習(xí)的進(jìn)展給了 Cristóbal Valenzuela 極大的震撼,他便選擇辭職去紐約大學(xué)進(jìn)行深造,成為了 Tisch 藝術(shù)學(xué)院 ITP (Interactive Telecommunications Program)項目的研究生,并開始尋找制作藝術(shù)、生成內(nèi)容和講述故事的新方法。

而 Runway 則是Cristóbal Valenzuela 的論文項目,在項目的開發(fā)過程中,他遇到了智利同胞 Alejandro Matamala,后者擁有過兩段創(chuàng)業(yè)經(jīng)歷,他隨后加入項目擔(dān)任聯(lián)合創(chuàng)始人,在畢業(yè)后,紐約大學(xué)為他們提供了一個研究實習(xí)機會,他們在那里遇到了具有豐富開發(fā)經(jīng)驗的智利同胞 Anastasis Germanidis,并說服他加入 Runway 擔(dān)任 CTO。

2022 年 12 月 5 日,Runway 的 CEO Cristóbal Valenzuela 在公司博客上宣布完成了 5000 萬美元 C 輪融資,估值 5 億美元。除著名風(fēng)險機構(gòu) Felicis、Amplify Partners、Lux Capital、Coatue、Compound 和 Madrona 投資外,還有一批豪華天使陣容 —— Guillermo Rauch(Vercel CEO)、Amjad Masad(Replit CEO)、Howie Liu(Airtable CEO)、Soumith Chintala(PyTorch 負(fù)責(zé)人)、Lukas Biewald(Weights & Biases CEO) 以及 Jay Simons(ex Atlassian 總裁)。

截止到目前,Runway 團隊已經(jīng)有 42 人,與開源社區(qū)和許多研究機構(gòu)保持著良好的關(guān)系。

2. 收入預(yù)測

雖然 Runway 沒透露公司 2022 年的營收,根據(jù)福布斯的信源推斷其年營收可能不足五百萬美元,甚至僅有一百萬美元營收,由于最近半年 Runway 的產(chǎn)品形態(tài)發(fā)生了巨大的變化,所以往期收入并沒有足夠的參考價值。

Runway 收費方式是個人專業(yè)版 12 美元/月,團隊版 28 美元/月。

視頻編輯訂閱維度,Runway 可以成為 Adobe 的良好補充,相比于 Adobe 全家桶 110 美元/月 的價格,Runway 的價格便宜了十倍左右,而傳統(tǒng)視頻后期團隊的一個資深編輯的后期制作費用大概在 250 美元/小時,一個只負(fù)責(zé)摳圖的編輯費用也需要 60-80 美元/小時,而 Runway 可以在這一領(lǐng)域為他們節(jié)省幾個小時甚至幾天的工作,所以在專業(yè)領(lǐng)域?qū)用?,用戶有為其付費的理由。

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

在業(yè)余用戶和潛力用戶客群,Gen-2 目前是市場上最好的視頻生成模型,如果 Runway 可以將視頻生成功能和編輯工具形成閉環(huán)的產(chǎn)品,那么將吸引大量的 Youtube、Tiktok 視頻制作團隊完全基于 Runway 進(jìn)行視頻制作。

參考 Adobe 、Canva、剪映(CapCut)的總用戶數(shù)和付費人群,可以估計視頻編輯領(lǐng)域擁有潛力客戶有一個億左右,他們會傾向于嘗試免費版的輕量化軟件,而潛在付費用戶預(yù)計和 CapCut 同一數(shù)量級,為百萬數(shù)量級。

Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

Canva、Figma 付費用戶數(shù)量計算方法:基于年營收和客單價進(jìn)行估算;剪映(CapCut)付費用戶量無數(shù)據(jù)來源,按總用戶量 1% 進(jìn)行估算;Davinci 商業(yè)模式更側(cè)重于軟硬協(xié)同,財報顯示客戶每年會使用 Davinci 平臺制作 150 萬個項目。

從成本角度,相比于 GPT 動輒千億參數(shù),Stable Diffusion 模型參數(shù)量并不大(8.9 億參數(shù)),同時其推理速度在快速優(yōu)化,所以相比于傳統(tǒng)的 SaaS 產(chǎn)品,引入 Stable Diffusion 模型并不會給成本帶來顯著增加。

七、關(guān)鍵討論與未來

1. 如何打造 AI Native 公司

AI-Native 的公司核心是能夠深入理解模型的能力,讓他們變得更加可控,方便與產(chǎn)品的深入結(jié)合。

Runway CEO 說:“多數(shù)追求‘一鍵生成視頻’制作工具的人都沒有經(jīng)歷過甲方的摧殘,盡管一些人將 Runway 當(dāng)成一站式的視頻制作工具,但 Runway 并不期待這樣,它應(yīng)該允許其他人使用不同的軟件組合,也可以成為別人工作流的一部分,Runway 主要幫助人們提高視頻制作的效率,降低重復(fù)勞動。”

同時 Runway 希望將人類的創(chuàng)造性引入創(chuàng)作環(huán)節(jié),形成一個持續(xù)的反饋系統(tǒng),這一方面要摒棄端到端的產(chǎn)品設(shè)計,另一方面需要掌握全棧 AI 技術(shù)。

但在語言模型層面,CEO 認(rèn)為 OpenAI 已經(jīng)創(chuàng)造了足夠好的模型,沒有必要自己從零開始訓(xùn)練,團隊?wèi)?yīng)該專注于如何讓大模型變得更加可控,以期待更好的表現(xiàn)能力。

當(dāng)你有大型的語言模型,能夠?qū)⑾敕ㄞD(zhuǎn)化為內(nèi)容,你以你想要的方式在特定的空間或矢量方向上導(dǎo)航和移動,你需要新的隱喻,你需要新的抽象。真正有趣和具有挑戰(zhàn)性的是,這些隱喻是什么?那些接口是什么?你如何確保你所建立的系統(tǒng)是真正具有表現(xiàn)力的?

2. Runway 的未來可能性

Runway 一直站在 AI 技術(shù)演進(jìn)的前沿,始終在基于 AI 新技術(shù)的邊界尋找創(chuàng)造、編輯圖像和視頻全新的方式。他們不希望做一個更好的 Photoshop 或 Premiere,而是希望借助云計算和 AI 的力量塑造全新的工作流。

Runway CEO 在接受訪談中表示:

“未來每一家公司都將會成為一家媒體公司,各種規(guī)模的公司都需要源源不斷的內(nèi)容來建立敘述,接觸他們的受眾和市場,特別是許多小型企業(yè),他們的業(yè)務(wù)依賴于此。而當(dāng)涉及到客戶參與時,視頻的轉(zhuǎn)化效率比任何其他格式都要好得多。

Runway 的核心就是速度,未來創(chuàng)造專業(yè)的視頻,未必需要專業(yè)的機構(gòu)和工作室,和編輯過程打交道時昂貴且冗長的,這就需要一款快速輕量化的工具軟件,我們看到了視頻領(lǐng)域強勁的長尾效應(yīng),因為各細(xì)分市場的大量客戶始終將視頻列為未來投資和工作的最重要的創(chuàng)意媒介?!?/p>

從近期發(fā)布看,Runway 有望成為下一個時代的內(nèi)容創(chuàng)作工具:

  1. 他們最近發(fā)布的 Custom AI Training 和 Gen-2 視頻生成功能都很適合移動端,比如拍攝一張照片或一段視頻后經(jīng)過簡單的特效處理和編輯就可以分享至社交和內(nèi)容平臺;
  2. 同時團隊正在 APP 中內(nèi)測 Image to Image 功能,這與上面兩種功能有著相同的技術(shù)棧;
  3. 倘若未來Runway 可以將視頻生成功能和編輯工具形成閉環(huán)的產(chǎn)品,那么將吸引大量的 Youtube、Tiktok 視頻制作團隊完全基于 Runway 進(jìn)行視頻制作。

Reference

https://research.runwayml.com/the-research-origins-of-stable-difussion

https://runwayml.com/blog/training-an-object-detection-model-in-runwayml-to-analyze-posters/

https://sacra.com/research/cristobal-valenzuela-runway-business-video-primitives/

https://lspace.swyx.io/p/open-source-ai?utm_source=twitter&sd=pf

https://www.businessofapps.com/data/lensa-ai-statistics/

https://swyx.substack.com/p/open-source-ai?sd=pf&utm_source=twitter

https://twitter.com/runwayml/status/1622594989384519682?s=46&t=7B9oi79_pVnoIt_NHpzW6w

https://m.youtube.com/watch?v=60gzrrAFGeY

作者:Johnson;編輯:penny;公眾號:海外獨角獸(ID:unicornobserver)

原標(biāo)題:Runway:AI Native Tools工廠,視頻生成領(lǐng)域的字節(jié)跳動

本文由 @海外獨角獸 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Pixabay,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 深入思考,才能找到解決方案

    來自廣東 回復(fù)