吃飯時勿看,AI也太惡心了,文生視頻幻想破滅?

0 評論 598 瀏覽 0 收藏 9 分鐘

自從Sora發(fā)布之后,文生視頻就成為不少廠家的發(fā)力方向。但從目前的表現(xiàn)來看,現(xiàn)在的表現(xiàn)可是一言難盡。

就在昨天凌晨,AI文生視頻的知名公司Runway在官網(wǎng)宣布,其文生視頻模型Gen-3Alpha向所有用戶開放了。與 Gen-2 相比,Gen-3 在保真度、一致性和運(yùn)動表現(xiàn)方面迎來重大改進(jìn)。

但是,不論是實(shí)際使用還是看網(wǎng)友實(shí)踐,只能說有進(jìn)步,也有缺點(diǎn),一些生成的視頻甚至可以用“抽象”來形容。

同樣被認(rèn)為是“下一代”文生視頻的 Dream Machine的Luma AI在某些方面的表現(xiàn)更是堪稱“癲狂”。從去年開始,AI文生視頻就在很多人心中留下了深刻的印象,但最近的表現(xiàn)卻不禁令人懷疑,AI視頻真的有希望發(fā)展成人們設(shè)想中一句話生成任何自己想象中的影片嗎?

01 一條視頻10塊,遇到抽象視頻直接虧

Runway 的這次更新確實(shí)讓很多人眼前一亮,最重要的就是生成視頻的長度,已經(jīng)從原先的 4s 翻倍到了 10s。并且在昨天全面開放后,不少網(wǎng)友進(jìn)行測試發(fā)現(xiàn),生成10s視頻幾乎不到一分鐘,可以說不論是生成視頻長度還是速度都跟很多同行拉開了差距。

當(dāng)然,技術(shù)更新了收費(fèi)標(biāo)準(zhǔn)也更高了。如果按照月包套餐計算,基礎(chǔ)會員12美元一個月,只能拿到 625 的積分。而 Runway3生成一秒鐘,就要消耗 10 個積分。換算下來,一條 10s 的視頻價值 1.4 刀,約合人民幣 10塊。一旦生成出的視頻不符合心意就等于10塊錢打水漂了,所以視頻的質(zhì)量才是重點(diǎn)。

普通的空鏡和人物長鏡頭太沒有挑戰(zhàn)性了,于是我們想到了去年好萊塢影帝威爾·史密斯在社交媒體上發(fā)的AI整活視頻。沒錯,就是那個吃面的鏡頭,當(dāng)時讓無數(shù)網(wǎng)友震驚但最后發(fā)現(xiàn)其實(shí)不是AI生成的視頻而是本人親自出鏡拍攝的惡作劇。

吃面在普通人看來是很簡單的一件事情,但在AI眼中卻犯了難。使用工具的動作是否正確、嘴部咀嚼動作的連貫性、面條能否隨著吞咽動作的消失,都十分具有挑戰(zhàn)性。

很顯然,Rumway生成的整體流程都比較順暢,但依舊有兩個嚴(yán)重缺陷。第一是對于舌頭的形象不精確,一度讓人以為這是蜥蜴的舌頭,第二則是咀嚼面條時夸張且抽象的臉部動作,一個普通人吃面的動作卻硬是生成出了外星人到地球做客的既視感。

(視頻源自:差評X.PIN)

同樣是在吃上面,曾經(jīng)Sora也有一個吃漢堡的動作,但卻顯得十分自然。而現(xiàn)在,Sora還沒有太多動作,所以也讓人們的視野放在了其它同類型的AI工具上,快手的可靈AI也憑借其出色的表現(xiàn)成功出圈了。

(視頻源自:差評X.PIN)

說實(shí)話,這真不是快手工作人員自己拍攝然后上傳的嘛,這也太逼真了吧。上浮的熱氣,碗邊的油漬,面條消失的自然度,和現(xiàn)實(shí)幾乎一模一樣,不過從面條一開始是方便面吃到嘴里變成普通拉面這一瑕疵卻反而讓我確定了它不是真人拍攝的。

快手的可靈AI居然能夠強(qiáng)過Runway是一件十分震驚的事情,畢竟前一段時間許多人的關(guān)注點(diǎn)都在Sora、Pika、Runway 、Luma等國外軟件上,很難想象到國內(nèi)居然也有像快手可靈一樣的AI工具發(fā)展到如此程度了,更重要的是還免費(fèi)。

AI視頻最被人所期待的就是能夠正確的描繪現(xiàn)實(shí)世界的物理規(guī)則,但這也恰恰是最難的,吃面就是最直觀的體現(xiàn)之一,雖然Runway的表現(xiàn)不是最好的,但卻有比Runway還要奇葩的存在。

02 “癲狂”的人體變形體操,Luma你怎么了

最近讓網(wǎng)友熱議的不只有Runway的全面開放,還有Luma的癲狂體操表演視頻。這段視頻讓網(wǎng)友們覺得即搞笑又恐怖,實(shí)在是因?yàn)閹缀趺恳幻攵荚谙褡冃谓饎傄粯幼儞Q身體形態(tài)。

難以想象這是曾被寄予厚望的Luma AI生成出的視頻,就連Yann LeCun,這位著名的AI專家都開麥批評了Luma:“視頻生成模型不理解基本物理知識。更不用說人體了”。

自 Sora 問世以來,“AI 是否理解物理規(guī)律”這個話題就被越來越多人關(guān)注。許多人看到一些視頻里的動作十分逼真,就認(rèn)為只要 AI 視頻生成模型不斷進(jìn)化,生成的視頻質(zhì)量趨近完美,就意味著它理解物理了,但這可能沒有那么簡單。

畢竟現(xiàn)實(shí)世界不僅僅是物理,還有人體數(shù)據(jù)的分析理解。否則可能會像Luma的視頻一樣,體操運(yùn)動員落地時腳下的墊子有逼真的物理反饋,但人在空中沒有腦袋只有四肢也仍然“驚悚”。

科技旋渦認(rèn)為,AI生成視頻需要研究和進(jìn)步的地方還有很多,無論是各種數(shù)據(jù)的投喂和訓(xùn)練還是有關(guān)物理世界的學(xué)習(xí)理解,都不是一蹴而就的事情。雖然目前市面上的這些 AI時常出現(xiàn)一些笑掉大牙的錯誤,但進(jìn)一寸有一寸的歡喜,AI的發(fā)展需要時間,我們也應(yīng)當(dāng)耐心一些。

03 寫在最后

每一個AI工具在發(fā)布時都讓人震驚,但演示時的表現(xiàn)卻頗有一種賣家秀與買家秀的差異。每一款A(yù)I工具在側(cè)重點(diǎn)上都有所區(qū)別,許多愛好者經(jīng)常要用多款工具才能制作出一個滿意的作品,但只有發(fā)現(xiàn)問題才能更好的解決問題。

給歲月以文明,而不是給文明以歲月,這句話本意雖是對人類文明發(fā)展的批判,卻恰好符合當(dāng)下AI發(fā)展的態(tài)度。AI的發(fā)展不能僅僅只是滿足于消費(fèi)和物質(zhì)層面,還需要關(guān)注更深層面的提升和創(chuàng)新,不斷地反思和完善技術(shù),才能真正地實(shí)現(xiàn)人類AI發(fā)展的新紀(jì)元。

作者&編輯|孫浩南;公眾號:元宇宙新聲

本文由 @元宇宙新聲 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!