數(shù)字人的表里,仰算力之鼻息

0 評論 5176 瀏覽 4 收藏 17 分鐘

虛擬數(shù)字人的相關(guān)消息在近幾年來不斷涌現(xiàn),而在好看的皮囊背后,在數(shù)字人的發(fā)展背后,算力是不可忽視的支撐之一。具體如何理解呢?這篇文章里,作者就發(fā)表了他的見解和看法,一起來看看吧。

2023,可謂是數(shù)字人們的“當打之年”:

4月,騰訊云發(fā)布智能小樣本數(shù)智人生產(chǎn)平臺。該平臺基于通用多模態(tài)大模型技術(shù),只需要3分鐘真人口播視頻、100句語音素材等小樣本,便可通過多模態(tài)數(shù)據(jù)輸入與實時建模,制作出與真人近似的“數(shù)智人”;

同月,商湯在發(fā)布的“日日新”大模型體系下,上線了如影數(shù)字人視頻生成平臺,用戶可通過一段5分鐘真人視頻素材生成數(shù)字人;

數(shù)字人的表里,仰算力之鼻息

(商湯如影虛擬人生產(chǎn)平臺 圖源:商湯)

近日,在上海舉辦的第二十屆中國國際數(shù)碼互動娛樂展覽會(ChinaJoy)上,華為云宣布,與360、網(wǎng)易伏羲、斗魚、愛奇藝等7家互聯(lián)網(wǎng)企業(yè)發(fā)起“華為云盤古大模型互聯(lián)網(wǎng)聯(lián)創(chuàng)計劃”,并將推出盤古數(shù)字人大模型,探索AI在數(shù)字文娛的創(chuàng)新應用。

涌現(xiàn)的數(shù)字人背后,是大模型的傾囊相助:大模型解決了成本難題。在數(shù)字人的下半場,誰更有趣,誰更像人,成為大模型時代的競爭主題。

對于人,好看的皮囊與有趣的靈魂,有一項即可。而對于數(shù)字人這一產(chǎn)品,二者缺一不可。

那么,大模型如何解決了成本難題,好看的皮囊與有趣的靈魂代價如何?

一、數(shù)字人“兵敗”元宇宙

人,總是想著如何替代人。

基于人們的貪婪與懶惰、對完美的極致渴求,盡管24小時工作且效率高的機器人落地遙遙無期,但熱度一直沒降過。更簡單的數(shù)字人(包括虛擬人、虛擬數(shù)字人),更是火了十幾年:今年已是洛天依出道11周年,現(xiàn)仍居于2023年中國虛擬人百強榜榜首。

11年間,各式各樣的虛擬人紛紛涌現(xiàn):《中國虛擬數(shù)字人影響力指數(shù)報告》課題組副組長張麗錦表示,虛擬偶像、虛擬員工、虛擬主播這三類是當前虛擬數(shù)字人商業(yè)化價值最高、企業(yè)及資本參與度最強的類型。

數(shù)字人的表里,仰算力之鼻息

(2023年中國虛擬人百強榜 圖源:華泰研究)

目前市面上的身份型虛擬偶像扎堆,但只有極少數(shù)接代言接到手軟。虛擬人偶像鼻祖洛天依,重金打造的柳葉熙、AYAYI,除了接代言,辦演唱會這類稍縱即逝的福利,并沒有長期“飯碗”存在。

“巨星”背后,是難以估量的巨款。七牛云AIGC事業(yè)部負責人許斐在接受媒體采訪時指出,早期制作一個純3D數(shù)字人,總成本大約為幾十萬,要做到柳葉熙同等級別,成本甚至會高達百萬,小規(guī)模B端客戶很難去負擔。

瑞銀發(fā)布的數(shù)字人研究報告指出,高級虛擬人物的先期投入成本平均為3000萬元,后期又需要真人團隊完成拍攝、配音、剪輯。以樂華娛樂的虛擬女團A-SOUL為例,其一支單曲制作成本約200萬元,一場線下演唱會成本約2000萬元。

關(guān)于虛擬偶像,最致命問題是,真人偶像尚且沉浮,缺乏人格魅力的虛擬人如何一直活下去?

職能型虛擬員工小“X”們也出過幾次新聞。例如浦發(fā)銀行的“小浦”,提高了營業(yè)廳業(yè)務效率;湖南衛(wèi)視“小漾”和何炅一起主持,增添了節(jié)目熱度。

而經(jīng)《銀行科技研究社》測試體驗,工行、建行新推出的數(shù)字人智能程度并不高,表現(xiàn)為面對稍微復雜的問題便無法回答或答非所問,不能準確聯(lián)系上下文進行理解并給出答案等。

就如百家云總裁馬義所說,虛擬人算一個不錯的點,但是想要提供擬人的服務與體驗,還有很長的路要走,目前還沒到產(chǎn)生巨大應用價值的時候。雖然有很多新穎的玩法,但往往一出來很快被同質(zhì)化。

想要玩好虛擬人,必須要讓大家看到長遠的價值。相比于“曇花一現(xiàn)”的藝人、“形式大于內(nèi)容”的虛擬員工,虛擬主播所在的電商,無疑成為最具價值量的賽道。

目前直播間存在主播水平參差不齊,背景混亂,產(chǎn)品展示失焦等問題。而虛擬交互技術(shù),能夠重塑“人貨場”:用AR豐富場景,用3D技術(shù)全方位展示貨品,用動作捕捉和LIVE 2D及3D技術(shù)打造中之人,或用AI語料庫鍛煉出能夠?qū)崟r對話的虛擬人,并將三者結(jié)合,做一場高科技感,高互動性,全新體驗的直播。

然而,想要打造現(xiàn)象級的中之人制作成本高,時間成本也不容小覷。

去年7月,在抖音擁有42.7萬粉絲的虛擬主播“許安一”迎來了自己的直播百天紀念日,直播期間在線人數(shù)超過了1萬人。據(jù)自媒體有趣動漫社報道,許安一這一百天的直播中收到970多萬的打賞,相關(guān)知情人士只表示“確實很強,但他們成本也挺高”。據(jù)了解,許安一制作團隊花了將近7個月的時間進行“人設”的打造。

在先前的元宇宙時代,無論是虛擬偶像、員工還是主播都面臨著同質(zhì)化嚴重,成本關(guān)難過等難題,所以新人難進,僅有頭部idol,長久地瓜分虛擬人的蛋糕。

二、從元宇宙到大模型

大模型到來之后,數(shù)字人“容光煥發(fā)”,如雨后春筍般冒出。

我們都知道的是,GPT-4等大模型提高了AI的智力?;诖?,虛擬員工、虛擬主播(AI驅(qū)動型)能夠提升自己的業(yè)務能力。

例如,在直播電商場景中,當你告訴數(shù)字人帶貨產(chǎn)品的主要特點、價格以及產(chǎn)品優(yōu)勢,并且讓他以爆笑喜劇風設計三種直播講稿,數(shù)字人平臺將會直接提供幾種不同風格的稿件。

百度數(shù)字人業(yè)務負責人李士巖表示,現(xiàn)階段虛擬數(shù)字人的人格化和內(nèi)容運營往往受限于前期的創(chuàng)意效率問題,如果能和一些大模型結(jié)合起來,那么就可以通過AIGC拓展創(chuàng)意邊界、提升內(nèi)容生產(chǎn)效率。

創(chuàng)意邊界,毋庸置疑將會依靠大模型的語料庫、算力儲備,以及其所迸發(fā)的涌現(xiàn)能力來提升,效果仁者見仁智者見智;而內(nèi)容生產(chǎn)效率的提升,已有廠商和客戶給出確切答案:大模型來臨之后,數(shù)字人突然變“便宜”了。

2023年,廠商們搶著給出自己的低成本數(shù)字人:

360透露,目前正重點將數(shù)字人營銷作為大模型落地的商業(yè)化業(yè)務,從年初至今已經(jīng)產(chǎn)生了千萬級收入。按照會員用戶每月付費的標準估算,一款數(shù)字人的價格最低幾十元,最高在一、二百元上下。

一家數(shù)字人解決方案的公司風平智能表示,原本一家客戶需要請專業(yè)人才完成醫(yī)療咨詢,每年花費超過1億,使用大模型驅(qū)動的AI數(shù)字人方案之后,費用預計降低至少80%。

與此同時,客戶也給出了五星好評:確實省錢。

據(jù)太火梁一親身體驗,數(shù)字人直播平時日銷5-10萬,618大促數(shù)字人直播15小時GMV30萬。

數(shù)字人的表里,仰算力之鼻息

(數(shù)字人直播數(shù)據(jù) 圖源:太火梁一)

以下是其在上海用真人直播18小時和用數(shù)字人直播18小時的每月成本對比(此成本預估根據(jù)具體人員安排和所在地市,有些許差異)。

數(shù)字人的表里,仰算力之鼻息

數(shù)字人的表里,仰算力之鼻息

綜合市場目前的觀點來看,成本的節(jié)省來源于單個視頻生成成本,二是多個行業(yè)遷移成本。

商湯數(shù)字人相關(guān)產(chǎn)品負責人表示,基于大模型的AI數(shù)字人視頻生成平臺,可打通從上傳視頻、處理數(shù)據(jù)、訓練模型、轉(zhuǎn)換模型到模型部署的自動化閉環(huán),將傳統(tǒng)視頻制作流程中的人工處理時間大幅減少90%,模型訓練時間減少60%,只需1天即能完成各類定制數(shù)字人訓練。

風平智能CEO林洪祥,給出了新階段數(shù)字人的生成流程與耗時:只需要對人物進行一段5分鐘時間的視頻拍攝,人物形象就可以有效地建立起來;同樣是幾分鐘的聲音錄制,便可完成聲音采集;接下來視頻、聲音分別進行建模,常規(guī)建模周期只需2-5天。

同時,依靠大模型的底座能力,通過輸入多個小樣本,能夠適應多個場景的業(yè)務需求。先前的數(shù)字人需要一個一個分別培養(yǎng),現(xiàn)階段每個數(shù)字人皆有通識知識,“分配”崗位之時,輸入多個行業(yè)的小樣本之后,便能快速上崗。

大模型過后,數(shù)字人的歷史包袱正一個一個被卸下:成本已然得到解決,智力提升“有,但可能不多”,而同質(zhì)化有待考察,亟需精細化運營。

三、魅力,取決于算力

當能夠飛入尋常百姓家之時,數(shù)字人需要對自己“高要求”。

業(yè)內(nèi)人士,給了些tips:英偉達副總裁沈威認為,多模態(tài)交互和深度學習是數(shù)字人真正的靈魂。上??萍即髮W虞晶怡教授給出了更具體的說法:通過建模、渲染、動作捕捉和AI驅(qū)動等關(guān)鍵技術(shù)構(gòu)成底層架構(gòu),能夠讓數(shù)字人的外貌更加精致、形象更加逼真,動作更加自然。

數(shù)字人的表里,仰算力之鼻息

(數(shù)字人技術(shù)匯總 圖源:騰訊)

而無論是好看的皮囊還是有趣的靈魂,都需算力的傾囊相助。

好看的皮囊,對于算力加碼的變化是肉眼可見的。據(jù)科技最前線報道,以阿凡達為例,《阿凡達2》所有存儲數(shù)據(jù)總量為18.5PB,而《阿凡達1》只有1PB。

好看的背后是數(shù)據(jù)量的爆炸倍增,而數(shù)據(jù)量背后的支撐則是澎湃的算力。

在《阿凡達1》的視覺效果制作中,制作工作室為了渲染其中美輪美奐的特效場景,動用了占地10000平方英尺的服務器群,其中有4,000臺物理服務器,共有35,000個處理器核心?!栋⒎策_2》的超級渲染更是夸張,為了完成部分畫面的渲染任務,制作工作室調(diào)用了六千個處理器渲染了一年之久。

而有趣的靈魂層面,大模型對算力的奪取能力更不用說了。據(jù)偲睿洞察測算,現(xiàn)階段 ChatGPT 日活一億,若每日有5%的人每秒同時提問,將會吞噬三峽大壩近一年的發(fā)電量。

數(shù)字人的表里,仰算力之鼻息

假設有1億人同時在線,每日有5%的人每秒同時提問,每個prompt占30個token,便需要1530萬顆H100芯片來提供其推理算力;而每顆H100的功耗在750W左右,若每天運行10個小時,這些H100芯片所在的數(shù)據(jù)中心一年的耗電量將達到840億kW*h,而三峽大壩一年的發(fā)電量是882億kW*h。

這,還只是ChatGPT一個大模型在推理階段的耗電量,百家大模型全階段、全部運作的耗電量,難以估量。此時,大廠的優(yōu)勢便顯現(xiàn)出來:有多項業(yè)務去瓜分大模型訓練的好處,分擔其成本。這也就意味著,落實到數(shù)字人這一項目的成本,較為可觀。

在算力消耗居高不下之時,廠商還要給出一套低功耗的數(shù)字人解決方案,中科深智創(chuàng)始人成維忠表示:客戶的要求首先則是算力消耗要低,國內(nèi)用戶對這點很敏感,按照現(xiàn)在各家的報價來推理,我們的用戶是用不起的。

而算力之外,大模型與數(shù)字人的接洽,也并非十分“愉快”:據(jù)雷鋒網(wǎng)報道,有用戶反饋,目前市面上的大模型無法滿足他們的要求。

中科深智對國內(nèi)外主流的大模型進行測試,發(fā)現(xiàn)幾個問題:第一是調(diào)用的速度不能滿足虛擬人的實時交互要求,其實響應速度的問題從原理上來說是解決不了的;第二是國外的模型對于中文的支持度很差,國內(nèi)的模型雖然調(diào)用的速度快,但是在開放性方面存在問題。

作為現(xiàn)階段大模型為數(shù)不多商業(yè)化落地的數(shù)字人,若要做出差異,好看的皮囊,有趣的靈魂都不可缺少,供應商們必然要給足算力與語料庫的“養(yǎng)分”,去建模、渲染、仿真、AI驅(qū)動,去幽默、帶貨、搬磚······

數(shù)字人的表里,如一地需要算力的支持。

作者:Renee;編輯:孫越

來源公眾號:偲睿洞察(ID:siruidongcha),陪伴中國產(chǎn)業(yè)升級與迭代。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @偲睿洞察 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!