AIGC重塑數(shù)字人:落地、變革、永生

0 評(píng)論 7566 瀏覽 11 收藏 18 分鐘

AIGC的出現(xiàn)為許多行業(yè)都注入了新的動(dòng)力,比如數(shù)字人產(chǎn)業(yè),在結(jié)合AI技術(shù)的情況下,數(shù)字人未來或許能實(shí)現(xiàn)多模態(tài)交互功能,實(shí)現(xiàn)多維度的能力升級(jí)。那么,具體如何解讀AIGC對(duì)數(shù)字人產(chǎn)業(yè)的賦能?來看看作者的總結(jié)。

AIGC(生成式人工智能)在全球范圍內(nèi)火了一把,據(jù)瑞銀發(fā)布的一份研究報(bào)告顯示,自ChatGPT推出兩個(gè)月后,月活躍用戶估計(jì)已達(dá)1億,成為歷史上增長(zhǎng)最快的消費(fèi)應(yīng)用。

AIGC重塑數(shù)字人:落地、變革、永生

圖源:Google Trends

創(chuàng)造了多項(xiàng)“神話”的AIGC,一度引發(fā)全民對(duì)“被替代”“被失業(yè)”的擔(dān)憂,以快速成長(zhǎng)的ChatGPT為代表的大模型自然也受到了各企業(yè)的關(guān)注,百度推出“文心一言”以來,大模型遍地開花,包括華為、阿里、京東、商湯等科技公司陸續(xù)推出了各自的大模型項(xiàng)目。

面對(duì)日益興起的AIGC,國(guó)家互聯(lián)網(wǎng)信息辦公室就《生成式人工智能服務(wù)管理辦法(征求意見稿)》(以下簡(jiǎn)稱《征求意見稿》)向社會(huì)公開征求意見。整體來看,《征求意見稿》更多的是為規(guī)范我國(guó)人工智能、算法等行業(yè)的發(fā)展帶來了更為細(xì)致且明確的規(guī)范指導(dǎo)。

AIGC有著能在各行各業(yè)賦能的強(qiáng)大功能,ChatGPT富有創(chuàng)造性的對(duì)話讓人不禁遐想,在元宇宙時(shí)代,數(shù)字人將成為非常關(guān)鍵的角色,AIGC與數(shù)字人的結(jié)合又會(huì)對(duì)現(xiàn)實(shí)世界帶來怎樣的變化?

一、數(shù)字人走向各行各業(yè),AI方向前景廣闊

據(jù)IDC發(fā)布的《中國(guó)AI數(shù)字人市場(chǎng)現(xiàn)狀與機(jī)會(huì)分析2022》報(bào)告中,預(yù)計(jì)到2026年中國(guó)AI數(shù)字人市場(chǎng)規(guī)模將達(dá)到102.4億元人民幣。可見AI數(shù)字人前景之廣闊。

AIGC重塑數(shù)字人:落地、變革、永生

圖源:IDC

數(shù)字人最初應(yīng)用于影視、游戲行業(yè),隨后落地到各行各業(yè),在應(yīng)對(duì)更復(fù)雜的情況時(shí),人們對(duì)數(shù)字人的信息處理能力、即時(shí)互動(dòng)能力以及表達(dá)能力等需要有更高的要求。

陀螺研究院發(fā)布《2023年全球虛擬數(shù)字人產(chǎn)業(yè)報(bào)告》,其指出虛擬數(shù)字人的每個(gè)發(fā)展階段與時(shí)代背景,技術(shù)有緊密聯(lián)系,至今已邁入成長(zhǎng)階段,2023年Open AI推出的聊天機(jī)器人ChatGPT,與真人之間展開“靈活機(jī)智”對(duì)話,給由AI驅(qū)動(dòng)的虛擬數(shù)字人描繪了極大創(chuàng)作及交互想象空間,伴隨著ChatGPT成熟應(yīng)用,虛擬數(shù)“智”人將走向大眾生活。

AIGC重塑數(shù)字人:落地、變革、永生

圖源:陀螺研究院

如今AI對(duì)傳媒、影視、藝術(shù)、電商、娛樂、游戲等領(lǐng)域已經(jīng)產(chǎn)生了重要的影響。數(shù)字人需要更智能、更人性化,有更真實(shí)的表現(xiàn)力。

二、AI賦能數(shù)“智”人,加速打破次元壁

如果好看的外形是數(shù)字人的“名片”,那么AI將成為數(shù)字人的“內(nèi)核”。AI賦能數(shù)字人,未來能實(shí)現(xiàn)文本生成、音頻生成、圖像生成、視頻生成、3D模型生成等功能,延伸到多模態(tài)交互功能,進(jìn)而實(shí)現(xiàn)跨維度升級(jí)。

在外形方面,AI技術(shù)幾乎滲入到數(shù)字人構(gòu)建的各個(gè)基礎(chǔ)環(huán)節(jié):建模、生成、渲染、驅(qū)動(dòng)、呈現(xiàn)、交互等方面,目前已經(jīng)能呈現(xiàn)高保真的“人類”外形,也能做出流暢的肢體語言,如虛幻引擎的Metahuman和數(shù)年前三星演示的NEON數(shù)字人。

AIGC重塑數(shù)字人:落地、變革、永生

NEON數(shù)字人(圖源:網(wǎng)絡(luò))

為了提高數(shù)字人的真實(shí)度,前段時(shí)間英偉達(dá)更新了其Omniverse的AI能力,并宣稱將進(jìn)一步引入對(duì)生成式AI的支持,用戶可以僅憑文本信息自動(dòng)生成高質(zhì)量的材料。這一特性在Omniverse的聲音驅(qū)動(dòng)面部表情的工具Audio2Face上面也有體現(xiàn)。

AIGC重塑數(shù)字人:落地、變革、永生

高保真AI數(shù)字人(圖源:英偉達(dá))

為了演示Omniverse的新特性, Adobe Substance 3D藝術(shù)和開發(fā)團(tuán)隊(duì)使用Omniverse USD Composer(前稱Create)合作創(chuàng)作了一個(gè)虛擬數(shù)字人形象。從視頻可以看到,里面的虛擬角色視效逼真,并且皮膚呈現(xiàn)了真實(shí)的光線效果,而生成式AI,則提升了面部表情以及唇形同步的質(zhì)量。相關(guān)閱讀:《AI含量極高,GTC 2023有何新動(dòng)態(tài)?》

在數(shù)字人制作方面,AI的接入讓其生產(chǎn)成本進(jìn)一步降低。

3月,騰訊發(fā)布全新的AI智能創(chuàng)作助手“騰訊智影”,智影數(shù)字人能實(shí)現(xiàn)“形象克隆”和“聲音克隆”,創(chuàng)作者通過上傳少量圖片、視頻和音頻素材,就能得到自己的數(shù)字人分身和定制音色,進(jìn)而快速生成自己的數(shù)字人播報(bào)視頻。據(jù)介紹,騰訊智影還接入了數(shù)字人直播,可實(shí)現(xiàn)7×24小時(shí)不間斷開播。

AIGC重塑數(shù)字人:落地、變革、永生

來源:騰訊智影

商湯科技在4月的技術(shù)交流日活動(dòng)上發(fā)布了大模型體系“商湯日日新大模型”,其演示了2D數(shù)字人視頻生成平臺(tái)“如影SenseAvatar”,據(jù)稱僅需一段5分鐘的真人視頻素材,就可以生成出來聲音及動(dòng)作自然、口型準(zhǔn)確、多語種精通的數(shù)字人分身。它可應(yīng)用為智能直播、教學(xué)、短視頻等多種場(chǎng)景。

AIGC重塑數(shù)字人:落地、變革、永生

來源:商湯科技

在功能方面,結(jié)合ChatGPT的數(shù)字人不僅能完成更細(xì)致的指引、導(dǎo)航等信息提示服務(wù)工作,結(jié)合龐大的知識(shí)數(shù)據(jù)庫,在B端如金融、汽車、工業(yè)等場(chǎng)景以及C端的影視、游戲、直播等領(lǐng)域?qū)⒂懈蟮陌l(fā)展空間。

另外,OpenAI于今年3月發(fā)布了多模態(tài)預(yù)訓(xùn)練大模型GPT-4,ChatGPT的功能有了進(jìn)一步提升:擁有識(shí)圖功能;擴(kuò)大文字輸入限制至2.5萬字;對(duì)話內(nèi)容準(zhǔn)確性提高;能生成有風(fēng)格變化的創(chuàng)意文本等。多模態(tài)功能將使數(shù)字人的交互、決策建議更為真實(shí)有效。

三、人人都能實(shí)現(xiàn)“數(shù)字永生”

ChatGPT發(fā)布后,大量AI工具順勢(shì)而生,在一些AIGC的門戶網(wǎng)站上甚至收錄了海內(nèi)外上千款A(yù)I應(yīng)用。包括搜索引擎、文本寫作、聊天機(jī)器人、語音合成、音樂制作、繪畫生成、圖像化身、圖像合成、3D生成、視頻技術(shù)、數(shù)字虛擬人、游戲應(yīng)用、無代碼創(chuàng)作等40個(gè)細(xì)分領(lǐng)域。幾乎人人都能創(chuàng)建符合自己需求的數(shù)字人。

AIGC重塑數(shù)字人:落地、變革、永生

圖源:AIGC中文工具導(dǎo)航截圖

得益于這些AI工具強(qiáng)大的內(nèi)容生成能力,現(xiàn)在網(wǎng)上也出現(xiàn)了不少“整活”嘗試。

前陣子AI在B站上掀起一陣華語樂壇的“賽博文藝復(fù)興”熱潮,不少UP主利用音樂大模型軟件,通過內(nèi)容編碼器提取源音頻語音特征,進(jìn)行AI翻唱制作,讓歌手“唱”起來。與B站“鬼畜區(qū)”的人力調(diào)音不同,AI翻唱的效果非常真實(shí)自然,實(shí)際一聽?zhēng)缀蹼y以分辨出是真人還是AI的聲音,甚至還能看到視頻中有不少?gòu)椖挥懻撈餉I唱功好不好……

AIGC重塑數(shù)字人:落地、變革、永生

圖源:B站截圖

另一方面,也有人在嘗試證明AI“技術(shù)向善”。UP主吳伍六發(fā)布了一則名為“用AI工具生成我奶奶的虛擬數(shù)字人”的視頻,他嘗試用AI+照片、音頻來生成已故奶奶的數(shù)字人,并與之進(jìn)行虛擬對(duì)話。

前兩年韓國(guó) MBC 電視臺(tái)在出品大型 VR 紀(jì)錄片《見到你了》中,利用VR技術(shù)復(fù)活了7歲小女孩。

AIGC重塑數(shù)字人:落地、變革、永生

圖源:網(wǎng)絡(luò)

通過AI語音合成技術(shù),提取小女孩生前影像音頻。同時(shí)找來5個(gè)同齡的孩子錄制上百條音頻作為補(bǔ)充,最終復(fù)原成功小女孩的聲音。再結(jié)合3D建模,動(dòng)作捕捉等技術(shù)抓取三維坐標(biāo)數(shù)據(jù),初步還原小女孩外形。相關(guān)閱讀:《VR 掃墓,數(shù)字永生,技術(shù)正在重新定義“生命”》

在現(xiàn)實(shí)中不可能做到的“復(fù)活”和“永生”,卻能通過技術(shù)得以實(shí)現(xiàn),這類視頻引發(fā)了網(wǎng)友們對(duì)AI、生命、侵權(quán)、感情、寄托、人性和倫理道德的思考和討論,展現(xiàn)不同人對(duì)數(shù)字生命的理解。

四、AI數(shù)字人在直播領(lǐng)域悄然生長(zhǎng)

在元宇宙中數(shù)字人已經(jīng)是有著較為成熟體系的領(lǐng)域,從技術(shù)到實(shí)際落地再到商業(yè)化,如今虛擬偶像、虛擬演唱會(huì)等垂直場(chǎng)景大行其道,而數(shù)字人直播已不是新鮮事。

AIGC重塑數(shù)字人:落地、變革、永生

圖源:IDC

在數(shù)字人商業(yè)化的道路中,無論是主打陪伴的娛樂型數(shù)字人還是以電商帶貨為主的功能服務(wù)型數(shù)字人,AI數(shù)字人在直播中的應(yīng)用率正逐漸提高,然而現(xiàn)階段的數(shù)字人直播,絕大多數(shù)情況下,包括外形設(shè)計(jì)、配音、互動(dòng)等都仍需要人類進(jìn)行干預(yù),AI只能實(shí)現(xiàn)一些簡(jiǎn)單的交互。

在海外已有基于ChatGPT+VRM(3D模型)+VOICEVOX(文本轉(zhuǎn)語音軟件)創(chuàng)建聊天型人工智能的案例。例如OshaberiAI,這是一款允許用戶創(chuàng)建養(yǎng)成型角色并與之聊天的應(yīng)用程序,通過設(shè)計(jì)對(duì)ChatGPT的提示(指令),為數(shù)字人設(shè)定各種個(gè)性和語氣,與用戶進(jìn)行簡(jiǎn)單的聊天交互。

AIGC重塑數(shù)字人:落地、變革、永生

圖源:推特

目前該應(yīng)用已上線AppStore,此前該開發(fā)者也在AR+數(shù)字人導(dǎo)航方面做了一些嘗試,推出了“ARCharaNavi”,用戶在應(yīng)用中設(shè)定好目的地之后,數(shù)字人會(huì)根據(jù)選擇好的路線在屏幕中的路線前方帶領(lǐng)用戶前行。

而AI數(shù)字人的強(qiáng)大勝在可控性高,模式可復(fù)制,能7×24小時(shí)保持在線,在直播領(lǐng)域成了不少電商品牌的“新歡”。

中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心日前發(fā)布的第51次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2022年12月,中國(guó)網(wǎng)民規(guī)模達(dá)10.67億,短視頻用戶規(guī)模達(dá)10.12億,短視頻用戶滲透率高達(dá)94.8%,而網(wǎng)絡(luò)直播用戶規(guī)模達(dá)7.51億。

有了龐大的直播受眾,投身于電商直播的AI數(shù)字人表現(xiàn)如何?成本低是品牌方選用數(shù)字人進(jìn)行直播的一大因素,某品牌直播間售價(jià)和數(shù)字人服務(wù)定價(jià),粗略計(jì)算后日均花費(fèi)大約在600元左右,相比于聘請(qǐng)真人主播,能大幅減少支出成本。

目前在電商直播領(lǐng)域,AI數(shù)字人通常在夜間至凌晨直播,彌補(bǔ)真人主播休息期間的空缺,盡可能獲取更多閑時(shí)流量。現(xiàn)階段用戶可以通過關(guān)鍵詞觸發(fā)與數(shù)字人關(guān)于商品的交互,要讓AI數(shù)字人執(zhí)行更細(xì)致的指令和互動(dòng)還有一定難度。

AIGC重塑數(shù)字人:落地、變革、永生

圖源:抖音網(wǎng)頁版截圖

而在短視頻平臺(tái),已有不少AI數(shù)字人嘗新開設(shè)全天無休的直播間,實(shí)際上這類重復(fù)相似對(duì)話內(nèi)容的直播間熱度并不高,如果有明星IP加入,則會(huì)帶來更顯著的引流效果。例如樂華七子的黃新淳,基于他本人的形象設(shè)計(jì)了數(shù)字人分身,結(jié)合AI算法來控制數(shù)字人的動(dòng)作和表情,還能正常與粉絲進(jìn)行互動(dòng)。

AI數(shù)字人在視覺效果和語音上越發(fā)真實(shí),也就意味著人們將更加難以辨別真人與“數(shù)字人”,且絕大部分人是第一次接觸AIGC內(nèi)容,為了避免更多的AI內(nèi)容對(duì)觀眾造成誤解,不少視頻平臺(tái)發(fā)布了相關(guān)平臺(tái)規(guī)范。

抖音APP官方公眾號(hào)于近期發(fā)布《抖音關(guān)于人工智能生成內(nèi)容的平臺(tái)規(guī)范暨行業(yè)倡議》一文,指出“各生成式人工智能技術(shù)的提供者,均應(yīng)對(duì)生成內(nèi)容進(jìn)行顯著標(biāo)識(shí),以便公眾判斷。同時(shí)使用統(tǒng)一的人工智能生成內(nèi)容數(shù)據(jù)標(biāo)準(zhǔn)或元數(shù)據(jù)標(biāo)準(zhǔn),便于其他內(nèi)容平臺(tái)進(jìn)行識(shí)別?!?/p>

AIGC重塑數(shù)字人:落地、變革、永生

圖源:抖音APP官方公眾號(hào)

就連海外知名插畫平臺(tái)Fanbox的運(yùn)營(yíng)商PixivFANBOX,也宣布禁止上傳和銷售使用Midjourney 、Stable Diffusion等AI藝術(shù)工具生成的插圖,將對(duì)發(fā)布由AI創(chuàng)作作品的賬號(hào)采取措施,如發(fā)出警告、限制可見范圍、封禁賬號(hào)等。未來將會(huì)有更多平臺(tái)自發(fā)加入規(guī)范AIGC內(nèi)容的陣營(yíng)中。

AI數(shù)字人在直播領(lǐng)域,尤其是電商板塊的落地進(jìn)程加快,其變現(xiàn)能力強(qiáng)、操作門檻低(不少平臺(tái)推出無代碼方案)、降本增效顯著等優(yōu)勢(shì)迎合了品牌方對(duì)數(shù)字化電商直播的需求。同時(shí),部分頭部電商直播MCN也能憑借自身在IP運(yùn)營(yíng)管理、平臺(tái)流量資源、品牌方資源的積累,嘗試從真人直播轉(zhuǎn)向數(shù)字人直播,提高閑時(shí)階段的收益?,F(xiàn)階段的AI數(shù)字人仍有非常大的發(fā)展空間。

五、結(jié)語

在元宇宙盛行的時(shí)期,數(shù)字人還只是人們眼中的“流量明星”,背后又牽扯到高成本的動(dòng)捕和中之人運(yùn)營(yíng),普通人幾乎難以企及。雖然現(xiàn)階段的AI數(shù)字人仍然未達(dá)到能跟真人“搶飯碗”的能力,但成長(zhǎng)迅速的AI正在加速數(shù)字人走向大眾的進(jìn)程,而ChatGPT則是AI數(shù)字人最佳的接入口之一,為數(shù)字人的人機(jī)交互功能帶來更多落地應(yīng)用機(jī)會(huì)。

作者:VR陀螺 豌豆

來源公眾號(hào):VR陀螺(ID:vrtuoluo),XR行業(yè)垂直媒體,關(guān)注VR/AR的頭部產(chǎn)業(yè)服務(wù)平臺(tái)。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @VR陀螺 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!