數(shù)字人,AI爆發(fā)的下一個入口

0 評論 285 瀏覽 0 收藏 17 分鐘
🔗 B端产品经理需要更多地进行深入的用户访谈、调研、分析,而C端产品经理需要更多地快速的用户测试、反馈、迭代

在直播電商增速放緩、頭部主播影響力衰退的當下,數(shù)字人直播正逐漸成為品牌商家的新寵。從2021年起,品牌們開始探索數(shù)字人直播以提升效率、降低成本,如今技術的成熟和成本的降低讓數(shù)字人從概念走向?qū)嶋H應用,不僅在直播間大放異彩,還在更多場景中展現(xiàn)其價值,成為AI產(chǎn)業(yè)的重要驅(qū)動力之一。

過去五年間,直播電商增速從245.9%下落至兩位數(shù),不少頭部主播遭遇“上限危機”,轉(zhuǎn)化率和影響力衰退,數(shù)字人直播等新形式的興起則為更多品牌商家提供了“開播”的新選擇。

給直播間配一個“賽博打工人”,對童裝品牌巴拉巴拉而言,其實已不是什么新鮮操作,而是直播電商行業(yè)“冷與熱”的現(xiàn)實。

“我們當時沒有抱太大希望,5%相對來說是非??捎^的?!卑屠屠辈ミ\營負責人李蕙蘭對這個數(shù)字人“上崗”第一天的表現(xiàn)很滿意,當時是24年4月?,F(xiàn)在,這個數(shù)字已上漲到了15%左右。

過去五六年間,特別在大模型掀起的新一輪技術浪潮里,“數(shù)字人”憑借高性價比、高轉(zhuǎn)化,成為大模型應用率先落地的絕佳場景,幾乎成為所有廠商的共識,但共識的另一面有一個靈魂拷問:

“數(shù)字人未來的價值在哪兒?有沒有機會成為AI爆發(fā)的下一個入口”?

01 數(shù)字人「爆改」直播間,一場品牌和技術的「雙向奔赴」

數(shù)字人涌入直播間,成為新晉的“賽博打工人”,不是一場偶然。

早在2021年,巴拉巴拉就開始接觸和布局數(shù)字人直播,他們的目標跟眾多品牌一樣——提升內(nèi)部效率。

一方面,是為了滿足當下消費者全時段購物的需求,特別在清晨深夜,很多“寶爸寶媽”都會繼續(xù)在直播間內(nèi)“求鏈接”,另一方面,則是為了降低主播的壓力,巴拉巴拉的主直播團隊中主播人數(shù)占比近七成,他們?nèi)粘2粌H需要同時負責多個電商渠道的開播任務,在大促時還需額外延長直播時間。

在這樣一個高強度高節(jié)奏的工作氛圍中,主播也難免面臨情緒壓力,引入數(shù)字人不僅可以和真人主播協(xié)同,還可以替真人主播在品牌閑時“打工”,這是一個近乎完美的設想。

除此以外,對品牌商家而言,采用數(shù)字人直播可以省下一大筆費用。

一位直播行業(yè)人士告訴「財經(jīng)無忌」,單個直播團隊主要包括了主播、中控、場控、運營等,真人主播的投入一年至少在50萬上下,這還不包括還有場地設備和其他人力投入。

大品牌一般都有完備的直播矩陣,一年投入至少上百萬,這對中小商家而言,幾乎一個天文數(shù)字,相比而言,不用真人主播,也無需搭建真實直播間的數(shù)字人大大減少了成本投入,降低成本超九成。

上述直播從業(yè)人士還告訴「財經(jīng)無忌」,商家看中數(shù)字人還有多方面訴求,比如有利于克服真人主播的稀缺性,降低風險,還有的則是利用數(shù)字人給直播內(nèi)容增加更多的玩法:“直播電商早就進入存量了,現(xiàn)在卷數(shù)字人也是找增量?!?/p>

但設想美好,現(xiàn)實殘酷,在巴拉巴拉渠道負責人張嘉棟眼中:“早期的數(shù)字人很像機器人,和消費者的互動也很像錄播?!?/span>數(shù)字人想要逼近真人主播,彼時還存在三道鴻溝:

  1. 人味兒不夠:數(shù)字人的動作靈活度、語言回復(交互)和真人主播相比擬人度不足,一眼假。
  2. 流量規(guī)模不足:很多平臺數(shù)字人都以私域為主,沒辦法在公域露出。
  3. 成本效率問題:數(shù)字人看似成本低,但也存在很多的“隱形成本”,比如定制數(shù)字人、產(chǎn)品和運營素材更新等,這對商家運營能力提出了更高的要求。

但現(xiàn)在,這些更實際的問題和鴻溝在京東言犀數(shù)字人的直播間已經(jīng)看不到了。

“今年我們明顯能感受到,接入DeepSeek后言犀數(shù)字人在回復內(nèi)容和表達豐富度上有很明顯的提升?!崩钷ヌm提到,針對家長面料、材質(zhì)、設計或尺碼的提問,言犀數(shù)字人已經(jīng)能很精準地解決,令她更沒想到的是,言犀數(shù)字人還能傳遞一些情緒價值:“比如,某深夜寶爸寶媽涌進直播間焦急的問詢,‘她’會安撫性地先疏導情緒,再準確推薦適合寶寶的商品?!?/span>

京東科技算法負責人吳博士告訴「財經(jīng)無忌」,數(shù)字人直播可以分為三個階段,第一階段是真人主播50%的水平,主要可以作為真人主播的補充;第二階段,是達到真人主播70%的水平,這需要綜合考察“數(shù)字人”:“結合用戶體驗和用戶行為的具體指標,如直播間停留時長、真實轉(zhuǎn)化情況,這才接近資深主播的水平”。

第三個階段則是當下。他提到,在京東平臺上,有不少數(shù)字人主播已進入頭部的10%主播的平均水平。

數(shù)字人技術的成熟并非一蹴而就,京東內(nèi)部的數(shù)字人技術迭代也分為「實驗室-單人模型-通用大模型」三個階段,京東科技人工智能團隊近期發(fā)布的數(shù)字人通用的基座大模型就處于第三階段,可以通過語音合成大模型LiveTTS及通用數(shù)字人大模型LiveHuman,僅需輸入文本提示或1秒視頻/照片,即可生成4K超高清、100%口型匹配的數(shù)字人。

這也意味著數(shù)字人從過去的單人模型走向了一體化生成?!澳憧梢酝ㄟ^語音一個信號去驅(qū)動所有的表情成型和動作?!眳遣┦肯颉肛斀?jīng)無忌」解釋。

02 穿過「蠻荒年代」,數(shù)字人開卷價值

不過,所有的數(shù)字人行業(yè)玩家也都知道,數(shù)字人從概念、風口再到如今走向行業(yè)產(chǎn)業(yè)“要價值”,也曾經(jīng)歷過一段“蠻荒時代”。京東是業(yè)內(nèi)投入較早、也是最看好數(shù)字人賽道的首批玩家,這背后是一套自己的考量。

一是,京東在“看、聽、說”結合的多模態(tài)技術上實際有著很深的沉淀,從文本、語音再到視覺,能在大量的使用場景中提升模型的魯棒性,結合場景反饋迭代數(shù)字人技術,不斷攻克每一個難題。

比如在大姿態(tài)上,數(shù)字人需要走動,且擁有復雜的微表情和唇形,在實際應用中會遇到光線挑戰(zhàn)、唇形對齊等問題,而京東言犀這些年不斷探索數(shù)字人技術,從聲唇同步、大姿態(tài)數(shù)字人,再到小樣本合成、語義驅(qū)動動作合成、語言音色等聲唇同步等,這些后端的技術和算法很好地彌合了技術與應用的鴻溝。

二是,對直播場景的knowhow。京東供應鏈積累的商品數(shù)據(jù)優(yōu)勢、消費行為數(shù)據(jù),深入場景,得到反饋,可以訓練數(shù)字人更懂“人”,從京東優(yōu)勢的零售場景做起,再去衍生到其他場景中。

更關鍵的還有一點,比起談數(shù)字人的技術,京東內(nèi)部算法、產(chǎn)品和運營團隊更強調(diào)“卷價值”,產(chǎn)品經(jīng)理和算法之間的決策鏈路很短,來自用戶和商家的反饋可以迅速傳達到技術側(cè),甚至他們會想在商家和用戶前面。

李蕙蘭提到,巴拉巴拉早期對于數(shù)字人形象和場景需求都很粗糙,在和京東言犀團隊的不斷溝通過程中,逐漸找到了更清晰的落地場景,現(xiàn)在無論是利用現(xiàn)有直播間場景直接數(shù)字人開播,還是根據(jù)巴拉巴拉線下門店、節(jié)日節(jié)慶場景等做定制,他們的感受是言犀數(shù)字人的多樣性和真實性都在逐漸提升。

如今,數(shù)字人在直播間也已不單單是基礎的轉(zhuǎn)化目標,而是逐漸成為品牌與用戶交互的重要觸點。

在依賴真人試穿展示的服飾直播間,數(shù)字人提升了直播的效率和靈活,安踏聯(lián)合言犀數(shù)字人在成都線下旗艦店打造了高仿真的定制數(shù)字人走秀直播間,主播數(shù)字人一邊講解賣點,另一邊的模特數(shù)字人則無縫切換30余件爆款穿搭, 消費者還可以直接體驗“云試衣間”,線上試穿。

「財經(jīng)無忌」了解到,2024年雙十一期間,數(shù)字人帶動安踏直播間GMV突破2000萬,公域成交GMV達140萬,轉(zhuǎn)化率達32.06%,相當于每3人瀏覽即有1人下單。

數(shù)字人甚至卷進了高端美妝直播間,某國際高端美妝品牌通過使用言犀數(shù)字人,定制了極具專業(yè)感的數(shù)字人“美妝顧問”,同時為明星單品定制虛擬試妝片段,消費者不僅可以感受到極具節(jié)慶氛圍感的直播場景,還可以更直觀地看到產(chǎn)品上妝效果,購買意愿大大提升,品牌轉(zhuǎn)化率近10%。

數(shù)字人的玩法也在不斷豐富,除了數(shù)字人現(xiàn)場試妝、模特走秀,還有雙人互動接捧哏、總裁上陣、抱著玩偶坐播、現(xiàn)場品酒,只要能帶流量、能促轉(zhuǎn)化,品牌和數(shù)字人的花活不斷。

03 直播間外,數(shù)字人將成為下一個AI超級入口?

2025,數(shù)字人賽道的含金量還在提升。

據(jù)IDC預計,到2026年中國AI數(shù)字人市場規(guī)模將達到102.4億元,艾媒咨詢預計2025年,中國數(shù)字人帶動的產(chǎn)業(yè)市場規(guī)模和核心市場規(guī)模分別為6402.7億元和480.6億元,是2023年的兩倍,未來,數(shù)字人應用有望成為AI產(chǎn)業(yè)的重要驅(qū)動力之一。

驅(qū)動數(shù)字人深入行業(yè)的關鍵仍在于成本,越來越多的行業(yè)可以“用得起”數(shù)字人了,比如京東言犀就將單個數(shù)字人生產(chǎn)成本大幅度拉低,較真人拍攝成本下降了90%以上?!肛斀?jīng)無忌」了解到,京東言犀數(shù)字人未來將探索兩大方向,一是推出“千人千面”的數(shù)字人直播間,二是打造智能體,真正成為品牌商家的直播“代理”。

一位AIGC從業(yè)者也告訴「財經(jīng)無忌」,成本下探后,下游客戶對數(shù)字人的態(tài)度已由觀望轉(zhuǎn)向擁抱,目前客戶不僅關注降本能力,也開始關注數(shù)字人廠商的綜合技術實力和垂直行業(yè)經(jīng)驗。

直播間外,數(shù)字人也在創(chuàng)造更多的可能性。

首先,是場景的延伸。不止是直播間,京東言犀目前積累的全棧數(shù)字人技術已經(jīng)拓展到各行各業(yè),比如,達人復刻自己的形象形成數(shù)字人IP,批量生成口播短視頻;品牌生成大量的帶貨短視頻,批量投放;景區(qū)的數(shù)字人AI導游,它既可以講解歷史,也可以為當?shù)匚穆弥辈ж洠贿€有為用戶提供初診的“數(shù)字醫(yī)生”等等,「財經(jīng)無忌」了解到,目前京東言犀數(shù)字人也在短視頻、文旅,金融服務、醫(yī)療、AI陪伴等場景探索落地。

“孤獨經(jīng)濟”盛行下,數(shù)字人不再是冷冰冰的工具,而是化身情感療愈師、虛擬伴侶,甚至是兒童玩伴、社交訓練師等,數(shù)字人實際充當了AI社交的入口,能為現(xiàn)代人提供即時陪伴和共情理解。

其次,是價值的延伸。今天的數(shù)字人儼然已成為可見的下一代人機交互入口。對大模型企業(yè)來說,數(shù)字人成為自身模型能力和客戶之間的服務入口,例如在政務場景,包括京東在內(nèi)的不少大模型企業(yè)都在打造“線上數(shù)字人+線下大屏數(shù)字人”,提供個性化的政策咨詢服務。

而對下游客戶而言,數(shù)字人也成為用戶互動的新入口,成為最一線聆聽用戶問詢與反饋的重要交互入口。多重的入口價值,是今天數(shù)字人的新想象空間。

更為關鍵的是,在大模型應用浪潮里,產(chǎn)品能力、應用場景和落地成本,是每一個企業(yè)都關注的核心問題,而數(shù)字人相對低成本、低門檻且已被驗證有場景價值,它也是一個企業(yè)理解大模型、擁抱大模型和應用大模型的最好入口之一。

近期,京東科技人工智能團隊的“多模態(tài)交互式數(shù)字人關鍵技術及產(chǎn)業(yè)應用”項目也榮獲了2024年度中國智能科學技術最高獎——吳文俊人工智能科學技術獎的特等獎,這也是年度唯一的特等獎。

京東科技人工智能相關負責人也談到,相比模型預訓練側(cè)的Scaling Law,京東更希望看到在大模型應用側(cè)的Scaling Law?!拔覀冏鰯?shù)字人最終目標還是希望能解放人類的體力和腦力,scale在應用上,大模型技術就像互聯(lián)網(wǎng)技術一樣,(在產(chǎn)業(yè)端)產(chǎn)生足夠大的影響力。”

當然,數(shù)字人發(fā)展還在早期,打開新場景新可能性的同時,技術落地到產(chǎn)業(yè)深處還有很多挑戰(zhàn),無論更自然的多模態(tài)交互,還是更落地的場景解決方案,都需要技術和工程能力的持續(xù)優(yōu)化。

回看技術浪潮,當一個行業(yè)回歸價值和務實,往往是大規(guī)模爆發(fā)的“奇點時刻”,走在正向循環(huán)道路上的AI數(shù)字人,或許能在2025迎來新破局。

本文由人人都是產(chǎn)品經(jīng)理作者【財經(jīng)無忌】,微信公眾號:【財經(jīng)無忌】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!