AI + 數(shù)字孿生:顛覆傳統(tǒng)的科技革命
在當(dāng)今數(shù)字化的浪潮中,AI和數(shù)字孿生這兩項(xiàng)前沿技術(shù)的結(jié)合正以前所未有的方式重塑著各個領(lǐng)域。目前國內(nèi)的數(shù)字孿生應(yīng)用大多都是三維建模渲染疊加業(yè)務(wù)數(shù)據(jù),主要注重?cái)?shù)據(jù)以及場景渲染效果,再結(jié)合業(yè)務(wù)需求傳遞業(yè)務(wù)價值。除此之外,目前AI與數(shù)字孿生的結(jié)合到底有哪些實(shí)際可以落地的呢?
一、行業(yè)趨勢
1. 自動化建模
1)文生模型(TEXT TO 3D)
Luma AI是一家提供3D捕捉和建模技術(shù)的公司,旨在幫助用戶輕松創(chuàng)建高質(zhì)量的3D內(nèi)容。Luma AI于2024年1月發(fā)布的Genie 1.0,只需輸入一句文字提示,就能在10秒內(nèi)生成四個高保真的3D模型,用戶可選擇并在三維網(wǎng)格界面內(nèi)編輯模型紋理。這些模型可在屏幕上預(yù)覽,也能導(dǎo)出到Blender、Unity等工具中進(jìn)一步使用。
除Luma AI外,市面上還有非常多的文生模型產(chǎn)品,大家可以自行去體驗(yàn)一下。
2)圖片/視頻建模
目前,由文生模型直接生成的模型在實(shí)際項(xiàng)目中還不具備很強(qiáng)的應(yīng)用價值。那么,另一種圖片/視頻建模更具有實(shí)際的應(yīng)用價值,其原理基本就是根據(jù)圖片或者視頻計(jì)算空間坐標(biāo),生成點(diǎn)云數(shù)據(jù),根據(jù)點(diǎn)云模型和照片進(jìn)行簡單的粗建模和點(diǎn)云匹配照片映射,生成一個可看的模型。
目前圖片以及視頻建模,有好多產(chǎn)品都可以做到,這里看一下通過SA完成的圖片建模效果。
由相機(jī)拍攝的甜甜圈圖片(需要n多張圖片)
自動建模產(chǎn)生的甜甜圈模型
這里可以看到,由SA完成建模的圖片,質(zhì)量其實(shí)算不錯的,如果是做一些小物件的資產(chǎn)沉淀,大家可以嘗試使用這類方法。
這里推薦下虛幻的Bridge模型庫,號稱價值千億的掃描模型庫。
總的來說,目前自動化建?;径即嬖谝韵聠栴}:
- 細(xì)節(jié)缺失與精度問題:生成的 3D 模型在復(fù)雜的細(xì)節(jié)和高精度要求方面可能表現(xiàn)不佳。例如,對于具有精細(xì)紋理和微小結(jié)構(gòu)的物體,生成的模型可能會顯得粗糙或模糊。
- 材質(zhì)和光照模擬問題:生成的模型在材質(zhì)表現(xiàn)和光照效果的模擬上可能與真實(shí)情況存在偏差,影響視覺效果和真實(shí)性。比如生成的金屬材質(zhì)可能沒有真實(shí)金屬的反射和光澤特性。
- AI理解能力有限(文生模型):在高質(zhì)量3D數(shù)據(jù)獲取上,本身就是一個非常大的挑戰(zhàn),訓(xùn)練數(shù)據(jù)又直接影響生成的模型本身。AI 可能無法完全理解模型在特定場景或整體設(shè)計(jì)中的上下文和語義關(guān)系,導(dǎo)致生成的模型在實(shí)際應(yīng)用中不夠貼合需求。例如為特定游戲場景生成的道具模型,可能與游戲的整體風(fēng)格和邏輯不匹配。
- 后期編輯和修改困難:與傳統(tǒng)手工建模相比,對自動建模生成的3D 模型進(jìn)行后期的大幅度編輯和修改可能較為困難,需要特定的技術(shù)和工具。有時候修改成本甚至?xí)h(yuǎn)遠(yuǎn)超出手工建模成本。
以上問題均會導(dǎo)致生成的模型無法直接應(yīng)用于實(shí)際項(xiàng)目。
因此,目前階段,自動化建模還無法被大批量使用來提高生產(chǎn)效率。
2. AI算法訓(xùn)練
最近自動駕駛與機(jī)器人概念十分火爆,那么在這兩個行業(yè)中,數(shù)字孿生又能發(fā)揮什么作用呢?
1)自動駕駛
自動駕駛是經(jīng)典的四維空間計(jì)算難題,其重點(diǎn)在于實(shí)現(xiàn)四維空間中的感知、建圖、定位與決策規(guī)劃的實(shí)現(xiàn)。
目前市面上大多自動駕駛技術(shù)前期都會基于仿真三維場景進(jìn)行大量數(shù)據(jù)的訓(xùn)練,通過構(gòu)建虛擬的交通場景,對訓(xùn)練好的模型進(jìn)行測試和驗(yàn)證。比如,在孿生仿真平臺中設(shè)置各種復(fù)雜的交通狀況,包括突發(fā)的事故、惡劣的天氣等,以檢驗(yàn)?zāi)P偷膽?yīng)對能力。
2)機(jī)器人訓(xùn)練
在今年的WAIC世界人工智能大會上,出現(xiàn)了服務(wù)型機(jī)器人展示,如機(jī)器人拿著咖啡杯在咖啡廳移動進(jìn)行客戶服務(wù),以此來展示其在用餐環(huán)境下的服務(wù)能力。又或者在景區(qū)導(dǎo)覽上,已經(jīng)有部分導(dǎo)覽機(jī)器人在對游客進(jìn)行服務(wù)了。
那么這一類需要在不同環(huán)境下具備感知環(huán)境、與人交互、執(zhí)行任務(wù)能力的機(jī)器人,大多數(shù)的實(shí)現(xiàn)思路都需要先將周邊環(huán)境進(jìn)行三維建模,再結(jié)合特定的服務(wù)場景,對機(jī)器人進(jìn)行訓(xùn)練。那么,在對服務(wù)要求較高的情況下,每一個店鋪甚至是每一個場景,都需要進(jìn)行專門的場景建模以及針對性訓(xùn)練。
在眾多的仿真場景中,如工業(yè)生產(chǎn)、氣象防災(zāi)、低空經(jīng)濟(jì)等領(lǐng)域,皆需要三維仿真場景來支撐數(shù)據(jù)訓(xùn)練,因此,如何快速構(gòu)建精準(zhǔn)的三維場景就顯得極為重要。
二、TEXT TO 3D實(shí)測—D5渲染器
D5是我非常喜歡的一款軟件,它高效的場景搭建功能以及高質(zhì)量的三維資產(chǎn),真的在市面上很有競爭力。
在D5中有一個還處于內(nèi)測階段的文生模型功能,作者申請了一下然后拿到了使用次數(shù),大家感興趣也都可以去試試。
接下來看一下實(shí)際的使用測試情況。
1. prompt:地鐵進(jìn)出站閘機(jī)模型
結(jié)果:最終生成的模型和預(yù)期的相差較大,大概是AI并沒有理解我們的提示詞導(dǎo)致的。
然后對第一個結(jié)果進(jìn)行了細(xì)化,可以看到,模型的清晰度會比剛生成時好很多。
2. prompt:一幢3層樓的房子,需要有陽臺
結(jié)果:這一次AI理解了,提示詞中的三層樓和陽臺都能看出來,但細(xì)節(jié)以及模型大小都存在較大問題。此次生成沒有繼續(xù)細(xì)化了,因?yàn)樯纱螖?shù)有限。
3. prompt:一個馬克杯,主要顏色為紅色,需要有把手
結(jié)果:這一次AI也理解了,提示詞中的馬克杯、紅色、把手都有還原,但同樣的,生成的模型細(xì)節(jié)仍然有問題。細(xì)化后的模型,除了表面稍微細(xì)致一點(diǎn)外,無其他明顯細(xì)節(jié)。
從本次測試可以看出,在第一部分我們總結(jié)的自動化建模問題中,在這三次生成中都多多少少存在,因此,文生模型依舊道阻且長。
三、三維高斯重建
目前我們內(nèi)部在嘗試使用三維高斯重建技術(shù)來代替?zhèn)鹘y(tǒng)手工建模,主要應(yīng)用于大場景中的非重點(diǎn)區(qū)域模型自動生成。
其主要流程分為三個部分:提供需要生成區(qū)域的視頻—生成ply文件—通過插件導(dǎo)入到UE引擎使用;
在實(shí)際應(yīng)用中,三維高斯重建技術(shù)還需要解決一些問題,如如何更好地處理混疊(摩爾紋)現(xiàn)象、提高渲染視角相關(guān)效果的能力、優(yōu)化計(jì)算效率等。
下面是根據(jù)同一個視頻文件,生成的兩個效果截圖,可以明顯看出,優(yōu)化后的效果好于優(yōu)化前。
優(yōu)化前生成效果:
優(yōu)化后生成效果:
除以上內(nèi)容外,數(shù)字孿生技術(shù)結(jié)合AI在工業(yè)、醫(yī)療、城市規(guī)劃、氣象防災(zāi)等方面都得到了充分的應(yīng)用。總之,數(shù)字孿生與 AI 的結(jié)合是發(fā)展的必然趨勢,盡管面臨挑戰(zhàn),但前景廣闊,將為各個領(lǐng)域帶來深刻的變革和巨大的價值。
本文由 @不理性的小馬同學(xué) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)
所以你說的AI+數(shù)字孿生是ai生成模型
我個人接觸的主要還是三維這塊多點(diǎn),所以可以寫的更偏向建模,確實(shí)局限了一點(diǎn)。實(shí)際中文章里也寫了,ai算法訓(xùn)練仿真都會有需求場景