車企也要搞大模型,但他們基本還在第一層
車企也開始學(xué)起互聯(lián)網(wǎng)企業(yè)搞起大模型了,而大多數(shù)車企目前只規(guī)劃了座艙的語音功能,部分車企則開始結(jié)合大模型做智駕系統(tǒng)。具體如何解讀當(dāng)下車企投入大模型的發(fā)展現(xiàn)狀?一起來看看本文的分析。
最近這段時間,車企們也開始學(xué)互聯(lián)網(wǎng)企業(yè),玩起大模型了。
比如理想的自研大模型 Mind GPT ,廣汽的 AI 大模型平臺,以及吉利的全棧自研全場景 AI 大模型等等。
甚至自己做不了的,也得找人去合作。像是東風(fēng)日產(chǎn)、紅旗、長城這些,就宣布接入百度的 “ 文心一言 ”。
不過,這些車企們到底是純純搞營銷還是真的有東西,脖子哥還得仔細(xì)看看。
就目前而言,大多數(shù)車企還只規(guī)劃了座艙的語音功能,說白了,就是做 ChatGPT 的語音版。
用上的話,語音助手確實會比以往更聰明一點。
比如百度的文心一言,據(jù)說搭載上車之后,可以一邊在車上電話開會,一邊自動記錄會議紀(jì)要,并且完成簡單的 PPT 制作。
那么……打工人就算開車也沒理由不干活了,百度是懂加班的。
而吉利的這個全場景 AI 大模型就更有意思了,說是有主動搭訕、自動唱歌以及哄娃等能力。
但,用車機(jī)語音搭訕和自我營銷,真的有人會用這個功能嗎?他的精神狀態(tài)真的還好嗎……
相比他們,一些車企已經(jīng)到了第二層,開始用大模型做智駕了。
這里面可就大有說法了。目前比較普遍的做法,是將大模型作為工具,輔助汽車的智駕訓(xùn)練,其中關(guān)鍵是訓(xùn)練智駕系統(tǒng)的應(yīng)變能力。
目前智駕系統(tǒng)還不能保障 100% 的自動駕駛安全性,是因為存在 AI 還沒見過的場景,一旦遇到這種情況, AI 就容易 “ 把 CPU 給干燒了 ” ,大多數(shù)自動駕駛的安全事故都是這樣發(fā)生的,這個情況被稱作 Corner case 。
為了解決一個 Corner case ,必須得經(jīng)歷數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)注、模型訓(xùn)練和模型仿真等過程,需要用上萬的樣本數(shù)據(jù)以及數(shù)周時間進(jìn)行測試,費(fèi)時費(fèi)力。
過去用來訓(xùn)練 AI 的數(shù)據(jù)基本來自真實數(shù)據(jù),但是由于 Corner case 發(fā)生的概率非常低,要找到世界各地出現(xiàn)的相同 Corner case 并不容易。
用上大模型之后,AI 就可以幫助構(gòu)建虛擬空間,自動生成訓(xùn)練場景,可以大幅縮減成本。
比如華為的盤古大模型,會根據(jù)路采數(shù)據(jù)進(jìn)行重建,生成可編輯的虛擬空間,將原來兩周左右的 Corner case 處理過程縮減到兩天內(nèi)。
但這還不夠,另一些車企選擇了更為激進(jìn)的做法,直接選擇用大模型開干智駕。
這就不得不提到特斯拉的 FSD 。
早在 2021 年,特斯拉就采用了 BEV (鳥瞰圖)+ Transformer 的智駕算法,可以說是在車企里用大模型做智駕最早的一批。
咱先不說這套智駕系統(tǒng)的原理是啥,先看這個 Transformer ,其實指的就是大模型架構(gòu), ChatGPT 就是基于這個架構(gòu)生成的。
Transformer 模型架構(gòu)和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的區(qū)別在于,加入了 “ 注意力機(jī)制 ” ,舉個例子,咱們在讀一句話的時候,有些字很關(guān)鍵,有些字不關(guān)鍵,只要看這些關(guān)鍵字,就容易 get 到整個句子的含義,即使個別字寫反,也不影響最終理解的結(jié)果。
因此 Transformer 就會對一句話中的每個字設(shè)置權(quán)重,最后對全文的理解根據(jù)每個字加權(quán)平均算得,準(zhǔn)確性就相對更高了。
這套模型架構(gòu)將主要用于 FSD 的純視覺感知算法,幫助系統(tǒng)將 2D 的攝像頭視頻數(shù)據(jù)融合轉(zhuǎn)化成 3D 的鳥瞰圖,從而自行判斷合理的行駛路線。
然而,就算這套大模型智駕方案擁有更高的泛化能力(舉一反三的能力),特斯拉的 FSD 還是會遇到了各種 Corner case 。
比如在今年的 8 月 26 日,馬斯克在直播測試自動駕駛時,AI 把左轉(zhuǎn)車道的綠燈當(dāng)成前進(jìn)的綠燈,打算筆直穿過路口,此時的老馬不得不主動介入剎停,才避免釀成事故。
要知道這可是當(dāng)眾直播啊!先不說觀眾對 FSD 系統(tǒng)的質(zhì)疑,就算評論問起應(yīng)如何解決故障時,老馬也只能說 “ 將投喂更多樣本數(shù)據(jù) ” 。
因為壓根沒有什么直接了當(dāng)?shù)慕鉀Q辦法,畢竟模型是一個黑箱,沒有人能在里面微操,除了繼續(xù)訓(xùn)練還真沒有什么別的辦法了。
所以,大模型做智駕的主要問題,依然是處理不完的各種 Corner case ,未來的智駕大模型還得繼續(xù)在泛化能力上進(jìn)行升級。
不僅如此,大模型做智駕的另一個難處就是錢。
特斯拉之所以能用上 Transformer ,關(guān)鍵是有 72 TOPS 算力的 HW3.0 芯片作為支撐。而現(xiàn)在一些車企用的都是英偉達(dá)orin 芯片,它的算力更是達(dá)到 254 TOPS,今后隨著模型越來越大,對智駕芯片的算力要求也會越來越高,這意味著車主就要為智駕掏更多的錢。
在研發(fā)方面,之前一些企業(yè)訓(xùn)練大模型用的都是 GPU 芯片,但現(xiàn)在都開始用上 TPU 了,功能越強(qiáng)的大模型研發(fā)難度越大,普通車企恐怕很難保持長時間的自研過程,與互聯(lián)網(wǎng)巨頭合作說不定會更加現(xiàn)實。
不過特斯拉在這上面算是鐵了心,最近, FSD 又進(jìn)行了一次全面的算法更新,打造了一個 “ 端到端 ” 的智駕模型,把整個智駕過程融入到一個算法和模型里面,這可能是未來各大車企做智駕大模型的一個方向。
要知道,過去的智駕算法是分成三個部分的,感知、決策和執(zhí)行各司其職,如果將其整合在一起,那么成本會更低,智駕反應(yīng)也會更快。
隨著技術(shù)一次次迭代,也真說不好,什么時候就能把智駕大模型最后的安全難關(guān)給攻破了。
但在此之前,一定是一段非常艱難且痛苦的過程。
要脖子哥說, “ 大模型上車 ” 這玩意兒確實有用,但能發(fā)揮出幾分功力,還得看各家車企的實力了吧。
圖片資料來源:
- 從乘用車到商用車,不搞大模型的車企不是好車企?
- 華為、特斯拉帶頭,車企卷入「大模型」軍備競賽
- AIGC|萬字長文!帶你了解AI大模型技術(shù)演進(jìn)
- 自動駕駛攻入大模型
作者:TC,編輯:脖子右擰 & 面線
來源公眾號:差評(ID:chaping321),Debug the World。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @差評 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!