大模型落地金融業(yè),想象力在哪?
大模型的帶來給了更多產(chǎn)業(yè)重塑的機(jī)會(huì),其中,金融業(yè)也不例外,在金融業(yè)數(shù)字化浪潮的推手中,大模型的力量是不容忽視的。那么,怎么看待大模型落地金融業(yè)的過程和影響?一起來看看作者的解讀。
“從經(jīng)濟(jì)角度講,整個(gè)金融業(yè)的數(shù)字化進(jìn)程并非勻速;從技術(shù)角度講,催化劑的出現(xiàn)會(huì)加速行業(yè)駛向數(shù)字化深水區(qū)。而大模型正是過去十年最強(qiáng)的‘催化劑’?!焙闵娮邮紫茖W(xué)家白碩告訴我們。
大模型正在成為推進(jìn)金融業(yè)數(shù)字化的第二波浪潮。
2013年,互聯(lián)網(wǎng)金融騰空出世。此后十年,金融產(chǎn)業(yè)共經(jīng)歷過兩次由AI帶來的革命。
第一場革命的主角是辨別式AI,比如幫助金融機(jī)構(gòu)更好地進(jìn)行智能分析與決策。在當(dāng)時(shí),互聯(lián)網(wǎng)金融正處于浪潮之巔,金融無紙化、在線化、移動(dòng)化、遠(yuǎn)程化,都促進(jìn)了金融產(chǎn)業(yè)鏈的變革與創(chuàng)新。
在第一波AI浪潮中,最為顯著的改變是,以銀行為代表的金融產(chǎn)業(yè)經(jīng)歷了新舊范式的轉(zhuǎn)變。
然而,這一波金融產(chǎn)業(yè)革命進(jìn)行得并不徹底。雖然“金融信任”的號(hào)角早已吹響,但在金融業(yè),數(shù)字化接受程度不高。人工智能的利好,也并未充分得利用在金融業(yè)。
這其中,有技術(shù)問題,也有合規(guī)因素,更有行業(yè)壁壘等種種原因,都阻礙著金融產(chǎn)業(yè)革命的到來。直到2023年,大模型讓局面發(fā)生了些許變化。
客觀來看,生成式AI的到來,讓行業(yè)正在重拾“金融信任”。
一、大模型在金融業(yè)是剛需嗎?
當(dāng)下,金融機(jī)構(gòu)對數(shù)字化的接受程度普遍較低,全面實(shí)現(xiàn)數(shù)字化的難度也較大。但全流程的數(shù)字化,正是金融機(jī)構(gòu)引入大模型的前提。如果仍僅停留在工具層應(yīng)用,大模型無法更好地賦能產(chǎn)業(yè)發(fā)展,其顛覆性不大。
恒生電子告訴我們,“如果將金融機(jī)構(gòu)的數(shù)字化轉(zhuǎn)型成熟度分為0到5級,其中0級代表剛起步階段,而5級表示完全以數(shù)據(jù)驅(qū)動(dòng)的商業(yè)模式。目前大多數(shù)金融機(jī)構(gòu)處于2級和3級的水平,少量機(jī)構(gòu)已經(jīng)達(dá)到4級,甚至有一些局部達(dá)到5級。”
在所有金融機(jī)構(gòu)中,“數(shù)字化轉(zhuǎn)型表現(xiàn)最優(yōu)異的是銀行,尤其是頭部銀行,其次是券商?!?/p>
之所以銀行的數(shù)字化接受程度最高,是因?yàn)殂y行涉及到很多客戶服務(wù)和風(fēng)險(xiǎn)監(jiān)控的場景。券商則不同,其更多的應(yīng)用場景在智能決策方面。這兩類不同的場景恰恰是辨別式AI與生成式AI各自擅長的領(lǐng)域。
具體來看,辨別式AI是直接將輸入映射到輸出上,通過學(xué)習(xí)輸入數(shù)據(jù)的特征來預(yù)測輸出標(biāo)簽,而在輸入與輸出之間,并沒有生成式AI的增強(qiáng)學(xué)習(xí)的過程中。因此,辨別式AI更多用于分類、回歸等任務(wù),比如圖像識(shí)別和語音識(shí)別。
生成式AI則有所不同。其最大的優(yōu)勢就在于增強(qiáng)學(xué)習(xí)的過程。生成式AI可以從已有數(shù)據(jù)中學(xué)習(xí)樣本的統(tǒng)計(jì)特征,并在此基礎(chǔ)上生成新的數(shù)據(jù)。因此,在金融場景下,更適合進(jìn)行智能決策,通過大模型中輸入的金融知識(shí)和新聞等知識(shí),從而給出業(yè)務(wù)營銷、風(fēng)險(xiǎn)投資等建議。
這意味著,在AI大模型的加持下,在金融行業(yè)里會(huì)出現(xiàn)一些之前沒有的變化。
正如白碩所言,大模型是多年來對金融業(yè)影響最為直觀的“催化劑”,相比于元宇宙、區(qū)塊鏈等技術(shù),大模型更能深入到垂直領(lǐng)域,顛覆產(chǎn)業(yè),帶來實(shí)際價(jià)值。其中,最為直觀的影響是給原有的崗位帶來全新的工作方式。
“比如像數(shù)據(jù)分析師崗位的變化就很突出。在投資研究領(lǐng)域,數(shù)據(jù)分析師需要根據(jù)財(cái)務(wù)報(bào)表、公開資訊、研報(bào)等公開數(shù)據(jù)進(jìn)行數(shù)據(jù)分析形成內(nèi)容。大模型在這樣的數(shù)據(jù)處理能力上表現(xiàn)很好,可以替代一部分的崗位工作?!卑状T這樣告訴產(chǎn)業(yè)家。
然而,由于大模型在精度、時(shí)效性、專業(yè)性等方面還有明顯缺陷,當(dāng)前在金融業(yè)還很難實(shí)現(xiàn)更深的價(jià)值。目前,大模型更多能起到的還是提供一個(gè)人機(jī)非常友好的交互能力,在金融專業(yè)工作中還是需要專業(yè)人力完成。
可以說,想象力豐富之余,就當(dāng)下而言,大模型對金融行業(yè)帶來的更為實(shí)際價(jià)值,更多體現(xiàn)在一些交互性更強(qiáng)的場景。
已經(jīng)有銀行開始行動(dòng)。今年3月,工商銀行基于昇騰AI,發(fā)布了首個(gè)金融行業(yè)通用模型。在發(fā)布會(huì)上,工行宣布該模型已應(yīng)用在客戶服務(wù)、風(fēng)險(xiǎn)防控、運(yùn)營管理領(lǐng)域。比如,工行應(yīng)用該模型支撐智能客服接聽客戶來電;再比如,利用金融大模型,對工業(yè)工程融資項(xiàng)目建設(shè)進(jìn)行進(jìn)度監(jiān)測。
或者也可以說,大模型對金融行業(yè)的意義,在加速數(shù)智化和重拾“金融信任”之前,更鮮明的變化是長尾場景落地。
二、金融大模型走到哪了?
半年時(shí)間,互聯(lián)網(wǎng)大廠已全部入局;銀行、券商等金融機(jī)構(gòu)也紛紛下場。
金融大模型之所以被稱為“塔尖技術(shù)”,其難點(diǎn)不僅在于技術(shù)和合規(guī),更在于數(shù)據(jù)和領(lǐng)域經(jīng)驗(yàn)。也就是說,金融大模型的搭建并非可以一蹴而就,而需要具備一定的條件。
以互聯(lián)網(wǎng)大廠為例,百度、騰訊、阿里和360憑借其多年對抗黑灰產(chǎn)的經(jīng)驗(yàn)和在AI領(lǐng)域的深耕,可以算得上最有條件做金融大模型的佼佼者。
最先有所動(dòng)作的是度小滿。5月26日,度小滿正式開源中文金融大模型“軒轅”。與文心一言不同的是,軒轅大模型是度小滿在金融領(lǐng)域長期深耕的結(jié)果,并擁有更多高質(zhì)量的可訓(xùn)練數(shù)據(jù)。對金融大模型而言,金融領(lǐng)域的數(shù)據(jù)質(zhì)量直接決定了軒轅大模型的各方面表現(xiàn)。
另外,從參數(shù)量來看,據(jù)官方介紹,軒轅大模型是在1760億參數(shù)的Bloom大模型基礎(chǔ)上訓(xùn)練而來,且軒轅還融合了金融名詞理解、金融市場評論、金融數(shù)據(jù)分析和金融新聞理解等數(shù)據(jù)。
其次傳出風(fēng)聲的是螞蟻集團(tuán)。6月21日有消息稱,螞蟻集團(tuán)的技術(shù)研發(fā)團(tuán)隊(duì)正在自研語言和多模態(tài)大模型,內(nèi)部命名為“貞儀”。對此,螞蟻集團(tuán)的回應(yīng)是“消息屬實(shí)”。
螞蟻集團(tuán)的底氣一方面來源于支付寶在金融領(lǐng)域的多年行業(yè)經(jīng)驗(yàn);另一方面來源于從2015年螞蟻集團(tuán)在可信AI技術(shù)研究的投入。2016年,螞蟻集團(tuán)全面啟動(dòng)AI智能風(fēng)控防御戰(zhàn)略,目前已在反欺詐、反洗錢、反盜用、企業(yè)聯(lián)合風(fēng)控、數(shù)據(jù)隱私保護(hù)等多場景落地。近兩年,螞蟻集團(tuán)更是加緊AI領(lǐng)域的布局。
早在2019年清華AI研究院基礎(chǔ)理論研究中心成立,該中心首席科學(xué)家朱軍及其團(tuán)隊(duì)同期發(fā)布了第三代人工智能平臺(tái)RealAI,并與金融、工業(yè)制造等行業(yè)應(yīng)用深度結(jié)合。而就在螞蟻集團(tuán)傳出自研“貞儀”的前兩日,由朱軍帶領(lǐng)的新團(tuán)隊(duì)完成了近億級天使輪融資,由螞蟻集團(tuán)領(lǐng)投。
最后,騰訊和360也在近日聯(lián)合信通院編制國內(nèi)金融大模型標(biāo)準(zhǔn)。對于騰訊而言,過去20多年黑灰產(chǎn)對抗經(jīng)驗(yàn)加上上千個(gè)真實(shí)業(yè)務(wù)場景,這些都讓騰訊具備了最真實(shí)的行業(yè)數(shù)據(jù)。而向來有著“安全衛(wèi)士”稱號(hào)的360也不例外。
除了互聯(lián)網(wǎng)廠商,在金融領(lǐng)域大模型方向布局的還有數(shù)據(jù)庫廠商,比如星環(huán)科技。
對于金融大模型的搭建,數(shù)據(jù)庫廠商與互聯(lián)網(wǎng)廠商走的是兩條完全不同的路線。星環(huán)科技的優(yōu)勢有兩方面。
第一是工藝,即在模型訓(xùn)練過程中涉及到的數(shù)據(jù)“清洗”等加工處理。作為數(shù)據(jù)庫廠商,星環(huán)科技對于數(shù)據(jù)處理有著一套嚴(yán)密的方法論,尤其是針對金融領(lǐng)域特有的異構(gòu)數(shù)據(jù)。
對此,星環(huán)科技在自研金融大模型“無涯Infinity”的同時(shí),還提供了一站式的企業(yè)自建大語言模型工具鏈。該工具鏈了包含了與大語言模型應(yīng)用落地緊密相連的向量數(shù)據(jù)庫Hippo,以及一系列針對數(shù)據(jù)庫底層處理技術(shù)。其中,最值得注意的是向量數(shù)據(jù)庫Hippo。
在金融領(lǐng)域,數(shù)據(jù)時(shí)效性是大模型落地挑戰(zhàn)之一。如何將突發(fā)事件和金融資訊等實(shí)時(shí)數(shù)據(jù)輸入到大模型中,直接關(guān)乎著金融大模型能否準(zhǔn)確地進(jìn)行分析決策。而向量數(shù)據(jù)庫正是解決該問題的關(guān)鍵。
星環(huán)科技的第二大優(yōu)勢則是其長期深耕于金融領(lǐng)域沉淀下來的領(lǐng)域數(shù)據(jù)和行業(yè)know-how。
盡管互聯(lián)網(wǎng)廠商與數(shù)據(jù)庫廠商各占據(jù)行業(yè)經(jīng)驗(yàn)和模型工藝的優(yōu)勢,但最具備搭建金融大模型的應(yīng)該非垂直類廠商莫屬。因?yàn)檫@類廠商有著較高的訓(xùn)練模型的數(shù)據(jù),比如致力于提供金融數(shù)字化解決方案的廠商「恒生電子」。
6月28日,恒生電子對外發(fā)布金融行業(yè)大模型LightGPT。據(jù)了解,該模型使用了超4000億tokens的金融領(lǐng)域數(shù)據(jù)(包括資訊、公告、研報(bào)、結(jié)構(gòu)化數(shù)據(jù)等)和超過400億tokens的語種強(qiáng)化數(shù)據(jù)(包括金融教材、金融百科、政府報(bào)告、法規(guī)條例等),并支持超過80+金融專屬任務(wù)指令微調(diào),從而加強(qiáng)LightGPT在專業(yè)領(lǐng)域的理解能力。
白碩表示,對于金融大模型,最為重要的是數(shù)據(jù)質(zhì)量,即大模型訓(xùn)練的數(shù)據(jù)量大小和數(shù)據(jù)質(zhì)量,因?yàn)檫@關(guān)系到大模型能夠輸出什么。在底層技術(shù)相差無幾的情況下,數(shù)據(jù)質(zhì)量才是關(guān)鍵。其次是工程化能力和行業(yè)經(jīng)驗(yàn)。其中,工程化能力包括對數(shù)據(jù)的選擇、清洗和改造等工作,比如當(dāng)大模型表現(xiàn)不盡如人意或出現(xiàn)問題時(shí),廠商知道如何判斷缺哪些數(shù)據(jù),需要補(bǔ)充哪些數(shù)據(jù),從而提高大模型數(shù)據(jù)質(zhì)量。
然而,在金融大模型落地過程中,最不容忽視的挑戰(zhàn)是安全問題,即公有云與本地部署之間取舍。
在金融領(lǐng)域,很多數(shù)據(jù)涉及合規(guī)、隱私安全,甚至監(jiān)管問題,無法公開,因此很難上云。比如工商銀行、農(nóng)業(yè)銀行、郵儲(chǔ)銀行、中信銀行、興業(yè)銀行、江蘇銀行、蘇州銀行等多家銀行和券商都已選擇接入通用大模型,即以本地部署方式構(gòu)建專屬領(lǐng)域的大模型。
既選擇了本地部署的方式,就必然會(huì)面臨一些難點(diǎn),如算力挑戰(zhàn)、參數(shù)量問題等。選擇本地部署的金融機(jī)構(gòu)是否有足夠的算力是一方面,另一方面是參數(shù)量是否夠大,如果參數(shù)量不夠,即使輸入高質(zhì)量數(shù)據(jù),大模型也無法“涌現(xiàn)”。
種種原因,讓入局金融大模型的廠商面臨重重阻礙。
三、向產(chǎn)業(yè)縱深處探尋價(jià)值
但問題仍然很多,即使在金融業(yè)較為發(fā)達(dá)的海外,大模型的落地仍是一大挑戰(zhàn)。
來源:Atom Capital
從上圖不難看出,創(chuàng)業(yè)公司融資金額普遍較??;且除了較為知名的YC,明星資本不多。
在國內(nèi),至少目前來看,精準(zhǔn)度、時(shí)效性和安全性是金融大模型在落地過程中面臨的三大挑戰(zhàn)。
從精準(zhǔn)度來講,大模型在專業(yè)領(lǐng)域,尤其涉及到民生經(jīng)濟(jì)的問題時(shí),還無法給出專家級的答案。白碩向產(chǎn)業(yè)家說道,“從技術(shù)原理上,我們不認(rèn)為AGI能長出某個(gè)領(lǐng)域的專業(yè)能力,專業(yè)的事情還需要交給專家。但大模型能提供的是人機(jī)對接能力,如果兩者相結(jié)合就可以發(fā)揮出更大的作用。”
另一大挑戰(zhàn)在時(shí)效性上。數(shù)據(jù)產(chǎn)生的過程本身是流動(dòng)的,市場上的數(shù)據(jù)講精準(zhǔn)、講質(zhì)量,也講時(shí)效?!皬臄?shù)據(jù)時(shí)效性方面來講,大模型的訓(xùn)練周期本身就決定了不可能具有時(shí)效性,所以補(bǔ)充時(shí)效性很強(qiáng)的數(shù)據(jù)則是金融大模型的必備條件?!爆F(xiàn)在很多自研金融大模型的廠商都使用了向量數(shù)據(jù)庫的手段來實(shí)現(xiàn)這一難題。
最后,也是當(dāng)前領(lǐng)域大模型所面臨的最重要的挑戰(zhàn),即數(shù)據(jù)安全問題。由于大模型所收集的數(shù)據(jù)來源于公開數(shù)據(jù),行業(yè)大模型需要的是領(lǐng)域數(shù)據(jù),甚至是一些不在公開渠道上的研究報(bào)告、論文等專有數(shù)據(jù)。
對此,部分企業(yè)、機(jī)構(gòu)的做法是將數(shù)據(jù)選擇公開出來,但更多的則是選擇將大模型部署在本地。而這就引出了另一個(gè)問題,算力挑戰(zhàn)、參數(shù)量問題、工程算法等方面的技術(shù)問題能否得到解決。
在白碩的觀察中,一些語言能力的差距,在2~3年內(nèi)可以得到解決,不同大模型能力之間的差距也可以拉齊。剩下的問題則要看大模型能否扎在更深的產(chǎn)業(yè)中去提供價(jià)值。
從當(dāng)前金融大模型的應(yīng)用場景來看,提供的價(jià)值更多停留在工具層。具體而言,金融大模型在傳統(tǒng)AI模型的基礎(chǔ)上更進(jìn)一步,利用高質(zhì)量的知識(shí)數(shù)據(jù)和智能屬性,應(yīng)用于交互性強(qiáng)的場景。
但從更大的視角來看,隨著金融大模型標(biāo)準(zhǔn)的落地,數(shù)據(jù)合規(guī)、隱私安全和訓(xùn)練工藝等問題一一得到解決,金融大模型會(huì)撬動(dòng)更多的崗位,也會(huì)提升人的價(jià)值。在精準(zhǔn)度、時(shí)效性和安全性等挑戰(zhàn)被消除后,金融大模型會(huì)與“專家”一起,解決當(dāng)下無法解決的問題,帶來更大的產(chǎn)業(yè)價(jià)值。
金融大模型的難點(diǎn)在于,能否在產(chǎn)業(yè)中扎得更深;其顛覆性也更建立在,縱深到產(chǎn)業(yè)中去,賦能金融行業(yè)的數(shù)字化發(fā)展。
作者:思杭;編輯:皮爺?
來源公眾號(hào):產(chǎn)業(yè)家(ID:chanyejiawang),專注深度產(chǎn)業(yè)互聯(lián)網(wǎng)內(nèi)容
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @產(chǎn)業(yè)家 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!