大模型在金融領域落地會遇到哪些坑?
大模型的熱度已經(jīng)高了很久了,但在具體的行業(yè)業(yè)務落地的應用還是在進行時,會遇到不少的問題。這篇文章,作者分享了自己在金融領域的落地經(jīng)驗,希望能幫到大家。
一、我們做了哪些場景?
- 客服場景下的會話小結(jié)
- 知識庫的智能搜索:LLM+向量知識庫+ES兜底
- 知識實時智能推薦
- 代碼輔助
二、遇到了哪些坑
1. 會話小結(jié)
大模型應用準確率怎么提升?
大模型不像是傳統(tǒng)的nlp,雖然大模型準確率起點高,但是不像nlp可以依靠業(yè)務的標注數(shù)據(jù)進行優(yōu)化,那么大模型的云應用調(diào)用方(不做本地化和finetun情況下)在業(yè)務應用中如何進行模型效果的評價和業(yè)務使用效果的優(yōu)化?就成了一道考題。
剛上線你會發(fā)現(xiàn)準確率在60%左右,業(yè)務想要繼續(xù)提升,部分算法同學會說模型能力是調(diào)用別人的,無法進行數(shù)據(jù)回流迭代,我也沒辦法?這時候要擺爛還是繼續(xù)想辦法努力?
幻覺問題:gpt針對短對話的小結(jié)會進行自我創(chuàng)造(亂編),這個在業(yè)務上是很難被接受的。
實時場景的時延問題:調(diào)大模型的云應用尤其是gpt,每次請求到返回的時間問題無法優(yōu)化。
對于坐席輔助的場景時延要求極高,會話小結(jié)是為了幫助人工自動寫事件小結(jié)的,超過5s的小結(jié)基本就失去了幫助坐席減少話后時長的作用,但是即使在只調(diào)用一次gpt進行小結(jié)的情況下,平均時延也在10s左右
業(yè)務上評價會話小結(jié)的指標為:要素完備性、要素準確率、業(yè)務接受率。如對會話小結(jié)這幾個方面要求較高(細分場景業(yè)務細則,專有名詞),就需要在通用格式的會話小結(jié)中再加入業(yè)務要素的補充,則需要多次調(diào)用gpt的場景下,小結(jié)的時延會在30s左右。
超過30s后還要不要繼續(xù)回調(diào)用?前端頁面還要不要進行輪詢?
連接調(diào)用不穩(wěn)定會產(chǎn)生漏損:大模型調(diào)用會有失敗的情況,就像大家用chatgpt的應用時遇到偶發(fā)的不響應的情況,這種情況在c端大家容忍度比較高,但是在b端,尤其是嵌入核心作業(yè)流程的場景下,業(yè)務對于偶發(fā)的漏損情況比較敏感,小結(jié)的漏損率會在5%左右。
2. 知識庫應用
相比坐席輔助,知識庫是一個對AI錯誤容忍率更低的場景,體現(xiàn)在下面的場景:
- 數(shù)據(jù)同步問題:業(yè)務人員批量新增、刪除、更新知識的時候,后端調(diào)用大模型接口進行embedding或者tokenization的時候,如遇到大模型調(diào)用不穩(wěn)定報錯就會導致數(shù)據(jù)同步出現(xiàn)問題。
- 時延、并發(fā)問題:gpt模型的請求數(shù)有限制,針對高并發(fā)(知識庫上千人使用),搜索時延要求高(1-2s)的情況下,會有比較大的壓力,也會有偶發(fā)的大模型調(diào)用出錯的問題。
三、探索解決方案
會話小結(jié):
搭建“NLP+ChatGPT”的雙層模型,確保業(yè)務效果的同時又能節(jié)省大模型的使用費用,針對大模型應用在過短對話時會出現(xiàn)“聯(lián)想和想象”的問題,增加了NLP過濾(過濾掉無效對話)
針對大模型業(yè)務應用后準確率需要提升,但很難靠傳統(tǒng)NLP標注的方法進行學習和訓練后迭代的問題,聯(lián)合業(yè)務進行了多輪探討和嘗試,用“業(yè)務要素完備率+關鍵要素準確率+業(yè)務接受度”進行評價,針對業(yè)務接受度差的部分,詳細去看原因,并且提煉通用問題進行優(yōu)化,再深入業(yè)務總結(jié)不同場景小結(jié)的業(yè)務要求規(guī)則并進行提煉,融入prompt,準確率從57%-82%,準確率的提升只用了2輪數(shù)據(jù)標注和反饋(每次100條),大大節(jié)省了傳統(tǒng) NLP項目大樣本數(shù)據(jù)標注的工作
針對漏損的進行批量補跑;監(jiān)測模型穩(wěn)定性指標-小結(jié)平均時延、小結(jié)的漏損率
坐席輔助:
幻覺這個問題我們是用GPT+NLP雙模型來減少亂編,比如客服與客戶對話的AI摘要會預設業(yè)務關鍵要素,盡量都覆蓋到,且涉及金額、數(shù)量或時間這類都會提取參數(shù)記錄,需要走下個流程分支的會自動生成工單任務流轉(zhuǎn)…
投訴類會有客訴評分,按歷史接觸的客訴傾向語義點及當通電話的音量語速等計算怒氣值,客服的話術除了情緒安撫外更多是理解客戶解決其問題
ToC不敢直接用,是做了人工中轉(zhuǎn),比如側(cè)邊欄根據(jù)對話命中意圖或標簽自動推薦最優(yōu)話術,按相關度排序,人工可任選一鍵發(fā)送,也可通過API對接GPT提問后生成話術
知識庫:
- 不穩(wěn)定的情況利用Kafka進行依次消費,任務失敗后進行告警并且重新跑
- 多個大模型的api并行處理,提高并發(fā)承載力
- 大模型+ES多重召回機制
此外我們在實踐過程中也參考了行業(yè)資深大佬關于向量知識庫應用的見解,很有用,引用如下:
首先,向量化就不是唯一解,也不是全場景最優(yōu)解。
**第一,向量化匹配是有能力上限的。**搜索引擎實現(xiàn)語義搜索已經(jīng)是好幾年的事情了,為什么一直無法上線,自然有他的匹配精確度瓶頸問題。
第二,本質(zhì)是匹配問題(即找到語義相似知識),NLP領域原本也有更優(yōu)美,更高效的方案,只是這波熱潮里,很多以前沒接觸過AI的朋友對之不熟悉罷了。
**第三,甚至不用AI技術,用精確MVSOL、用策略規(guī)則也是一種解法,其至是重要解法。**舊AI時代的產(chǎn)品同學會非常熟悉這種“用規(guī)則/策略/產(chǎn)品設計”來彌補AI能力贏弱的問題一一現(xiàn)在是因為行業(yè)早期,大家被LLM的能力錯誤迷惑,并且以往產(chǎn)品經(jīng)理的聲音還沒發(fā)出來而已。
**其次,在引入外部知識這個事情上,如果是特別專業(yè)的領域,純粹依賴向量、NLP、策略/規(guī)則在某些場景仍然不奏效。**因為模型首先需要掌握那個領域的專業(yè)知識,才能在這樣一個基礎能力的加持下,用向量化等手段來便捷地解決外部知識引入問題。
當在模型在基礎知識中缺乏、或有錯誤地學習到某些背景知識,即使他有外部知識庫加持也是無效的最后,不要管是不是90%會被解決,對于某個具體業(yè)務而言,沒有90%,只有100%和0%;
用向量知識庫的補丁策略,這個認知很有必要。
1、**把問答域細化,**給檢索文本分類,打標簽處理,以縮小召回目標域,提升相關性。
2、增加問答邏輯。如問題與上下文是否相關,上下文是否可以回答用戶問題的判定邏輯,拒答邏輯。
3、不同種類問答的分流邏輯。打個比方,問百科,問醫(yī)藥,問金融,走不同的回答邏輯。
4、使用多重召回邏輯?;谙蛄?,基于領域向量,基于es,基于編輯距離等,走投票策略。
5、**增加生成前判定,生成后判定邏輯。**前者判定適合是否該回答,是否該拒答,后者判定是否對自己回答有置信。
知識庫的搜索體驗優(yōu)化:利用GIO進行行為數(shù)據(jù)觀測,P@3、P@5位置的準確度評估
四、結(jié)束語
大模型的熱度已經(jīng)高了很久了,但我們和各位同行的老師聊,發(fā)現(xiàn)在金融行業(yè)業(yè)務落地的應用還是在進行時,尤其是要能產(chǎn)生業(yè)務價值的落地中還是會遇到各種問題,因此希望分享我們遇到的問題和探索的經(jīng)驗幫助也在做此類項目的朋友避坑,當然我們的方法不一定是最優(yōu)解,如大家有更好的方法和應用方向,期望能夠交流!
本文由 @甜甜圈 Tina 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!