談?wù)勗贐端落地第三方大模型的步驟

2 評論 4992 瀏覽 18 收藏 14 分鐘

在B端系統(tǒng)落地應(yīng)用大模型的過程中,企業(yè)可能會遇到哪些問題?又可以遵循怎樣的落地步驟,以避免或減少問題的發(fā)生?這篇文章里,作者便對在B端落地第三方大模型的步驟進(jìn)行了總結(jié),一起來看一下。

一、引言

奇績創(chuàng)壇創(chuàng)始人兼CEO陸奇博士曾經(jīng)提出過“三位一體”的結(jié)構(gòu)模型:“信息 + 模型 + 行動”。其解釋了人類、組織等有機(jī)體的運(yùn)作方式,也可用于概括互聯(lián)網(wǎng)產(chǎn)品的組成結(jié)構(gòu):

談?wù)勗贐端落地第三方大模型的步驟

圖片引用于陸奇《我的大模型世界觀》

在B端系統(tǒng)中,我們可以采用“信息 + 模型 + 行動”的結(jié)構(gòu)來規(guī)劃和應(yīng)用人工智能的能力。利用業(yè)務(wù)所產(chǎn)生的數(shù)據(jù)作為輸入,經(jīng)過模型的規(guī)則總結(jié),然后系統(tǒng)根據(jù)模型的預(yù)測結(jié)果來采取相應(yīng)的行動。例如,我們可以利用AI的語言處理能力實(shí)現(xiàn)翻譯功能,或者通過AI對客服問答進(jìn)行總結(jié),實(shí)現(xiàn)智能機(jī)器人客服。最終的目標(biāo)是通過AI技術(shù)實(shí)現(xiàn)B端業(yè)務(wù)的成本降低和效率提升。

在當(dāng)前生成式人工智能蓬勃發(fā)展的背景下,許多中小型企業(yè)希望結(jié)合第三方提供的大型模型能力,將自己的產(chǎn)品“重新用AI打造”。大多B端產(chǎn)品經(jīng)理也在領(lǐng)導(dǎo)的要求下,被要求利用現(xiàn)有的大型AI模型來滿足相關(guān)需求。

然而,我們需要思考AI是否真正適合自身的業(yè)務(wù),如何選擇適合的大型模型,以及如何在確保業(yè)務(wù)效果的前提下規(guī)避當(dāng)前AI所面臨的不可控問題。本文將對在實(shí)施AI落地過程中的一些思考進(jìn)行梳理。

二、落地難點(diǎn)

事實(shí)上,大多數(shù)中小企業(yè)并沒有自行訓(xùn)練大模型的能力,因此只能依賴第三方提供的大模型來進(jìn)行需求開發(fā)。而這種情況下存在一些影響企業(yè)應(yīng)用AI的問題:

1)AI的黑盒特性導(dǎo)致的不可控問題

目前的AI技術(shù)仍處于第二代系統(tǒng)階段,遠(yuǎn)未達(dá)到AGI水平。因此,AI的能力仍然存在一定的局限性,主要表現(xiàn)在以下幾個方面:

  1. 答案的可信度不確定:由于AI是基于已有信息的提煉和總結(jié),對于新出現(xiàn)的問題和場景,AI可能無法提供有用的答案。尤其是在垂直領(lǐng)域的AI應(yīng)用,可能無法產(chǎn)生有用的信息。
  2. 答案的合規(guī)性不確定:AI是一種基于統(tǒng)計(jì)學(xué)的結(jié)果預(yù)測,本質(zhì)上沒有明確的是非判斷能力。因此,在涉及道德、法律等層面的問題上,AI無法進(jìn)行甄別或判斷,容易給企業(yè)帶來負(fù)面影響。

2)“大模型百家爭”下的技術(shù)方案不確定性

目前,國內(nèi)外的知名企業(yè)都在積極發(fā)展大模型,國內(nèi)有文心一言、通義千問、盤古、星火認(rèn)知大模型等數(shù)十家廠商。對于這些大模型的能力和邊界,我們了解甚少,因此在決策企業(yè)AI技術(shù)落地時,面臨著諸多問題,例如“應(yīng)該選擇哪些大模型”和“如何使用這些大模型”,這增加了企業(yè)決策AI技術(shù)落地的成本。

談?wù)勗贐端落地第三方大模型的步驟

圖片來源于網(wǎng)絡(luò)

三、實(shí)施步驟

AI技術(shù)在B端的應(yīng)用場景十分廣泛,但本文將專注于研討如何在發(fā)現(xiàn)一個可行的場景時,有效地實(shí)施落地的步驟,以解決企業(yè)在依賴第三方AI技術(shù)時面臨的不可控性和不確定性問題。以下為個人總結(jié)的落地步驟:

1. 快速驗(yàn)證可行性

在明確B端系統(tǒng)要應(yīng)用AI的具體任務(wù)后,需要進(jìn)行快速的可行性驗(yàn)證。盡管尚未確定最終選用哪個大型模型,但可以先使用一種評價(jià)較高的大型模型進(jìn)行驗(yàn)證,并請技術(shù)團(tuán)隊(duì)和業(yè)務(wù)團(tuán)隊(duì)進(jìn)行評估。為了快速驗(yàn)證,您可以嘗試搭建一個演示版本,以便迅速進(jìn)行業(yè)務(wù)驗(yàn)證。為避免浪費(fèi)開發(fā)成本,建議優(yōu)先選擇一些開源的技術(shù)實(shí)現(xiàn)方案,僅需支付部署費(fèi)用即可。這樣能夠有效降低開發(fā)成本并提高開發(fā)效率。

其中測試的時候有兩種驗(yàn)證方法可供嘗試:

1)角色扮演法:測試者扮演B端系統(tǒng)的用戶角色,模擬業(yè)務(wù)的交互流程并輸入信息,以評估AI的返回結(jié)果是否符合業(yè)務(wù)要求。例如,可以模擬用戶向智能機(jī)器人提問,觀察AI返回的問題是否能夠滿足業(yè)務(wù)要求,從中判斷AI是否能夠在該場景中提供解決方案的方法。

2)數(shù)據(jù)模擬法:通過在線業(yè)務(wù)數(shù)據(jù)獲取真實(shí)的樣本數(shù)據(jù),并進(jìn)行人工篩選以確定具有代表性的數(shù)據(jù)案例。隨后,批量輸入這些數(shù)據(jù)到AI模型中以獲取輸出結(jié)果,并進(jìn)行大規(guī)模的評估。

2. 建立指標(biāo)體系進(jìn)行模型選型

當(dāng)確定AI技術(shù)可在B端上落地后,需要確定接入的模型能力。這里需要基于業(yè)務(wù)梳理模型評估體系,使用量化的指標(biāo)便于多個大模型之間的對比,以便綜合考量最終選取合適的大模型提供方。一般指標(biāo)會包含以下內(nèi)容:

1)召回率

召回率是模型訓(xùn)練中的概念,又稱“查全率”,是一個常用的衡量數(shù)據(jù)挖掘模型在查詢回歸程度的指標(biāo)。用簡單的話介紹就是“原本需要系統(tǒng)判斷出來的內(nèi)容中,大模型真的抓出來了多少”,用來判斷大模型能夠準(zhǔn)確判斷的范圍。

2)準(zhǔn)確率

準(zhǔn)確率同是模型訓(xùn)練中的概念,用于衡量模型預(yù)測正確的結(jié)果所占的比例。通俗地講,就是模型判斷正確了多少。

在大模型能力有限的情況下,召回率和準(zhǔn)確率一定程度上是沖突的。為了判斷得全,就會加大判斷錯誤的概率。為了判斷得正確,又會有案例沒有沒判斷到。

召回率和準(zhǔn)確性直接決定了大模型的服務(wù)能力。

3)安全性

由于是第三方服務(wù),B端企業(yè)需要考慮到數(shù)據(jù)的安全問題,評估模型能否保護(hù)用戶數(shù)據(jù)的隱私和安全,并符合相關(guān)的數(shù)據(jù)保護(hù)法規(guī)和標(biāo)準(zhǔn)。

4)可解釋性

可解釋性是指模型的結(jié)果能否被理解??山忉屝愿叩哪P?,其黑盒程度相對更低,更具有可控性。

對B端業(yè)務(wù)來說,模型的結(jié)果需要能夠被解釋和理解,以便用戶和業(yè)務(wù)決策者能夠理解模型的工作原理和結(jié)果依據(jù)。

5)穩(wěn)定性

結(jié)合自身業(yè)務(wù)端量級判斷評估模型的性能,包括響應(yīng)時間、吞吐量和并發(fā)處理能力。模型需要能夠在合理的時間內(nèi)處理大量的請求,并保持高效的性能和穩(wěn)定的服務(wù)。

6)成本

使用大模型是有成本的,例如使用ChatGPT需要按照token進(jìn)行收費(fèi)。此外,不同版本的大模型收費(fèi)標(biāo)準(zhǔn)也不同,例如ChatGPT4.0版本雖然效果更好,但成本卻是3.5版本的40倍到60倍。因此,在選擇大模型時,需要結(jié)合業(yè)務(wù)量級進(jìn)行成本評估,以確保AI需求真正能夠?qū)崿F(xiàn)”降本”的目標(biāo)。

7)發(fā)展?jié)摿?/strong>

評估大模型提供方的潛力,后續(xù)是否有可能提供更好的服務(wù)能力。

基于上方指標(biāo)進(jìn)行多個大模型之間的對比,按照指標(biāo)權(quán)重綜合考慮,最終選擇最合適的大模型以接入。

3. 海王思維,兩手準(zhǔn)備

隨著人工智能的快速發(fā)展,企業(yè)在選擇和應(yīng)用大型模型時面臨著不確定性。原本使用的大型模型可能隨時被新出現(xiàn)的更優(yōu)秀模型所取代,以滿足業(yè)務(wù)需求。這種替換可能會導(dǎo)致額外的成本,對企業(yè)的B端系統(tǒng)建設(shè)進(jìn)度產(chǎn)生不利影響。因此,在實(shí)施企業(yè)的人工智能需求時,需要具備一種“海王”思維:

1)做好隨時“分手”的準(zhǔn)備

確?;诖竽P偷男枨髮?shí)現(xiàn)方案不要過于定制和耦合,明確好自身系統(tǒng)和第三代模型的邊界。把第三方大模型當(dāng)作一個可隨時替換的“插件”,做好隨時替換的準(zhǔn)備,當(dāng)目前使用的大模型技術(shù)由于成本或者能力問題需要替換的時候,可以隨時抽身而退。

2)確定模型評估方案,定期勾搭市面上的其他模型

由于當(dāng)前AI發(fā)展日新月異,為了不讓企業(yè)落后,產(chǎn)品團(tuán)隊(duì)需要定期接入最新的模型進(jìn)行測試和驗(yàn)證,利用前面搭建的“模型評估體系”判斷最新的模型與原有模型的差異,以用于判斷“是否替換”或是“保持使用”。

談?wù)勗贐端落地第三方大模型的步驟

4. 確保兜底邏輯,規(guī)避AI的不可控風(fēng)險(xiǎn)

由于AI輸出的答案存在不確定性問題,在涉及面向C端用戶的業(yè)務(wù)場景中,直接應(yīng)用AI輸出結(jié)果可能導(dǎo)致無法控制的影響。因此,為規(guī)避相關(guān)風(fēng)險(xiǎn),我們需要采取以下措施:

1)建立自主AI結(jié)果檢測程序,攔截?zé)o效輸出結(jié)果:我們可以通過建立AI結(jié)果檢測程序來識別可能對業(yè)務(wù)產(chǎn)生影響的內(nèi)容。通過使用詞庫和正則匹配等方法,我們可以甄別并攔截AI生成的錯誤結(jié)果。對于出現(xiàn)錯誤的結(jié)果,我們將重新執(zhí)行AI生成邏輯,直至獲得正確的輸出內(nèi)容。

2)引入人力兜底方案以應(yīng)對影響用戶的內(nèi)容:對于不直接影響用戶的內(nèi)容,我們可以直接采用AI的判斷結(jié)果。

然而,對于可能對用戶產(chǎn)生影響的內(nèi)容,最好由人力進(jìn)行兜底控制。例如,在審核環(huán)節(jié)中,我們可以引入“機(jī)審”和“人審”的組合,使用“機(jī)審”對內(nèi)容進(jìn)行初步篩選,而“人審”則負(fù)責(zé)處理AI無法準(zhǔn)確判斷的內(nèi)容。又例如,在智能對話客服環(huán)節(jié),我們可以引入“人工入口”,以確保在機(jī)器無法解決問題的情況下,引導(dǎo)用戶尋求人工幫助,避免對用戶體驗(yàn)造成影響。

四、總結(jié)

總體而言,使用第三方大模型可能會引發(fā)一系列問題,由于第三方技術(shù)的不可控性,這可能會影響中小企業(yè)在B端的實(shí)施。

為了避免這些問題,確定落地方案時需要快速進(jìn)行可行性驗(yàn)證,并建立指標(biāo)體系來進(jìn)行選擇。同時,還需要做好兩手準(zhǔn)備和兜底邏輯,以應(yīng)對市場的快速發(fā)展和AI技術(shù)帶來的風(fēng)險(xiǎn)。

本文由 @檸檬餅干凈又衛(wèi)生 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 題主有做過在b端場景的落地項(xiàng)目嗎

    來自北京 回復(fù)
    1. 嗯嗯

      來自廣東 回復(fù)