如何謹慎地評估一個數(shù)據(jù)源

0 評論 2933 瀏覽 7 收藏 12 分鐘

對于金融機構(gòu)而言,流量和風(fēng)控決定利潤,而數(shù)據(jù)質(zhì)量是風(fēng)控核心。為提升風(fēng)控水平,會引入第三方數(shù)據(jù)源。本文從線下數(shù)據(jù)測試與線上模擬測試兩個流程,介紹如何謹慎地評估一個數(shù)據(jù)源,一起來看一下吧。

一、概述:

對于金融機構(gòu)而言,流量和風(fēng)控決定利潤,而數(shù)據(jù)質(zhì)量是風(fēng)控核心。為提升風(fēng)控水平,會引入三方數(shù)據(jù)源,一般都會思考兩個方面:數(shù)據(jù)能否用,數(shù)據(jù)如何用。本篇文章會從線下數(shù)據(jù)測試與線上模擬測試兩個流程介紹如何謹慎地評估一個數(shù)據(jù)源。通常情況下:

  1. 優(yōu)化現(xiàn)有的模型,一般會考慮接入變量類和原始數(shù)據(jù)類;
  2. 用來設(shè)計策略,一般會接入黑名單類,評分類的數(shù)據(jù)或者變量類;
  3. 豐富用戶畫像的維度,這種數(shù)據(jù)能反映用戶的某些屬性,一般考慮原始數(shù)據(jù)類。

二、常用指標(biāo)說明

1. 覆蓋率

覆蓋率是考量數(shù)據(jù)覆蓋程度的指標(biāo),又叫查得率。根據(jù)業(yè)務(wù)情況和數(shù)據(jù)的應(yīng)用場景,確定數(shù)據(jù)覆蓋程度的需求,覆蓋率越高越好。

2. 有效性

分析單變量的KS 、GINI、IV 值、趨勢。同時,還要考量數(shù)據(jù)的可解釋性和趨勢的穩(wěn)定性。

1)KS

用以評估對好、壞客戶的判別區(qū)分能力,計算累計壞客戶與累計好客戶百分比的最大差距。KS值范圍在0%-100%,評分類的變量,一般要求ks>20%,變量類的數(shù)據(jù)一般要求ks>10%。

2)GINI系數(shù)

也是用于模型風(fēng)險區(qū)分能力進行評估。GINI統(tǒng)計值衡量壞賬戶數(shù)在好賬戶數(shù)上的的累積分布與隨機分布曲線之間的面積,好賬戶與壞賬戶分布之間的差異越大,GINI指標(biāo)越高,表明風(fēng)險區(qū)分能力越強。

3)IV 值

信息價值,用來表示特征對目標(biāo)預(yù)測的貢獻程度,即特征的預(yù)測能力,一般來說,IV值越高,該特征的預(yù)測能力越強,信息貢獻程度越高。

3. 穩(wěn)定性

無論是評分類還是變量類的數(shù)據(jù)源,都需要評估穩(wěn)定性。穩(wěn)定性的評估是需要參照了,一般使用PSI指標(biāo),對比預(yù)期分布與實際分布的差異。

當(dāng)特征變化過于劇烈時,并不是一定確定該數(shù)據(jù)源/特征不使用,而是要先去了解變化產(chǎn)生的原因。

4. 共線性

共線性又叫做多重共線性,是指自變量之間存在較強的,甚至完全的線性相關(guān)關(guān)系。當(dāng)自變量之間存在共線性時,模型的參數(shù)會變得極其不穩(wěn)定,模型的預(yù)測能力會下降。

許多第三方的數(shù)據(jù)衍生邏輯都是笛卡爾積遍歷所有組合的可能。因此,在建模前期變量的篩選環(huán)節(jié),就需要采取有效措施避免共線性問題。容忍度(Tolerance)、方差膨脹因子(Variance inflation factor, VIF)、特征根(Eigenvalue)、條件指數(shù)(Condition Idex)等,都是考察手段。

5. 相關(guān)性分析

可以進行相關(guān)性分析,分析數(shù)據(jù)的相關(guān)程度。數(shù)值特征與數(shù)值特征一般用協(xié)方差、prarson系數(shù)和舉例相關(guān)系數(shù)評估;而類別特征通常用卡方檢驗、Fisher得分、F檢驗、斯皮爾曼等級相關(guān)、Kendall相關(guān)系數(shù)來評估。

6. 投入產(chǎn)出評估

在整個評估環(huán)節(jié)中,最重要的環(huán)節(jié),就是將數(shù)據(jù)聯(lián)動當(dāng)前策略,結(jié)合三方數(shù)據(jù)服務(wù)的收費模式(常見的計費方式有按調(diào)量、按命中量計費計費,如果需求較大,也可以考慮談判用年/月包)評估這個接口的投入產(chǎn)出,最終評估,這個接口上線后所產(chǎn)生的收益能否覆蓋這個接口的支出。

三、離線測試

1. 提供線下測試樣本

根據(jù)接入目的的不同,測試樣本也會稍有差異,比如為了優(yōu)化現(xiàn)有模型,就最好提供建模時所用的數(shù)據(jù)樣本。但大致上測試樣本需滿足以下幾點:

  • 連續(xù)一段時間內(nèi)的樣本,可以評估數(shù)據(jù)的穩(wěn)定性;
  • 最好是近段時間的樣本,這樣線下評估結(jié)果與線上實際效果差距不會太大;
  • 其他特殊條件,如覆蓋不同的產(chǎn)品和客群。

注:如果不滿足連續(xù)性、穩(wěn)定性、代表性這三個條件,測試結(jié)果可能是不準(zhǔn)確的。

2. 了解數(shù)據(jù)源情況

一般第三方會提供產(chǎn)品說明,從中需要了解數(shù)據(jù)的底層邏輯和構(gòu)成,了解數(shù)據(jù)背后的業(yè)務(wù)含義。同時也需要格外注意底層數(shù)據(jù)來源(中間環(huán)節(jié)越少越好)、更新頻率(越快越好)等信息。評估數(shù)據(jù)效果可以從策略角度,也可以從模型角度

  • 從策略角度主要是分析單變量的效果,查看是否有強區(qū)分度的單變量,可以用于但規(guī)則或者組合規(guī)則;
  • 從模型角度主要是看數(shù)據(jù)整體效果,如果數(shù)據(jù)沒有較強區(qū)分度的單變量,但是整體效果不錯且價格低廉,也會被考慮。

3. 通用分析評估

從策略角度主要是分析單變量的效果,查看是否有強區(qū)分度的單變量,可以用于規(guī)則或者組合規(guī)則;從模型角度主要是看數(shù)據(jù)整體效果,如果數(shù)據(jù)沒有較強區(qū)分度的單變量,但是整體效果不錯且價格低廉,也會被考慮。

考察維度可以細分為以下7個:查得率、準(zhǔn)確率(尤其是黑名單類)、穩(wěn)定性(服務(wù)穩(wěn)定性、特征穩(wěn)定性psi)、模型效果(IV、KS)、性價比(按查詢次數(shù)、按命中次數(shù)、包月/年)、可解釋性(特征變量類是否具有業(yè)務(wù)含義、評分區(qū)間可解釋性)。

4. 特定數(shù)據(jù)源類別評估

四、線上模擬

雖然在歷史樣本上進行了完整的效果評估,已經(jīng)證明將要上線的數(shù)據(jù)、模型、策略是有價值的。但市場環(huán)境和客群是一個動態(tài)變化的過程,況且歷史的數(shù)據(jù)都是在線下回溯的,線上數(shù)據(jù)與線下回溯數(shù)據(jù)是否有差異,是否會有操作失誤,都未可知。模擬線上測試就是要評估數(shù)據(jù)在真實應(yīng)用時的效果。

模擬線上測試是將新策略在實際業(yè)務(wù)環(huán)境中運行,記錄相關(guān)結(jié)果,但并不做決策。

分析數(shù)據(jù)在線上環(huán)境的調(diào)取成功率。對比線上線下的數(shù)據(jù)分布、覆蓋率、策略設(shè)計的通過率是否一致。但費用受限,一般測試都是小樣本,從數(shù)據(jù)源評估的角度,新的模型/策略上線后,需要有完善的監(jiān)控體系,監(jiān)控整個數(shù)據(jù)的變化情況,方便快速地發(fā)現(xiàn)異常。

例如:接口的調(diào)用情況、數(shù)據(jù)的穩(wěn)定性、數(shù)據(jù)缺失率、各個環(huán)節(jié)策略的轉(zhuǎn)化率、貸后逾期情況等,線上觀察實際上線效果,包括但不限于:

  • 數(shù)據(jù)接口穩(wěn)定性(接口調(diào)用是否正常、可靠)
  • 特征變量數(shù)據(jù)分布穩(wěn)定性、缺失率、準(zhǔn)確率等
  • 業(yè)務(wù)效果:如進件通過率(壞賬率需要一段時間,表現(xiàn)期較長)

五、小案例-黑名單評估

1. 評估指標(biāo)

()查得率(Search rate)=查得數(shù)/樣本量

(2)覆蓋率(Cover rate)=查得命中黑名單數(shù)/樣本中命中黑名單量

(3)誤拒率(Error reject rate)=查得命中黑名單數(shù)/樣本中通過且為Good量

(4)有效差異率(Effective difference rate)=查得命中黑名單數(shù)/樣本中通過且Bad量

(5)無效差異率(Invalid difference rate)=查得命中黑名單數(shù)/樣本中其他拒絕量

其中SR、CR、EDR指標(biāo)越高越好,ERR越低越好,IDR與EDR結(jié)合起來觀察,如果IDR和EDR都較高,反映的一種情況是數(shù)據(jù)源定義黑名單是廣撒網(wǎng)式,黑名單質(zhì)量相對不夠精準(zhǔn)。其中前三個指標(biāo)是重點考察,如果想更全面的測試第三方數(shù)據(jù)源,后面兩個差異率指標(biāo)也可以加入考核標(biāo)準(zhǔn)。數(shù)據(jù)統(tǒng)計:

如何謹慎的評估一個數(shù)據(jù)源

2. 樣本測試命中情況

如何謹慎的評估一個數(shù)據(jù)源

3. 評價指標(biāo)統(tǒng)計

按照上文介紹的指標(biāo)分析方法,對比數(shù)據(jù)源和數(shù)據(jù)源2的測試結(jié)果可以得出如下結(jié)論:

  • 在查得率、覆蓋率兩個正向指標(biāo)上,數(shù)據(jù)源均比數(shù)據(jù)源2有明顯優(yōu)勢;
  • 誤拒率這個負向指標(biāo)上,數(shù)據(jù)源卻比數(shù)據(jù)源2低;
  • 將無效差異率(IDR)與有效差異率(EDR)結(jié)合起來觀察,數(shù)據(jù)源2的兩者都較高,可能是廣撒網(wǎng)式,不夠精準(zhǔn)。

最終分析結(jié)論:數(shù)據(jù)源2比較好。

作者:王小賓;微信公眾號:一起侃產(chǎn)品

本文由@并不跳步交叉步 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!