銀行和大廠的一次數(shù)據(jù)交易

3 評(píng)論 3264 瀏覽 14 收藏 11 分鐘

編輯導(dǎo)語(yǔ):隨著信息化和互聯(lián)網(wǎng)的快速發(fā)展,數(shù)據(jù)交易已經(jīng)成為社會(huì)熱點(diǎn)。與信息技術(shù)緊密融合的金融行業(yè),伴隨著信息化程度的提高,與互聯(lián)網(wǎng)大廠的和合作越來(lái)越頻繁。那么當(dāng)大廠和銀行聯(lián)合建模之后會(huì)發(fā)生什么呢?一起來(lái)看看吧!

之前寫(xiě)過(guò)一篇:銀行和大廠的一次聯(lián)合建模慢銀行在聯(lián)合建模之后,借由快大廠的數(shù)據(jù)和流量,短暫地解決了獲客問(wèn)題。

但好景不長(zhǎng),該模型效果衰減地非常厲害,通過(guò)率也掉了一個(gè)水平,當(dāng)初建模未料到行業(yè)將如此下行,采用的樣本過(guò)于優(yōu)質(zhì)。現(xiàn)在不得不面對(duì)更下沉的客群。

不管是那次聯(lián)合建模過(guò)程中,還是之后,慢銀行和快大廠涉事雙方都對(duì)那次合作不置好詞。他們唯一達(dá)成了的共識(shí)是,聯(lián)合建模太麻煩了。但合作是上層戰(zhàn)略,總是要維持和推進(jìn)的。

于是,快大廠提議,可以輸出我們內(nèi)部的數(shù)據(jù)標(biāo)簽作為標(biāo)準(zhǔn)產(chǎn)品給你們,這些數(shù)據(jù)不僅風(fēng)險(xiǎn)區(qū)分效果好還很穩(wěn)定。慢銀行雖然明知其套路,但迫于形勢(shì)惡劣,還是覺(jué)得可以一試。

畢竟,標(biāo)準(zhǔn)產(chǎn)品省去了聯(lián)合建模的麻煩,同時(shí)也避免了建模樣本過(guò)少導(dǎo)致過(guò)早失效的問(wèn)題。于是,原班人馬把上個(gè)項(xiàng)目成立的微信群,“快與慢聯(lián)合建模群”,改成了,“快與慢數(shù)據(jù)產(chǎn)品合作群”。

只是聯(lián)合建模時(shí)快大廠的負(fù)責(zé)人,已經(jīng)離職了。據(jù)說(shuō)是因?yàn)楫?dāng)時(shí)合作太費(fèi)勁,受不了了,也據(jù)說(shuō)是在快大廠已經(jīng)待了兩年多了,該走了。(不知道我為什么特意想黑一下)曾經(jīng)發(fā)生的故事,或多或少,或變或沒(méi)變,地再次發(fā)生了。

一、立項(xiàng)會(huì)議

有了之前的經(jīng)驗(yàn),這次兩方都沒(méi)怎么寒暄,就直奔主題了。慢銀行因?yàn)閷?duì)上次合作不滿意,這次主動(dòng)提了很多要求。你們那什么什么交易數(shù)據(jù)要加工這些字段,提供給我們。

此處可以代入,天貓?zhí)詫毦〇|拼多多等電商交易數(shù)據(jù),也可以代入花唄借唄白條金條等支付借貸數(shù)據(jù),等等。你們那會(huì)員等級(jí)數(shù)據(jù)要提供給我們。

此處可以代入支付寶會(huì)員等級(jí)、芝麻信用分,京東京享值、小白守約分,微信支付分等。另外,你們的賬齡數(shù)據(jù)要給我們。還有,你們提供什么模型評(píng)分給我們?是你們的A卡、B卡還是什么模型的評(píng)分?你們?cè)趺唇ǖ哪P???jī)?nèi)部怎么用的?……快大廠,沒(méi)有話說(shuō)。

項(xiàng)目是VP層級(jí)的,老板發(fā)了死命令,要服務(wù)好對(duì)方。慢銀行指定了一個(gè)同學(xué),當(dāng)然還是那個(gè)慢A,快大廠也指定了個(gè)同學(xué),也還是那個(gè)快B。此外,雙方增加了策略同學(xué)的參與,分別是慢C、快D。慢A和快B仇人見(jiàn)面分外眼紅,但工資讓他們學(xué)會(huì)了安分和合作。

二、數(shù)據(jù)準(zhǔn)備

關(guān)于標(biāo)準(zhǔn)產(chǎn)品,慢銀行體現(xiàn)了其專業(yè)性,提出的數(shù)據(jù)維度非常豐富,把快大廠的數(shù)據(jù)資產(chǎn)挖的是干干凈凈,多一個(gè)不能多,少一個(gè)不能少。

那是因?yàn)槁鼵同學(xué)參考了芝麻信用變量的維度,依葫蘆畫(huà)瓢,再排除了快大廠相對(duì)比較缺失的信息,提出了這么一個(gè)變量清單。芝麻信用的65個(gè)變量列表如下,其中標(biāo)紅的是8個(gè)核心變量。

覆蓋信用歷史、行為偏好、履約能力、身份特質(zhì)、人脈關(guān)系五個(gè)維度,正所謂“五大護(hù)法齊上陣,信用風(fēng)險(xiǎn)忙下場(chǎng)”。關(guān)于芝麻信用,我寫(xiě)過(guò)揭秘:芝麻信用是怎么做的

明顯可以看到,阿里系在人脈關(guān)系上是多么的弱勢(shì),該部分信息主要都在騰訊和運(yùn)營(yíng)商手上。

不僅如此,慢C還提出了這些變量分段的要求,例如天數(shù)類的、金額類的、次數(shù)類的分段區(qū)間怎么設(shè)等等。只是最終分段還是要結(jié)合快大廠大盤(pán)數(shù)據(jù)分布情況再做定奪。

快大廠的策略同學(xué)快D秉著“最大化達(dá)成合作目的,最小化合作效果”的宗旨,剔除了其中一些過(guò)于敏感的數(shù)據(jù),并進(jìn)一步限制了變量分段數(shù)量。需求最終提給了模型同學(xué)快B去加工,這處加工費(fèi)了快B半條老命。

不僅四處問(wèn)人這些字段的取數(shù)邏輯,好不容易加工好還總有變量分布不符合預(yù)期。過(guò)程中,快D找出了無(wú)數(shù)個(gè)問(wèn)題點(diǎn),以至于快B天天吐槽快D事兒多。百年之后,快B終于改好了這些變量加工的代碼,對(duì)著大盤(pán)跑批了近兩年的數(shù)據(jù),并校驗(yàn)了分布穩(wěn)定合理。

同步慢銀行時(shí),還被慢C同學(xué)質(zhì)疑了-1和0取值上的不合理。

三、策略制定

慢銀行要了快大廠的大盤(pán)數(shù)據(jù)分布情況后,從行內(nèi)提取了10w樣本,讓快大廠的模型同學(xué)快B回溯。隨后,慢銀行的模型同學(xué)慢A,對(duì)這些字段進(jìn)行了IV和KS的計(jì)算,效果差強(qiáng)人意。沒(méi)有人驚喜,也沒(méi)有人發(fā)怒。

于是,慢A做了非常詳細(xì)的數(shù)據(jù)分析,回匹了行內(nèi)的客群標(biāo)簽,計(jì)算了變量每組下的風(fēng)險(xiǎn)水平。然后,交給了慢C制定策略。慢C操起了所謂的經(jīng)驗(yàn)之錘,寫(xiě)了一堆case when,得到了最終的風(fēng)險(xiǎn)評(píng)級(jí),繼而測(cè)算了各類人群結(jié)構(gòu)上的占比、通過(guò)率、風(fēng)險(xiǎn)、額度水平等等。

寫(xiě)了一些結(jié)論,做了一個(gè)文檔,獲得了行內(nèi)認(rèn)可??霥苦求了半天,以方便更好的監(jiān)控服務(wù)效果為由,要到了這個(gè)毫無(wú)營(yíng)養(yǎng)的文檔。如獲至寶地同步了快B和廠里的老板。

四、數(shù)據(jù)部署

標(biāo)準(zhǔn)產(chǎn)品的部署顯然跟慢銀行都沒(méi)關(guān)系,但即便如此,誰(shuí)說(shuō)又能小瞧呢?快B和快D首先討論了,客群要包括哪些。大盤(pán)用戶數(shù)量巨大,全都算人數(shù)太多了,很多人也沒(méi)有有效數(shù)據(jù)。

于是按活躍度選定了一個(gè)客群。然后討論了接口服務(wù)的困難。要輸出的字段有大幾十個(gè),這些字段都是要推送線上的,跟模型分的一兩個(gè)字段部署完全不一樣。導(dǎo)致這個(gè)部署作業(yè)既吃資源,又耗時(shí)長(zhǎng)。

于是一致決定月更。但日后隨著大盤(pán)活躍用戶增加,該作業(yè)的執(zhí)行和推數(shù)效率仍可能存在風(fēng)險(xiǎn)點(diǎn)。最后再制定了數(shù)據(jù)監(jiān)控的方案。

快B同學(xué)每月跑數(shù)完成后要校驗(yàn)所有字段的分布,并郵件正式通知相關(guān)方。再第一時(shí)間推送線上接口,同時(shí)確保推送服務(wù)的有效性。對(duì)待這些需求,快B只是覺(jué)得他們吵鬧。

四、我說(shuō)

這次合作,慢A和快B兩位模型同學(xué)都淪為了工具,非常弱勢(shì),“人為刀俎,我為魚(yú)肉”。沒(méi)辦法,他們是“牛逼哄哄”的算法工程師,數(shù)據(jù)產(chǎn)品又不是模型,跟他們有什么關(guān)系。

算法工程師往往不等于風(fēng)控同學(xué)。在數(shù)據(jù)產(chǎn)品合作這個(gè)項(xiàng)目過(guò)程中,他們被策略同學(xué)教做人了。我相信這對(duì)他們來(lái)說(shuō)是一件好事。算法工程師不應(yīng)該只會(huì)算法。

如果你只會(huì)對(duì)確定的樣本、確定的特征、確定的標(biāo)簽,建一個(gè)所謂的大數(shù)據(jù)模型,不管這個(gè)模型是LR,還是XGB,還是神經(jīng)網(wǎng)絡(luò),還是圖算法,其實(shí)都是不夠的。但,這在國(guó)內(nèi)往往是吃得香的。

有一類很難的面試考點(diǎn)叫system design,國(guó)外大廠很喜歡考,國(guó)內(nèi)也有很多考的了。風(fēng)控模型本應(yīng)該也是一樣,如何對(duì)遇到的問(wèn)題設(shè)計(jì)合理的解決方案,比模型本身重要的多得多。

但,還是有很多算法層面的面試仍然是XGB參數(shù)、AUC、KS等??疾斓挠肋h(yuǎn)都是候選人有沒(méi)有在認(rèn)真準(zhǔn)備面試?!按嬖诩春侠怼?,我理解不了這句話的解析意,我就是想用其表面意。

#專欄作家#

雷帥,微信公眾號(hào):雷帥快與慢,人人都是產(chǎn)品經(jīng)理專欄作家。風(fēng)控算法工程師,懂點(diǎn)風(fēng)控、懂點(diǎn)業(yè)務(wù)、懂點(diǎn)人生。始終相信經(jīng)驗(yàn)讓工作更簡(jiǎn)單,繼而發(fā)現(xiàn)風(fēng)控讓人生更自由。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 原來(lái)是我太膚淺了,以為兩者 關(guān)系只有錢(qián),沒(méi)想到還有那么多的聯(lián)系,學(xué)到了

    來(lái)自廣東 回復(fù)
  2. 總感覺(jué)銀行和大廠之間唯一的關(guān)聯(lián)就是貸款,看完之后才明白想的太簡(jiǎn)單了

    回復(fù)
  3. 我能不能說(shuō),看見(jiàn)的第一眼我想到的竟然只有錢(qián),看完之后才恍然大悟。原來(lái)是這個(gè)樣子。

    來(lái)自河南 回復(fù)