如何校驗(yàn)用戶畫像的準(zhǔn)確性?

用戶畫像是數(shù)據(jù)運(yùn)營(yíng)的基礎(chǔ),也是做深度挖掘的一個(gè)不可或缺的模塊。只有先打好畫像基礎(chǔ),確保畫像質(zhì)量,后續(xù)的深挖行為才有突破的可能。
在用戶研究的課題中,用戶畫像是幾乎每個(gè)公司都會(huì)去做的,淺層的包括統(tǒng)計(jì)類的:上月購買量,上周活躍天數(shù)等;深層的包括洞察類的:潛在需求偏好,生命周期階段等;前者的校驗(yàn)簡(jiǎn)單,后者的校驗(yàn)需要通過一些特別的方式。本文就洞察類畫像校驗(yàn)做一系列的梳理。
省略掉預(yù)處理設(shè)計(jì)的過程,畫像校驗(yàn)的步驟主要集中在畫像開發(fā),畫像上線,畫像更新中,并且三個(gè)階段中,每個(gè)階段的校驗(yàn)方式不盡不同
一. 用戶畫像開發(fā)中
當(dāng)我們所開發(fā)的用戶畫像是類似于用戶的下單需求、用戶的購車意愿、用戶是否有注冊(cè)意愿這一類存在歷史的正負(fù)樣本的有監(jiān)督的問題,我們可以利用歷史確定的數(shù)據(jù)來校驗(yàn)我們的畫像準(zhǔn)確性。比如,銀行在設(shè)計(jì)用戶征信的畫像前,會(huì)有一批外部購買的壞樣本和好樣本,其實(shí)畫像問題就轉(zhuǎn)化為分類問題去解決評(píng)估了。
1. Recall、Pecision、K-S、F1曲線、Roc曲線、Confusion Matrix、AUC
針對(duì)這類問題,已經(jīng)有較為成熟的理論基礎(chǔ),直接利用測(cè)試樣本判斷的準(zhǔn)確程度判斷畫像是否準(zhǔn)確
這張圖是一張非常常見也是有效的來總結(jié)Recall、Pecision、Lift曲線、Roc曲線、Confusion Matrix的圖。
FPR = FP/(FP + TN)
Recall=TPR=TP/(TP+FN)
Precision=TP/(TP+FP)
F1曲線:2
*
Precision*
Recall/(Precision+Recall)Roc曲線:TPR vs FPR,也就是Precision vs Recall
Auc:area under the roc curve ,也就是roc曲線下面的面積,積分或者投點(diǎn)法均可求解。
2. 交叉驗(yàn)證
并不是所有畫像都是有監(jiān)督訓(xùn)練的畫像,舉個(gè)例子,用戶的性別畫像,是一個(gè)無監(jiān)督的刻畫,當(dāng)你無法通過app端資料填寫直接獲取到的時(shí)候,你只能夠通過其他數(shù)據(jù)特征的對(duì)用戶進(jìn)行分群。
首先,我們?cè)诳偟臄?shù)據(jù)集中篩選出所有關(guān)鍵影響特征,每次將篩選出的特征分為兩塊,測(cè)試特征訓(xùn)練特征,利用訓(xùn)練特征建立模型,再利用測(cè)試特征去判斷模型是否合理(比如女鞋用戶群的女鞋購買次數(shù)小于男性用戶群,則次模型異常,刪除),最后集成所有合理模型。
這樣的邏輯中,我們將所有異常不合理的模型全部剔除,訓(xùn)練過程中就校驗(yàn)了用戶畫像的準(zhǔn)確性。
二. 用戶畫像上線后
1. ABTest
不得不說,abtest是用戶畫像校驗(yàn)最為直觀有效的校驗(yàn)方式。
用戶分流模塊:
一句話解釋,就是A1=A2保證分配隨機(jī),A3好于A1+A2的效果檢驗(yàn)畫像是否準(zhǔn)確?多準(zhǔn)確?
三. 用戶畫像更新
用戶回訪
在畫像刻畫完成后,必然會(huì)存在畫像優(yōu)化迭代的過程,客服回訪是非常常見且有效的方式。
比如,我們定義了一波潛在流失用戶10萬人,隨機(jī)抽取1000人,進(jìn)行回訪,根據(jù)回訪結(jié)果做文本挖掘,提取關(guān)鍵詞,看消極詞用戶的占比;
(來源網(wǎng)絡(luò))
機(jī)制檢測(cè)
再比如,我們定義了一波忠誠用戶10萬人,隨機(jī)抽取100人,后臺(tái)隨機(jī)獲取用戶安裝app的列表,看用戶同類app的下載量數(shù)目的分布;
橫軸為用戶手機(jī)中同類競(jìng)品安裝量的個(gè)數(shù),縱軸為對(duì)應(yīng)的隨機(jī)抽樣的100人中的個(gè)數(shù)。
- 人群1分布為忠誠用戶畫像最準(zhǔn)確的,同類app下載量集中在1附近,定義的用戶極為準(zhǔn)確
- 人群2分布雜亂
- 人群3分布在下降量異常高的數(shù)值附近,定義人群不準(zhǔn)確
用戶畫像是數(shù)據(jù)運(yùn)營(yíng)的基礎(chǔ),也是做深度挖掘的一個(gè)不可或缺的模塊。只有先打好畫像基礎(chǔ),確保畫像質(zhì)量,后續(xù)的深挖行為才有突破的可能。
最后,謝謝大家閱讀。
作者:沙韜偉,蘇寧易購高級(jí)算法工程師,4年數(shù)據(jù)挖掘數(shù)據(jù)分析經(jīng)驗(yàn),前惠普中國算法研究員、滴滴租車用戶征信負(fù)責(zé)人、分布式R開發(fā)研究員貢獻(xiàn)者,Data學(xué)院特邀講師,當(dāng)前為蘇寧易購全產(chǎn)業(yè)算法研究負(fù)責(zé)人。
本文由 @沙韜偉 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
好專業(yè),繼續(xù)爬貼消化這些知識(shí)先
請(qǐng)問蘇寧還招設(shè)計(jì)師嘛
最后一個(gè)圖 同類app下載量1 用戶準(zhǔn)確 ;
同類用戶 不是應(yīng)該有 多個(gè)同類的app ?
這個(gè)6,只不過表示沒看懂~~~
哪里沒看懂啊,可能是我寫的不清楚,我解釋給你聽
好專業(yè),學(xué)習(xí)了~不過有一個(gè)點(diǎn),“女性用戶群的女鞋購買次數(shù)小于男性用戶群,則次模型異常,刪除”,作者確定這些就是異常數(shù)據(jù)嘛 ??
這只是舉個(gè)例子,但是實(shí)際上,瀏覽次數(shù)上看,還真的是55開
其實(shí)我也懷疑。老婆喜歡給老公買衣服,自己卻很節(jié)儉