如何校驗(yàn)用戶畫像的準(zhǔn)確性?

sladesal
8 評(píng)論 24843 瀏覽 107 收藏 7 分鐘
🔗 B端产品需要更多地依赖销售团队和渠道合作来推广产品,而C端产品需要更多地利用网络营销和口碑传播来推广产品..

用戶畫像是數(shù)據(jù)運(yùn)營(yíng)的基礎(chǔ),也是做深度挖掘的一個(gè)不可或缺的模塊。只有先打好畫像基礎(chǔ),確保畫像質(zhì)量,后續(xù)的深挖行為才有突破的可能。

在用戶研究的課題中,用戶畫像是幾乎每個(gè)公司都會(huì)去做的,淺層的包括統(tǒng)計(jì)類的:上月購買量,上周活躍天數(shù)等;深層的包括洞察類的:潛在需求偏好,生命周期階段等;前者的校驗(yàn)簡(jiǎn)單,后者的校驗(yàn)需要通過一些特別的方式。本文就洞察類畫像校驗(yàn)做一系列的梳理。

省略掉預(yù)處理設(shè)計(jì)的過程,畫像校驗(yàn)的步驟主要集中在畫像開發(fā),畫像上線,畫像更新中,并且三個(gè)階段中,每個(gè)階段的校驗(yàn)方式不盡不同

一. 用戶畫像開發(fā)中

當(dāng)我們所開發(fā)的用戶畫像是類似于用戶的下單需求、用戶的購車意愿、用戶是否有注冊(cè)意愿這一類存在歷史的正負(fù)樣本的有監(jiān)督的問題,我們可以利用歷史確定的數(shù)據(jù)來校驗(yàn)我們的畫像準(zhǔn)確性。比如,銀行在設(shè)計(jì)用戶征信的畫像前,會(huì)有一批外部購買的壞樣本和好樣本,其實(shí)畫像問題就轉(zhuǎn)化為分類問題去解決評(píng)估了。

1. Recall、Pecision、K-S、F1曲線、Roc曲線、Confusion Matrix、AUC

針對(duì)這類問題,已經(jīng)有較為成熟的理論基礎(chǔ),直接利用測(cè)試樣本判斷的準(zhǔn)確程度判斷畫像是否準(zhǔn)確

這張圖是一張非常常見也是有效的來總結(jié)Recall、Pecision、Lift曲線、Roc曲線、Confusion Matrix的圖。

FPR = FP/(FP + TN)

Recall=TPR=TP/(TP+FN)

Precision=TP/(TP+FP)

F1曲線:2*Precision*Recall/(Precision+Recall)

Roc曲線:TPR vs FPR,也就是Precision vs Recall

Auc:area under the roc curve ,也就是roc曲線下面的面積,積分或者投點(diǎn)法均可求解。

2. 交叉驗(yàn)證

并不是所有畫像都是有監(jiān)督訓(xùn)練的畫像,舉個(gè)例子,用戶的性別畫像,是一個(gè)無監(jiān)督的刻畫,當(dāng)你無法通過app端資料填寫直接獲取到的時(shí)候,你只能夠通過其他數(shù)據(jù)特征的對(duì)用戶進(jìn)行分群。

首先,我們?cè)诳偟臄?shù)據(jù)集中篩選出所有關(guān)鍵影響特征,每次將篩選出的特征分為兩塊,測(cè)試特征訓(xùn)練特征,利用訓(xùn)練特征建立模型,再利用測(cè)試特征去判斷模型是否合理(比如女鞋用戶群的女鞋購買次數(shù)小于男性用戶群,則次模型異常,刪除),最后集成所有合理模型。

這樣的邏輯中,我們將所有異常不合理的模型全部剔除,訓(xùn)練過程中就校驗(yàn)了用戶畫像的準(zhǔn)確性。

二. 用戶畫像上線后

1. ABTest

不得不說,abtest是用戶畫像校驗(yàn)最為直觀有效的校驗(yàn)方式。

用戶分流模塊:

一句話解釋,就是A1=A2保證分配隨機(jī),A3好于A1+A2的效果檢驗(yàn)畫像是否準(zhǔn)確?多準(zhǔn)確?

三. 用戶畫像更新

用戶回訪

在畫像刻畫完成后,必然會(huì)存在畫像優(yōu)化迭代的過程,客服回訪是非常常見且有效的方式。

比如,我們定義了一波潛在流失用戶10萬人,隨機(jī)抽取1000人,進(jìn)行回訪,根據(jù)回訪結(jié)果做文本挖掘,提取關(guān)鍵詞,看消極詞用戶的占比;

(來源網(wǎng)絡(luò))

機(jī)制檢測(cè)

再比如,我們定義了一波忠誠用戶10萬人,隨機(jī)抽取100人,后臺(tái)隨機(jī)獲取用戶安裝app的列表,看用戶同類app的下載量數(shù)目的分布;

橫軸為用戶手機(jī)中同類競(jìng)品安裝量的個(gè)數(shù),縱軸為對(duì)應(yīng)的隨機(jī)抽樣的100人中的個(gè)數(shù)。

  • 人群1分布為忠誠用戶畫像最準(zhǔn)確的,同類app下載量集中在1附近,定義的用戶極為準(zhǔn)確
  • 人群2分布雜亂
  • 人群3分布在下降量異常高的數(shù)值附近,定義人群不準(zhǔn)確

用戶畫像是數(shù)據(jù)運(yùn)營(yíng)的基礎(chǔ),也是做深度挖掘的一個(gè)不可或缺的模塊。只有先打好畫像基礎(chǔ),確保畫像質(zhì)量,后續(xù)的深挖行為才有突破的可能。

最后,謝謝大家閱讀。

 

作者:沙韜偉,蘇寧易購高級(jí)算法工程師,4年數(shù)據(jù)挖掘數(shù)據(jù)分析經(jīng)驗(yàn),前惠普中國算法研究員、滴滴租車用戶征信負(fù)責(zé)人、分布式R開發(fā)研究員貢獻(xiàn)者,Data學(xué)院特邀講師,當(dāng)前為蘇寧易購全產(chǎn)業(yè)算法研究負(fù)責(zé)人。

本文由 @沙韜偉 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 好專業(yè),繼續(xù)爬貼消化這些知識(shí)先

    來自廣東 回復(fù)
  2. 請(qǐng)問蘇寧還招設(shè)計(jì)師嘛

    回復(fù)
  3. 最后一個(gè)圖 同類app下載量1 用戶準(zhǔn)確 ;
    同類用戶 不是應(yīng)該有 多個(gè)同類的app ?

    來自北京 回復(fù)
  4. 這個(gè)6,只不過表示沒看懂~~~

    來自北京 回復(fù)
    1. 哪里沒看懂啊,可能是我寫的不清楚,我解釋給你聽

      來自江蘇 回復(fù)
  5. 好專業(yè),學(xué)習(xí)了~不過有一個(gè)點(diǎn),“女性用戶群的女鞋購買次數(shù)小于男性用戶群,則次模型異常,刪除”,作者確定這些就是異常數(shù)據(jù)嘛 ??

    來自浙江 回復(fù)
    1. 這只是舉個(gè)例子,但是實(shí)際上,瀏覽次數(shù)上看,還真的是55開

      來自江蘇 回復(fù)
    2. 其實(shí)我也懷疑。老婆喜歡給老公買衣服,自己卻很節(jié)儉

      回復(fù)
专题
19094人已学习13篇文章
客户服务在整个客户生命周期主线中是一项持续的互动行为。本专题的文章提供了做好客户服务设计和体验的思路。
专题
14141人已学习13篇文章
本专题的文章分析了用户运营策略的案例,为如何做用户运营策略提供了思路。
专题
32139人已学习10篇文章
社交产品是大坑?没get到这些知识点,可能你才是个大坑。
专题
12481人已学习11篇文章
怎么做投放是很多运营人和品牌方的一大难题,做好投放不可缺少以下几大步骤。本专题的文章以小红书投放为例,分享了一些策略,一起来看下吧。
专题
37671人已学习22篇文章
复盘是产品经理和运营人提高自身竞争力的不二法门。