用戶(hù)行為洞察,讓推薦算法精準(zhǔn)到爆!

1 評(píng)論 1853 瀏覽 17 收藏 16 分鐘

推薦算法”是目前比較火的個(gè)性化推薦,常用于互聯(lián)網(wǎng)電子商務(wù)、社交媒體、在線視頻和音樂(lè)服務(wù)等領(lǐng)域。這些算法通過(guò)分析用戶(hù)的歷史行為數(shù)據(jù)(如購(gòu)買(mǎi)歷史、瀏覽記錄、評(píng)分和搜索習(xí)慣等),來(lái)預(yù)測(cè)用戶(hù)可能感興趣的產(chǎn)品或內(nèi)容,并據(jù)此提供個(gè)性化推薦。

機(jī)器學(xué)習(xí)的一般思路“通過(guò)對(duì)一部分?jǐn)?shù)據(jù)進(jìn)行學(xué)習(xí),對(duì)另外一些數(shù)據(jù)進(jìn)行預(yù)測(cè)與判斷”。而推薦算法是推薦系統(tǒng)中的核心和關(guān)鍵,推薦算法的選擇決定了推薦場(chǎng)景、系統(tǒng)性能。

01 常見(jiàn)的推薦場(chǎng)景有三種

1) 個(gè)性化推薦。

例如,線上商城的“千人千面”、內(nèi)容型App的信息流,push信息流等。

2) 熱門(mén)推薦。

例如,視頻App上的“熱播”、電商網(wǎng)站上的“熱榜”。

3) 相關(guān)推薦。

例如,線上商城的“看了又看”“買(mǎi)了還買(mǎi)”,視頻App上的“相關(guān)電影”。

“Better Algorithm or More Data(更好的算法還是更多的數(shù)據(jù))?”很多時(shí)候,能夠快速改善模型性能的不是調(diào)優(yōu)參數(shù),而是糾正其使用的數(shù)據(jù)。

業(yè)界廣泛流傳著一句話:“數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限而已。”

下圖是推薦算法建模的簡(jiǎn)化流程。

簡(jiǎn)單來(lái)說(shuō),推薦算法建模主要包括輸入、訓(xùn)練、輸出三個(gè)階段。

  • 輸入階段需要采集原始數(shù)據(jù),通過(guò)特征工程處理成可供模型訓(xùn)練的特征。
  • 訓(xùn)練階段需要選擇合適的推薦算法訓(xùn)練特征。
  • 輸出階段需要將用戶(hù)特征灌入模型,獲得用戶(hù)的推薦結(jié)果。

數(shù)據(jù)常被比作原材料,而推薦算法則是加工廠,原材料的質(zhì)量、數(shù)量直接決定了訓(xùn)練結(jié)果的質(zhì)量。

數(shù)據(jù)的劃分一般有三種方式

1) 根據(jù)產(chǎn)生的數(shù)據(jù)源,可以劃分為用戶(hù)行為、用戶(hù)屬性、社會(huì)網(wǎng)絡(luò)、用戶(hù)即時(shí)場(chǎng)景(上下文)、標(biāo)的物(物品)屬性5類(lèi);

2) 根據(jù)數(shù)據(jù)類(lèi)型,可以劃分為數(shù)值類(lèi)、文本類(lèi)、時(shí)間類(lèi)、圖片類(lèi)、音視頻類(lèi)等。

3) 根據(jù)數(shù)據(jù)結(jié)構(gòu),可以劃分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等。

在推薦系統(tǒng)中,數(shù)據(jù)通常會(huì)根據(jù)產(chǎn)生的數(shù)據(jù)源來(lái)劃分

1) 用戶(hù)行為數(shù)據(jù)

用戶(hù)在產(chǎn)品上的各種操作,如搜索、瀏覽、收藏、評(píng)論、分享、加購(gòu)物車(chē)、支付等一切操作行為。行為數(shù)據(jù)真實(shí)還原了用戶(hù)的使用場(chǎng)景,反映了用戶(hù)在該場(chǎng)景下的興趣狀態(tài),分析這類(lèi)數(shù)據(jù)可以獲得關(guān)于用戶(hù)興趣偏好的深刻洞察。

根據(jù)用戶(hù)的行為是否直接表明了用戶(hù)對(duì)標(biāo)的物的興趣偏好,用戶(hù)行為數(shù)據(jù)可以分為顯式行為和隱式行為。顯式行為是直接展示用戶(hù)興趣的行為,如評(píng)分。隱式行為則間接反映出用戶(hù)的興趣,包括瀏覽、點(diǎn)擊、收藏等。

2) 用戶(hù)屬性數(shù)據(jù)。

用戶(hù)人口統(tǒng)計(jì)學(xué)數(shù)據(jù),即用戶(hù)自身的屬性,比如性別、年齡、學(xué)歷、地域、收入等。此類(lèi)數(shù)據(jù)通常穩(wěn)定不變,其中只有年齡會(huì)緩慢變化。

3) 社會(huì)網(wǎng)絡(luò)數(shù)據(jù)。

用戶(hù)社會(huì)關(guān)系數(shù)據(jù),包含社會(huì)網(wǎng)絡(luò)數(shù)據(jù),比如用戶(hù)的家庭朋友關(guān)系,聯(lián)系人,社交圈等等。此類(lèi)數(shù)據(jù)在社交類(lèi)產(chǎn)品的推薦場(chǎng)景中尤為重要,比如推薦好友閱讀書(shū)籍、推薦好友點(diǎn)贊視頻等。這部分?jǐn)?shù)據(jù)通常需要收集用戶(hù)手機(jī)信息,或者聯(lián)通手機(jī)其它APP數(shù)據(jù)分析。

4) 用戶(hù)即時(shí)場(chǎng)景(上下文)數(shù)據(jù)。

用戶(hù)對(duì)標(biāo)的物操作時(shí)所處的時(shí)間、空間、狀態(tài)的總稱(chēng)。比如當(dāng)前時(shí)間、當(dāng)前天氣、當(dāng)前地理位置等,反饋了用戶(hù)的決策環(huán)境。比如外賣(mài)平臺(tái)會(huì)基于時(shí)間、配送地址推薦,早上8點(diǎn)會(huì)推薦附近的早餐、晚上8點(diǎn)則推薦附近的晚餐。最常見(jiàn)是用在PUSH即時(shí)推送上,場(chǎng)景化提升用戶(hù)轉(zhuǎn)化率。

5) 標(biāo)物(物品)屬性數(shù)據(jù)。

物品自身包含很多特征和屬性,物品屬性數(shù)據(jù)結(jié)合用戶(hù)行為數(shù)據(jù)后,可以將物品的屬性按照某種權(quán)重賦予用戶(hù),構(gòu)建用戶(hù)的興趣偏好,也就是給用戶(hù)打興趣標(biāo)簽。

不難發(fā)現(xiàn),用戶(hù)行為數(shù)據(jù)是最重要、最容易收集、最多數(shù)量的一類(lèi)數(shù)據(jù),通過(guò)和物品屬性數(shù)據(jù)結(jié)合可以構(gòu)造興趣標(biāo)簽,這在設(shè)計(jì)推薦系統(tǒng)中至關(guān)重要。

此外,隨著互聯(lián)網(wǎng)基礎(chǔ)建設(shè)的日趨成熟,基于“T+1”(指當(dāng)天利用前天之前的數(shù)據(jù),計(jì)算用戶(hù)的推薦結(jié)果,每天更新一次,或“離線計(jì)算”的推薦效率不能滿(mǎn)足企業(yè)需求,實(shí)時(shí)推薦成為主流。

如何利用洞察數(shù)據(jù),影響核心用戶(hù)行為?

一是優(yōu)化基于商品標(biāo)簽的推薦規(guī)則,提升商品搭配度和商品相似度。

舉例,當(dāng)我們發(fā)現(xiàn)用戶(hù)對(duì)水杯類(lèi)商品的瀏覽次數(shù)大幅增加卻遲遲沒(méi)有下單時(shí),就可以初步判斷該用戶(hù)有購(gòu)買(mǎi)水杯類(lèi)商品的需求卻沒(méi)有找到理想的款式。

于是,通過(guò)商品標(biāo)簽的推送規(guī)則,我們就可以在用戶(hù)的瀏覽頁(yè)推送款式、功能、價(jià)格等商品標(biāo)簽相近的水杯,以縮減用戶(hù)的搜索時(shí)間,提升商品成交率。

二是優(yōu)化基于用戶(hù)標(biāo)簽的推薦規(guī)則,提升對(duì)用戶(hù)偏好判斷的準(zhǔn)確性。

通過(guò)埋點(diǎn)數(shù)據(jù)采集用戶(hù)瀏覽、收藏、加入購(gòu)物車(chē)等用戶(hù)行為數(shù)據(jù),更準(zhǔn)確地理解用戶(hù)需求。再通過(guò)后臺(tái)集成的用戶(hù)標(biāo)簽體系,為用戶(hù)推薦更加多樣化的商品。

舉例,一個(gè)用戶(hù)有“20~25歲”“女性”“白領(lǐng)階層”“單身”標(biāo)簽,最近購(gòu)買(mǎi)某品牌的連衣裙。

——那么具有相似標(biāo)簽的用戶(hù)群體,就可以初步推斷她們也有很大的可能性在該時(shí)間段產(chǎn)生相似的需求,并基于此做出相應(yīng)的推薦,以喚醒用戶(hù)潛在的消費(fèi)需求,提升GMV。

在推薦系統(tǒng)中,數(shù)據(jù)和算法同樣重要。數(shù)據(jù)和特征決定了推薦系統(tǒng)的上限,高質(zhì)量的數(shù)據(jù)和特征可以提升推薦系統(tǒng)的性能,而用戶(hù)行為數(shù)據(jù)更是起著舉足輕重的作用。

利用數(shù)據(jù)和算法進(jìn)行的機(jī)器學(xué)習(xí)分類(lèi)模型是應(yīng)用特別廣泛的模型,且應(yīng)用的場(chǎng)景也比較廣泛。

02 提升用戶(hù)價(jià)值,全面提升客單價(jià),需要對(duì)客戶(hù)購(gòu)物行為進(jìn)行高潛預(yù)測(cè)

為了實(shí)現(xiàn)客單價(jià)值最大化,在預(yù)測(cè)客戶(hù)購(gòu)買(mǎi)行為之前,我們需要分析三個(gè)問(wèn)題:

1) 最好的客戶(hù)是誰(shuí)?想判斷下一個(gè)階段最有可能購(gòu)買(mǎi)商品的客戶(hù),首先需要對(duì)這類(lèi)客戶(hù)進(jìn)行定義。

2) 最好的客戶(hù)有什么特征?進(jìn)行客戶(hù)價(jià)值分層,識(shí)別高價(jià)值客戶(hù)的共性特征。

3) 如何獲得更多的這類(lèi)客戶(hù)?提升銷(xiāo)售對(duì)高價(jià)值客戶(hù)的關(guān)注度,并通過(guò)用戶(hù)流轉(zhuǎn)地圖或者會(huì)員轉(zhuǎn)移矩陣,將黏性較差的低價(jià)值客戶(hù)轉(zhuǎn)化為中價(jià)值客戶(hù),將中價(jià)值客戶(hù)培養(yǎng)成高價(jià)值客戶(hù),以此推動(dòng)GMV的提升,實(shí)現(xiàn)企業(yè)業(yè)績(jī)的提升。這是我們的最終目標(biāo)。

——我們需要建立會(huì)員高潛預(yù)測(cè)模型(即高可能性到店消費(fèi)),然后需要讓業(yè)務(wù)人員能夠理解預(yù)測(cè)模型的原理和意義。

建立高潛預(yù)測(cè)模型,會(huì)有如下三個(gè)步驟:

第一步:商業(yè)洞察驅(qū)動(dòng)特征構(gòu)造

利用商業(yè)洞察構(gòu)建高價(jià)值客戶(hù)的初始特征體系。比如,RFM模型經(jīng)常被用于該步驟的特征構(gòu)造,分析客戶(hù)最近一次的購(gòu)買(mǎi)時(shí)間(Recency)、購(gòu)買(mǎi)頻率(Frequency)、消費(fèi)金額(Monetary)。同時(shí)還可以從其他角度出發(fā),比如在食品行業(yè),通常會(huì)從會(huì)員是否為儲(chǔ)值會(huì)員、是否曾經(jīng)退款、購(gòu)買(mǎi)不同口味商品的數(shù)量、購(gòu)買(mǎi)不同品類(lèi)商品的數(shù)量、購(gòu)買(mǎi)新品的數(shù)量等角度進(jìn)行特征構(gòu)造。

第二步:精準(zhǔn)算法預(yù)測(cè)購(gòu)買(mǎi)行為

我們有了明確的預(yù)測(cè)目標(biāo),將目標(biāo)定為“預(yù)測(cè)下個(gè)季度全量會(huì)員購(gòu)買(mǎi)的可能性”,基于歷史數(shù)據(jù),運(yùn)用算法對(duì)全量會(huì)員進(jìn)行綜合打分。我們可以選擇LR(Logistic Regression,邏輯回歸)和LightGBM等分類(lèi)模型進(jìn)行比較,分析客戶(hù)未來(lái)的購(gòu)買(mǎi)可能性與預(yù)測(cè)變量的相關(guān)性,分析重要變量的影響權(quán)重,構(gòu)建出最終的預(yù)測(cè)模型。

第三步:刻畫(huà)用戶(hù)畫(huà)像和用戶(hù)行為預(yù)測(cè)模型

在上百個(gè)特征中,AI模型能幫助我們找到20多個(gè)核心特征,進(jìn)而形成消費(fèi)可能性高低分群。例如,高價(jià)值會(huì)員的核心特征:曾是或者現(xiàn)在仍是儲(chǔ)值會(huì)員、RFM、基礎(chǔ)特征(性別)、品類(lèi)相關(guān)、促銷(xiāo)相關(guān)等特征。儲(chǔ)值會(huì)員特征對(duì)未來(lái)哪些客戶(hù)會(huì)到店消費(fèi)的預(yù)測(cè)力最強(qiáng),其次是最近購(gòu)買(mǎi)間隔。

高價(jià)值客戶(hù)核心特征表(部分)

所以在上圖中建立預(yù)測(cè)模型的過(guò)程中,所需的數(shù)據(jù)有交易數(shù)據(jù)和會(huì)員數(shù)據(jù)兩大類(lèi)。

1)我們基于原始數(shù)據(jù),構(gòu)建出一張大寬表,其中70%的數(shù)據(jù)作為模型的訓(xùn)練數(shù)據(jù)集,剩余30%則作為模型的驗(yàn)證數(shù)據(jù)集

2)模型訓(xùn)練的歷史數(shù)據(jù)經(jīng)過(guò)編碼、特征降維等數(shù)據(jù)預(yù)處理之后,植入智能算法進(jìn)行訓(xùn)練。獲得初始模型后,再將預(yù)留的30%驗(yàn)證數(shù)據(jù)集代入模型,檢驗(yàn)?zāi)P偷臏?zhǔn)確性和有效性,同時(shí)生成驗(yàn)證報(bào)告[ROC曲線(接受者操作特征曲線)]。

3)針對(duì)未來(lái)到店購(gòu)買(mǎi)的人群,我們會(huì)使用最新的數(shù)據(jù)對(duì)會(huì)員下個(gè)季度的購(gòu)買(mǎi)可能性進(jìn)行預(yù)測(cè)打分,識(shí)別下個(gè)階段購(gòu)買(mǎi)可能性最高的會(huì)員。

根據(jù)特征因子與模型,結(jié)合現(xiàn)有的用戶(hù)行為數(shù)據(jù),我們可以對(duì)全量會(huì)員下個(gè)階段購(gòu)買(mǎi)的可能性進(jìn)行評(píng)級(jí)與打分。這樣每位會(huì)員對(duì)應(yīng)一個(gè)預(yù)測(cè)概率,我們可以按照一定比例切割,進(jìn)行用戶(hù)價(jià)值分層。

通過(guò)數(shù)據(jù)分析,我們將0.9分以上的會(huì)員雖然只占據(jù)全體會(huì)員的20%,但覆蓋了50%的GMV,那么我們可將此類(lèi)會(huì)員判定為高價(jià)值人群;低于0.1分的會(huì)員可判定為低價(jià)值人群;而處于中間分值會(huì)員可判定為中價(jià)值人群

——最終以0.9分和0.1分作為切割點(diǎn),我們能夠?qū)θ靠蛻?hù)進(jìn)行有效分群。

如何將數(shù)據(jù)運(yùn)用到真實(shí)業(yè)務(wù)場(chǎng)景的用戶(hù)分層中呢?

比預(yù)測(cè)模型更重要的是,理解該模型并運(yùn)用到實(shí)際業(yè)務(wù)場(chǎng)景中,通過(guò)模型對(duì)客戶(hù)進(jìn)行評(píng)分然后對(duì)用戶(hù)進(jìn)行分層,我們就可以得到相應(yīng)的用戶(hù)分層組群。

用戶(hù)分層0~4組對(duì)應(yīng)著由高到低的購(gòu)買(mǎi)概率,0代表購(gòu)買(mǎi)概率最高的用戶(hù)群組,4代表購(gòu)買(mǎi)概率最低的用戶(hù)群組。觀察每個(gè)用戶(hù)群組的特征數(shù)據(jù)可知,上次消費(fèi)距今間隔越短,未來(lái)一季度到店的可能性越高,消費(fèi)頻次、消費(fèi)金額也與未來(lái)到店概率成正相關(guān)關(guān)系。

同時(shí),對(duì)特征因子之間的關(guān)聯(lián)性進(jìn)行分析,還可以洞察用戶(hù)的其他特征。

例如,上次消費(fèi)距今越近,購(gòu)買(mǎi)概率越高;消費(fèi)頻次越高,購(gòu)買(mǎi)概率越高;消費(fèi)的品類(lèi)數(shù)越多,購(gòu)買(mǎi)概率越高等規(guī)律。

通過(guò)機(jī)器學(xué)習(xí)預(yù)測(cè)客戶(hù)購(gòu)買(mǎi)行為,能夠幫助業(yè)務(wù)人員更精準(zhǔn)地識(shí)別和定位潛在客戶(hù)群體,從而進(jìn)行個(gè)性化營(yíng)銷(xiāo),將中低價(jià)值人群轉(zhuǎn)化為高價(jià)值人群,為企業(yè)帶來(lái)更直接的增長(zhǎng)!

本文由 @ Sherryyyyy 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來(lái)自 Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 基于商品標(biāo)簽和用戶(hù)標(biāo)簽推薦規(guī)則的圖,沒(méi)太看懂,求解,謝謝

    來(lái)自北京 回復(fù)