大廠項目實踐案例——美團(tuán)推薦系統(tǒng)“新穎性”建設(shè)思考
現(xiàn)在,越來越多平臺逐漸意識到了“新穎性”指標(biāo)對于推薦系統(tǒng)的重要性,那么,什么是新穎性?現(xiàn)有的平臺又是如何實現(xiàn)推薦系統(tǒng)新穎性的?本篇文章里,作者結(jié)合實際案例進(jìn)行了思考,一起來看。
今天想來聊聊在推薦系統(tǒng)場域看似“離經(jīng)叛道”的優(yōu)化方向——新穎性novelty,無論是從電商平臺推薦、短視頻流媒體推薦等新穎性都是在不斷發(fā)展和持續(xù)建設(shè)的方向。但是這看上去和Arthur介紹的“相關(guān)性”和“信息分發(fā)效率”有些許背道而馳,所以我把其稱之為看上去有些離經(jīng)叛道的方向。
那么什么是新穎性、為什么要做新穎性,以及大廠(以美團(tuán)舉例)都是如何實現(xiàn)推薦系統(tǒng)新穎性的,以上的三連問便是我們今天希望與大家分享的話題方向。
PS:本文是對《美團(tuán)推薦系統(tǒng)新穎性建設(shè)》的參考和解讀,感興趣可閱讀原文。
一、新穎性誕生的背景和難點
1. 新穎性誕生背景
背景:伴隨推薦系統(tǒng)的各種召回策略、排序策略的發(fā)展,策略產(chǎn)品經(jīng)理、算法工程師為了滿足公司廣告收入Cost、推薦系統(tǒng)物料CTR/CVR極致業(yè)務(wù)的發(fā)展,這種過多的關(guān)注商業(yè)效率指標(biāo)而忽視了對于用戶新穎性的體驗,長此以往給用戶帶來體驗的“信息繭房”問題。
這其實也是早期UserCF、ItemCF協(xié)同過濾算法的明顯弊端問題,過多的依賴于用戶過去行為交互行為來建立相似性,給用戶推薦內(nèi)容,造成了推薦內(nèi)容的繭房效應(yīng),不僅缺少對用戶、物體特征的考究,更加加重了推薦內(nèi)容的馬太效應(yīng)。使得用戶的瀏覽體驗越來越差,反噬帶來用戶下拉深度曝光的坑位數(shù)降低,用戶在APP停留時長也下降。
因此越來越多的平臺開始意識到了“新穎性”指標(biāo)對于推薦系統(tǒng)的重要性,同時新穎性也成為了推薦策略/推薦廣告策略產(chǎn)品的重要考核指標(biāo)之一。
圖1.1拼多多信息流推薦商品集中問題
如上圖所示,因為作者在拼多多僅僅只是點擊了金字塔原理的書籍,就瘋狂推薦該書籍。從心理角度來說,給人一股推薦“過猶不及”的感覺,滿屏“金字塔原理”,且不論背后是因為對點擊行為特征的特征屬性給予權(quán)重過高還是書籍投放廣告主都比較舍得出價。
但是從體驗角度出發(fā),畢竟推薦不同于搜索,非query詞觸發(fā)相關(guān)性召回和影響排序,這樣的推薦結(jié)果確實缺少了一些客戶吸引逛下去的欲望和未知的“驚喜”。
2. 美團(tuán)平臺做新穎性的難點與挑戰(zhàn)
不同于電商平臺物料item的豐富性(候選池高達(dá)幾十億),在召回通道和候選集中可以分發(fā)的內(nèi)容非常多,往往可以通過海選過濾Filter環(huán)節(jié)過濾購買過、重排序環(huán)節(jié)過濾相同類目、圖片的商品也不會嚴(yán)重影響推薦系統(tǒng)的相關(guān)性。
但在外賣場景下,候選商家少(受到LBS場景的約束,商家就幾百上千,過濾物料完就沒了)、用戶復(fù)購/下單頻次高(不希望一天或者幾天都吃一樣的外賣,有著口味替換的心理訴求),決定了“直接過濾用戶看過、下單過”的策略既不現(xiàn)實、也不合理。
所以針對場景的特殊性,怎么去直接定義和量化新穎性,優(yōu)化目標(biāo)怎么設(shè)計,怎么平衡交易效率的問題,都是新穎性需要考慮的重要點。
二、如何定義新穎性與新穎性評估指標(biāo)
1. 定義新穎性Novelty
推薦系統(tǒng)業(yè)界給出的新穎性相關(guān)的定義包括新穎性(Novelty)和驚喜度(Serendipity)。
- 新穎性(Novelty):更多的是衡量給用戶推薦沒有見過的物品Item(不適用于外賣場景,LBS物料太少)
- 驚喜度(Serendipity):衡量的是推薦和用戶歷史興趣不相似,但是卻很滿意的推薦。
對于美團(tuán)外賣的的場景,用戶比較方案的場景在于一直給用戶推薦相同的商家,沒有機會看到更多沒見過但是適合自己的口味,所以定義指標(biāo)也需要和對應(yīng)的平臺業(yè)務(wù)場景匹配,新穎性和驚喜度可能適合京東、淘寶這樣的電商APP,但是綜合考慮外賣平臺候選商家少、復(fù)購頻次高的特性,結(jié)合客戶調(diào)研結(jié)果。新穎商家,應(yīng)該滿足“最近一段時間沒見過、沒吃過,但是愿意買單的要求”。
所以美團(tuán)的產(chǎn)品給出的新穎商家定義為:用戶在外賣全局最近7天沒有見過、或者30天沒有點擊、或者90天沒有完單的商家。
2. 新穎性評估指標(biāo)
前面也提到了“科學(xué)的線上A/B實驗就是評估策略產(chǎn)品功能策略的尺度標(biāo)注”,那么上線了新穎性的功能策略就需要有客觀的評估指標(biāo),即通過什么商業(yè)業(yè)務(wù)指標(biāo)來評估新穎性的策略產(chǎn)出是有價值的?;诿缊F(tuán)平臺的特殊業(yè)務(wù)性,策略產(chǎn)品與算法制定了如下幾個業(yè)務(wù)指標(biāo)作為新穎性的評估:
1)客觀指標(biāo):
- 曝光新穎性@Top N:用戶在首頁Feed列表前N位看到的新穎商家占比,實際N取值為10。核心實驗觀察指標(biāo)。
- 完單新穎性:點擊→完單商家中新穎商家的占比曝光商家,作為輔助觀測指標(biāo)。
- UV_RPM:即千人曝光GMV,作為核心約束指標(biāo),要求列表UV_RPM不降或微降。
2)主觀體驗評估(用戶體驗問卷):
- 新穎好評率:用戶對推薦新穎性由低到高打分1-5分,表示>=4分用戶的占比所有評價用戶。
- 新穎性case率:問卷中主動反饋新穎體驗Bad Case的比例。
三、首頁信息流Feeds新穎性商家推薦設(shè)計方案
1. 整體方案框架設(shè)計
美團(tuán)策略產(chǎn)品與算法團(tuán)隊為了保證每個階段都對新穎性進(jìn)行優(yōu)化主要做到了以下幾個部分:
- 召回階段:召回擴充新穎性供給端
- 精排階段:建模目標(biāo)在于優(yōu)化模型的泛化性
- 混排階段:混排新穎性商家個性化排序和浮動插卡
- 前端展示:借助動態(tài)交互推薦的方式進(jìn)行體驗升級
2. 召回鏈路新穎供給
主要問題還是模型泛化性不足,高估有交互的“商家”,從而推薦很多“復(fù)購”商家。策略的中心需要優(yōu)化Embedding來提升旁路召回多樣性。
在主路召回:雙塔模型當(dāng)中引入了商家side-information,通過商家側(cè)頂層Embedding表征做聚類分析。
因為通過Case分析會發(fā)現(xiàn)商家側(cè)頂層Embedding表征空間向量有商家品類聚類效果(上圖中的左邊所示)和跨地域相似商家能力(深圳的豬腳飯到遵義的豬腳飯)。所以美團(tuán)用雙塔模型的商家Embedding替換原來基于Word2Vec實現(xiàn)商家Embedding。利用雙塔商家Embedding向量,新增一路I2I新穎商家召回以提升新穎商家供給。
旁路召回:引入GCN旁路召回類型,利用GCN網(wǎng)絡(luò)挖掘用戶、商家之間的高階關(guān)聯(lián)性改善長尾推薦問題。嘗試性建?!坝脩?商家”關(guān)系的U2I召回和建?!癚uery—商家”關(guān)系的I2I召回。
引入了用戶行為構(gòu)圖、新穎性構(gòu)圖兩部分以平衡效率、新穎性,損失函數(shù)如公式1(r表示完單、點擊、新穎性任務(wù))所示。包含了點擊、下單兩個主任務(wù),新穎性構(gòu)圖為解決引入新穎上下導(dǎo)致模型噪聲問題,對完單、點擊新穎商家做了加權(quán)采樣處理。把新穎性采樣子圖作為輔助任務(wù)融入到了兩個主任務(wù)的訓(xùn)練當(dāng)中,構(gòu)建高效用戶-商家表示關(guān)系的同時,具備了發(fā)現(xiàn)新穎性的能力。
最后,線上實驗發(fā)現(xiàn),I2I旁路召回Embedding向量表征優(yōu)化帶來了線上1%左右的曝光新穎性收益。而后續(xù)的I2I新穎商家召回、GCN召回的方案,其新穎性收益都不足0.5%,分析和外賣的LBS供給較少導(dǎo)致召回側(cè)收益空間相對較低有關(guān)。
3. 精排模型泛化能力提升
美團(tuán)首頁推薦信息流的排序優(yōu)化目標(biāo)以UV_CXR為主。新穎性商家長期的行為樣本稀缺就導(dǎo)致在預(yù)估模型被低估。因此考慮從模型特征、損失、結(jié)構(gòu)方面進(jìn)行優(yōu)化。核心舉措就是引入泛化特征、優(yōu)化模型損失兩個方面。
1)泛化特征-正負(fù)反饋
在模型當(dāng)中去考慮引入負(fù)反饋特征方便捕捉“負(fù)反饋模式”;其次通過行為數(shù)據(jù)來捕捉用戶長信、復(fù)購意圖等多個興趣周期變化。
以商家品類ID做Query,從行為檢索出相同品類商家,再進(jìn)行興趣建模。結(jié)合外賣LBS、就餐特點設(shè)計Distance(即用戶和商家舉例小于KM)、Mealtime(早中晚餐)和Tag_id三種路徑檢索,從用戶歷史行為檢索出和當(dāng)前訪問最相關(guān)的行為,精確刻畫當(dāng)下偏好。
2)新穎商家預(yù)估糾偏
糾偏算是我們策略文章當(dāng)中的老朋友了,之前的文章也有描述通過【保序回歸】對點擊率糾偏的案例。雖然訓(xùn)練得到的DNN模型的準(zhǔn)確率比較接近,但是對于特定新穎性樣本,必然存在預(yù)估明顯偏低估的問題。因此在設(shè)計新優(yōu)化目標(biāo)的時候,保證預(yù)估準(zhǔn)確率不變,是的模型達(dá)到局部最優(yōu)偏向新穎性商家預(yù)估分比較高的狀態(tài),這樣可以在不損失UV_RPM的前提下提高新穎商家曝光。
在現(xiàn)有交叉熵?fù)p失下,結(jié)合商家在曝光、點擊、下單的行為差異引入公式2損失糾偏,在UV_RPM持平的情況下,新穎性+1.95%。
4. 混排個性化排序和動態(tài)插卡
1)新穎意圖預(yù)估
構(gòu)建新穎性預(yù)估模型,模型網(wǎng)絡(luò)抽象多行為特征交叉信息,預(yù)估當(dāng)前場景即時性意圖,滿足不同用戶下新穎商家瀏覽消費需求。
模型思路:首先,Lable采用的是用戶當(dāng)前請求下是否點擊新穎商家,驗證“曝光新穎性”指標(biāo)合理性。其次,模型特征上除了用戶統(tǒng)計特征、上下文場景,引入完單新穎商家占比、新穎商家曝光點擊等額圖特征,損失函數(shù)交叉熵?fù)p失。最后,兼顧性能,使用了簡單MLP網(wǎng)絡(luò)線上服務(wù)來降低耗時,線上UV_RPM持平,用戶曝光新穎性+2.28%。
2)新穎商家個性化排序
核心思想:通過ES算法針對pCTR、pCXR等效率指標(biāo)建設(shè)個性化超參,擾動神經(jīng)網(wǎng)絡(luò)參數(shù),收集用戶反饋計算Reward去確定模型參數(shù)更新的方向和比例,輸出排序參數(shù)用用對應(yīng)的請求,實現(xiàn)個性化排序策略。a * cxr + b* 新穎商家曝光占比,既提升新穎商家曝光占比指標(biāo),又能盡可能減少對列表UV_RPM的順勢。
首先,引入優(yōu)勢函數(shù)V(s, a) = Q(s, a) – V(s),原本的動作狀態(tài)價值Q(s, a)的基礎(chǔ)上,減去Batch內(nèi)Reward的均值,使模型學(xué)習(xí)到動作相較于平均而言帶來的優(yōu)勢V(s, a),進(jìn)一步為解決Batch內(nèi)均值無法消除人群狀態(tài)價值偏差的問題。
其次,通過決策樹模型也篩選出新穎度相關(guān)的一些用戶場景特征、新穎性特征、歷史行為特征等等。
最后,選擇有經(jīng)驗但是結(jié)構(gòu)簡單的MLP網(wǎng)絡(luò),使得ES模型決策Action變得逐步穩(wěn)定。
3)新穎商家動態(tài)插卡
在模型選擇上,選擇了強化學(xué)習(xí)方案,一方面基于監(jiān)督學(xué)習(xí)的ML算法可以通過你和用戶歷史數(shù)據(jù)來預(yù)估效果,但是缺點也是無法捕捉客戶嘗新、復(fù)購意圖;另一方面,監(jiān)督學(xué)習(xí)基于貪心策略給出單次結(jié)果最優(yōu),無法關(guān)注長期收益變化。而結(jié)合不同狀態(tài)決策不同動作,建模累計收益,有效推進(jìn)E&E,建設(shè)動態(tài)插卡。
簡化建模問題:在UV_RPM、流量占比、用戶體驗的約束下,通過決策哪些位置放入新穎商家,以最大化用戶新穎性。其中效率約束表示插卡前后列表GMV降幅不高于P,流量約束表示整體新穎商家曝光占比,不高于某個閾值以避免極端問題。
其次,引入多臂老虎機(MAB)問題,所有插入新穎性商家的位置,都希望列表RPM期望最大,所以基于這個目標(biāo)去對新商家E&E,最小化列表損失。
在這里美團(tuán)選擇了Thompson方案:利用Beta你和用戶在每個位置的新穎、費新穎商家的完單期望值,對用戶RPM的收益最大方式,來決定當(dāng)前位置是否插入新商家。Thompson采樣通過Beta分布維護(hù)當(dāng)前位置新穎+非新穎商家完單期望值。
結(jié)合歷史數(shù)據(jù)擬合用戶偏好,期望值下的新穎+非新穎商家完單Beta期分布,新穎商家更大期望在當(dāng)前位置插入新穎商家,同時躲避賭博機的思想根據(jù)用戶反饋擬合位置的偏好。
同時為了解決Thompson泛化不足的問題,通過D3QN模型決策當(dāng)前用戶可插入新穎位置,輸出N維的Multi-hot vector,State考慮用戶和商家的歷史特征、列表信息,獎勵函數(shù)考慮完單金額、曝光新穎等用戶體驗。最終線上UV_RPM跌幅不超過0.5%的情況下,新穎度增加8%。
5. 交互推薦優(yōu)化選購體驗
交互式推薦是一種實時推薦產(chǎn)品模塊,主要利用用戶的實時行為、以實時互動的方式進(jìn)行推薦:用戶從首頁Feed進(jìn)入商家詳情頁并退出之后,動態(tài)地插入新的內(nèi)容到推薦列表中。優(yōu)勢在于能夠?qū)崟r感知用戶行為并判斷用戶意圖,進(jìn)而動態(tài)插卡反饋,增強用戶交互體驗、新穎感受。在不損失UV_RPM基礎(chǔ)上進(jìn)一步提升用戶新穎性+1.20%。
本文由 @策略產(chǎn)品Arthur 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
感興趣策略產(chǎn)品相關(guān)知識可以關(guān)注作者主業(yè)