構(gòu)建推薦系統(tǒng):產(chǎn)品經(jīng)理需要做些什么
假如你是一家電商公司的產(chǎn)品經(jīng)理,你會(huì)怎么搭建好一個(gè)推薦系統(tǒng)?這篇文章里,作者就嘗試做了解答,并從需求定義、數(shù)據(jù)準(zhǔn)備、技術(shù)實(shí)現(xiàn)和評(píng)價(jià)標(biāo)準(zhǔn)這四個(gè)方面做了梳理,一起來(lái)看看吧。
引言:當(dāng)我們?yōu)g覽購(gòu)物平臺(tái)時(shí),我們總會(huì)發(fā)現(xiàn)平臺(tái)會(huì)根據(jù)我們?yōu)g覽軌跡或購(gòu)買過(guò)的物品進(jìn)行相關(guān)商品的推薦,以便我們更好的查看和進(jìn)行下單。這智能的背后,離不開推薦算法的加持。下面站在產(chǎn)品經(jīng)理的視角,讓我們一起理解搭建推薦系統(tǒng)的全過(guò)程吧。
首先,作為產(chǎn)品經(jīng)理我們要清晰推薦系統(tǒng)的核心是推薦算法的應(yīng)用。因此,在我們開始構(gòu)建推薦功能之前,我們先了解一下常用的推薦算法都有哪些。其實(shí),推薦算法在機(jī)器學(xué)習(xí)還沒有興起的時(shí)后就有需求和應(yīng)用了。概括來(lái)講,大致可以分為以下3類:
類型1:基于內(nèi)容的推薦
這一類推薦算法一般依賴于自然語(yǔ)言處理NLP的一些知識(shí), 大致邏輯是通過(guò)挖掘文本的TF-IDF特征向量,來(lái)得到用戶的偏好,其基本思路是根據(jù)用戶已經(jīng)喜歡的內(nèi)容,推薦類似的內(nèi)容給用戶。
這種推薦算法的優(yōu)勢(shì)是不需要用戶歷史數(shù)據(jù),只需要對(duì)物品(如文章、電影等)進(jìn)行描述即可。但這種算法只考慮物品的屬性,而沒有考慮用戶的交互行為,可能會(huì)出現(xiàn)無(wú)法推薦用戶感興趣但是沒有被描述到的物品的情況。并且某些物品的屬性難以獲取或者需要人工標(biāo)注,因此建立物品描述需要投入大量的時(shí)間和人力成本。
類型2:基于規(guī)則的推薦
這類算法常見的比如:基于最多用戶點(diǎn)擊,最多用戶瀏覽等,屬于大眾型的推薦方法,在目前的大數(shù)據(jù)時(shí)代并不主流,多為人為干預(yù),大都應(yīng)用于平臺(tái)初創(chuàng)階段。
類型3:協(xié)同過(guò)濾推薦
協(xié)同過(guò)濾是推薦算法中目前最主流的種類,大致邏輯是基于用戶的歷史行為和與其他用戶的相似性來(lái)推薦物品。一般來(lái)講,協(xié)同過(guò)濾分為3種類型:
- user-based(基于用戶的協(xié)同過(guò)濾)
- item-based(基于物品的協(xié)同過(guò)濾)
- model-based(基于模型的協(xié)同過(guò)濾)
其中,基于用戶的協(xié)同過(guò)濾主要考慮的是用戶和用戶之間的相似度。比如:只要找出相似用戶喜歡的物品,并預(yù)測(cè)目標(biāo)用戶對(duì)對(duì)應(yīng)物品的評(píng)分,就可以找到評(píng)分最高的若干個(gè)物品推薦給用戶。
而基于物品的協(xié)同過(guò)濾和基于用戶的協(xié)同過(guò)濾類似,只不過(guò)轉(zhuǎn)向找到物品和物品之間的相似度,只有找到了目標(biāo)用戶對(duì)某些物品的評(píng)分,那么就可以對(duì)相似度高的類似物品進(jìn)行預(yù)測(cè),將評(píng)分最高的若干個(gè)相似物品推薦給用戶。比如你在網(wǎng)上買了一本機(jī)器學(xué)習(xí)相關(guān)的書,網(wǎng)站馬上會(huì)推薦一堆機(jī)器學(xué)習(xí),大數(shù)據(jù)相關(guān)的書給你。
那有意思的問題來(lái)了:在我們現(xiàn)實(shí)場(chǎng)景中,針對(duì)m個(gè)物品,m個(gè)用戶的數(shù)據(jù),只有部分用戶和部分?jǐn)?shù)據(jù)之間是有評(píng)分?jǐn)?shù)據(jù)的,其它部分評(píng)分都是空白。但此時(shí)需要我們用已有的部分稀疏數(shù)據(jù)來(lái)預(yù)測(cè)那些空白的物品和數(shù)據(jù)之間的評(píng)分關(guān)系,找到最高評(píng)分的物品推薦給用戶。怎么辦?
這就不得不用到機(jī)器學(xué)習(xí)的思想來(lái)建模解決了,也就是是基于模型的協(xié)同過(guò)濾算法,目前主流的比如:用到關(guān)聯(lián)規(guī)則算法、聚類算法、分類算法、回歸算法等。因這些算法涉獵點(diǎn)較多,筆者就不占用篇幅在這里展開了,大家后續(xù)可以查閱資料進(jìn)行了解。
好了,基于上述筆者對(duì)常用推薦算法的介紹,假如你是一家電商公司的產(chǎn)品經(jīng)理,公司經(jīng)過(guò)一年多的用戶運(yùn)營(yíng)和供應(yīng)鏈的打造,業(yè)務(wù)已進(jìn)入高速增長(zhǎng)階段,但平臺(tái)無(wú)法體現(xiàn)用戶給對(duì)于商品的偏好情況,也無(wú)法滿足供應(yīng)商的曝光度。公司領(lǐng)導(dǎo)希望你牽頭打造一個(gè)mvp推薦系統(tǒng),那么你接下來(lái)需要做些什么呢?
筆者大致總結(jié)了4點(diǎn),分別是需求定義、數(shù)據(jù)準(zhǔn)備、技術(shù)實(shí)現(xiàn)和評(píng)價(jià)標(biāo)準(zhǔn)。下面我們一起來(lái)看看吧。
一、需求定義
需求定義,這個(gè)不用過(guò)多解釋,它是產(chǎn)品經(jīng)理的必備技能。在需求定義階段,常規(guī)闡述邏輯氛圍三個(gè)部分:需求背景、邏輯交互和預(yù)期目標(biāo)。
1. 需求背景
我們以此次推薦系統(tǒng)為例,公司電商平臺(tái)“千人一面”的人工干預(yù)邏輯已無(wú)法響應(yīng)公司業(yè)務(wù)的高速發(fā)展,無(wú)法滿足用戶對(duì)商品偏好的評(píng)估。為此,公司需要搭建一套推薦系統(tǒng),滿足“千人千面”需求。
2. 邏輯交互
邏輯交互,在需求定義階段,是非常關(guān)鍵的環(huán)節(jié)。這個(gè)階段描述的清晰與否直接影響后續(xù)的結(jié)果。
在這個(gè)階段,產(chǎn)品經(jīng)理要對(duì)推薦系統(tǒng)進(jìn)行詳盡的描述,包括:用戶流程、模型訴求、現(xiàn)有數(shù)據(jù)等。比如:新/老用戶推薦策略、對(duì)所采用模型準(zhǔn)確率、召回率、覆蓋率等詳細(xì)要求等。總之,這個(gè)環(huán)節(jié)產(chǎn)品經(jīng)理主打一個(gè)詳細(xì),避免后期被算法工程師懟的啞口無(wú)言。
3. 預(yù)期目標(biāo)
有句話說(shuō)的非常好,需求的背后是KPI。這個(gè)世界上沒有無(wú)中生有的事情。因此,作為產(chǎn)品經(jīng)理在需求定義階段,需要將預(yù)期目標(biāo)定義清楚,不能模棱兩可。在這個(gè)環(huán)節(jié)上,產(chǎn)品經(jīng)理需要對(duì)平臺(tái)所處階段、平臺(tái)往期數(shù)據(jù)和未來(lái)公司投入進(jìn)行詳盡的分析,從而根據(jù)公司業(yè)務(wù)的實(shí)際情況指定相應(yīng)的指標(biāo)。如對(duì)應(yīng)的CTR、CVR等。
二、數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)對(duì)于推薦系統(tǒng)是非常重要的。作為產(chǎn)品經(jīng)理,我們?cè)诖罱ㄍ扑]系統(tǒng)之前,我們要完成大量的數(shù)據(jù)收集和整理工作。并且要形成清晰的數(shù)據(jù)分類。如電商平臺(tái)的業(yè)務(wù)數(shù)據(jù)有哪些、埋點(diǎn)日志以及廣告渠道商能提供的數(shù)據(jù)等。
其實(shí),在數(shù)據(jù)準(zhǔn)備環(huán)節(jié)特別考驗(yàn)產(chǎn)品人員的全局能力。優(yōu)秀的產(chǎn)品經(jīng)理在電商平臺(tái)建設(shè)初期對(duì)未來(lái)需要哪些數(shù)據(jù)、如何進(jìn)行數(shù)據(jù)埋點(diǎn)早已進(jìn)行了設(shè)定。一般不會(huì)出現(xiàn)沒有數(shù)據(jù)在臨時(shí)抱佛腳的尷尬局面。
有了平臺(tái)所需的數(shù)據(jù)之后,產(chǎn)品經(jīng)理只需告訴算法工程師數(shù)據(jù)源在哪里即可,后續(xù)算法同學(xué)會(huì)自行抽數(shù)。然后就是后面模型構(gòu)建的環(huán)節(jié)了。
三、技術(shù)實(shí)現(xiàn)
從項(xiàng)目管控上來(lái)看,在推薦系統(tǒng)的項(xiàng)目建設(shè)過(guò)程中會(huì)涉及兩波技術(shù)團(tuán)隊(duì),分別是算法團(tuán)隊(duì)和應(yīng)用研發(fā)團(tuán)隊(duì),并且兩個(gè)團(tuán)隊(duì)是并行進(jìn)行的。 因此作為產(chǎn)品經(jīng)理,我們除了要關(guān)注算法工程師的模型構(gòu)建,同時(shí)也要關(guān)注推薦系統(tǒng)工程的整體設(shè)計(jì)。
具體來(lái)說(shuō),對(duì)于系統(tǒng)工程的整體設(shè)計(jì),產(chǎn)品經(jīng)理要關(guān)注推薦系統(tǒng)進(jìn)行一次完整推薦會(huì)涉及哪些系統(tǒng)模塊,它們和算法模型是怎么交互的,數(shù)據(jù)流向什么樣,產(chǎn)品的關(guān)鍵邏輯是在哪個(gè)模塊中實(shí)現(xiàn)的。整體來(lái)講,如果在需求定義和數(shù)據(jù)準(zhǔn)備環(huán)節(jié)下足功夫,項(xiàng)目進(jìn)度問題不大。反之,這個(gè)環(huán)節(jié)極容易“失控”
四、評(píng)價(jià)標(biāo)準(zhǔn)
最后,也是公司最為關(guān)注的,那就是如何評(píng)價(jià)推薦系統(tǒng)給業(yè)務(wù)提升了多少效果。其實(shí),評(píng)估方法并不難,也是我們經(jīng)常用的AB測(cè)試,但對(duì)于推薦系統(tǒng)要想做 AB 測(cè)試,我們注意以下幾點(diǎn):
- 不要同事運(yùn)行太多測(cè)試,要確定測(cè)試的優(yōu)先級(jí)。避免因同時(shí)做太多測(cè)試導(dǎo)致效果區(qū)分不明顯。
- 實(shí)驗(yàn)流量不要太小,流量太小不容易讓人信服。
- 測(cè)試時(shí)間不能太短。
在評(píng)價(jià)標(biāo)準(zhǔn)環(huán)節(jié),AB測(cè)試并不是最關(guān)鍵的,關(guān)鍵點(diǎn)是產(chǎn)品經(jīng)理需要產(chǎn)品經(jīng)理對(duì)指標(biāo)的分析過(guò)程,以及最終給出的迭代計(jì)劃。
總之,在整個(gè)推薦系統(tǒng)搭建過(guò)程,作為一名產(chǎn)品經(jīng)理,我們不僅能夠清晰的設(shè)計(jì)需求,還要能夠理解數(shù)據(jù)、整理數(shù)據(jù),并對(duì)測(cè)試評(píng)估結(jié)果給與持續(xù)的迭代計(jì)劃。至于技術(shù)實(shí)現(xiàn)環(huán)節(jié),理解就好,無(wú)需過(guò)多深入。
本文由 @王振永 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!