在談推薦系統(tǒng)之前,請(qǐng)先避免這4個(gè)問題
缺乏科學(xué)精神的“產(chǎn)品理想主義”與“技術(shù)理想主義”要不得。
最近正在忙推薦系統(tǒng)的一些事,歸納出來了幾個(gè)新人或者是技術(shù)人員需要注意或已經(jīng)注意到還沒說到點(diǎn)子上的那些問題,以供給各位一些參考。
一、高估系統(tǒng)對(duì)用戶需求的捕捉能力
我們都說,搜索引擎是滿足用戶主動(dòng)需求的產(chǎn)品,而推薦系統(tǒng)則是滿足用戶隱含需求的產(chǎn)品。當(dāng)用戶明確需要什么信息,就把需求轉(zhuǎn)化為檢索詞,丟到搜索引擎,搜索引擎幫用戶找到它,而推薦系統(tǒng)則能良好的感知用戶未明確陳述的需求,為其呈現(xiàn)信息。那么問題來了,既然推薦系統(tǒng)能夠捕捉用戶的需求,也就是說用戶還沒丟關(guān)鍵詞給搜索引擎之前已然知道用戶要什么,直接為用戶呈現(xiàn)出信息不更好?還需要搜索引擎干嘛?!
當(dāng)然更好,當(dāng)然很好,只是做不到。
用戶的需求是多變的,其中暗含著某些規(guī)律,但卻不可能被完全的,徹底的捕捉到,例如用戶瀏覽一個(gè)商品頁面,可能他對(duì)網(wǎng)頁上的產(chǎn)品感興趣,可能他被網(wǎng)頁上的代言美女吸引,可能他在為女友準(zhǔn)備禮物,可能他在為家人準(zhǔn)備年貨,也可能只是誤操作罷了,這些細(xì)節(jié)被系統(tǒng)感知到的難度太大,所以我們無法知道用戶下一步要去做什么,哪又如何推薦?
推薦系統(tǒng)有其邊界,一切技術(shù)均有其邊界,局限于當(dāng)前技術(shù)成熟度,局限于數(shù)據(jù),局限于現(xiàn)實(shí)世界與技術(shù)世界的距離。當(dāng)產(chǎn)品經(jīng)理不了解技術(shù)的邊界,而技術(shù)人員則缺乏產(chǎn)品思維的時(shí)候,這種錯(cuò)誤便容易發(fā)生。
二、不顧場景,強(qiáng)暴用戶需求
假設(shè)你非常喜歡榴蓮蛋糕,任何人送你一款這樣的蛋糕你都無比高興,任何人推薦一款這樣的蛋糕你一定會(huì)認(rèn)真考慮。但是如果某一天你正在私宅床上與女友翻滾廝磨,有一人推門而入,問你:“根據(jù)俺們系統(tǒng)的分析,請(qǐng)問您是否需要一款美味的榴蓮蛋糕?”,不知你是否感覺開心。而有一天你正在廁所,蹲坐在親愛的馬桶上,同樣這個(gè)人也推開門問你“請(qǐng)問您是否需要一款美味的蛋糕?”你有沒有不去把他打死的沖動(dòng)?
這是典型的“不顧場景”的案例。
可能系統(tǒng)良好的挖掘了用戶的需求,但是如果不顧場景,帶來的將是用戶巨大的反感。例如,我們公認(rèn)的基于社交網(wǎng)絡(luò)進(jìn)行各種類型的推薦都是非常好的推薦思路:你所熟悉的人的行為對(duì)你有著非常好的借鑒作用。這一點(diǎn)沒錯(cuò)。但是一般而言,對(duì)商品的推薦還是要放在商品售賣網(wǎng)站,對(duì)電影的推薦也請(qǐng)放在電影票售賣網(wǎng)站(個(gè)人覺得這個(gè)推薦應(yīng)該放在相關(guān)的網(wǎng)站中,比如用戶在瀏覽產(chǎn)品的新聞的時(shí)候,也可以進(jìn)行推薦。當(dāng)然現(xiàn)在這種情況下的推薦多是廣告)。瀏覽這些網(wǎng)站的用戶,都帶著強(qiáng)烈的隱含需求,但選錯(cuò)了地方,往往形成對(duì)用戶的“強(qiáng)暴”,安能不敗。(比如360瀏覽器,自己本身帶有廣告過濾功能,能屏蔽網(wǎng)頁中的廣告插件,但是自己卻會(huì)彈出“今日特賣”做廣告,這點(diǎn)的確很反感。)
三、將“推薦”理解為“推送” (這種情況更多的是廣告)
繼續(xù)第二個(gè)坑的故事,被揍的推銷員遁回家后萬般委屈,當(dāng)腦海中縈繞著的“我咋知道你啥時(shí)候需要榴蓮蛋糕,我咋知道你啥時(shí)候蹲廁所”的幽怨思緒沉寂下來后,痛定思痛決定不再到用戶家里推銷,而是告訴用戶,需要蛋糕的時(shí)候打個(gè)電話給他,他會(huì)推薦幾款最好的蛋糕給用戶,終于避免了被揍并且收獲了不菲訂單。
用戶渴望驚喜,又憎恨被打擾的折中究竟在哪?
不妨變主動(dòng)變被動(dòng),當(dāng)下無數(shù)的互聯(lián)網(wǎng)產(chǎn)品都有一個(gè)“發(fā)現(xiàn)”模塊,包括微信,Twiiter等大量產(chǎn)品。用戶有需求的時(shí)候,會(huì)主動(dòng)的找“推薦”,避免被打攪。而對(duì)于推薦系統(tǒng),也避免對(duì)用戶形成打擾,引起用戶反感。
四、不顧用戶需求的“個(gè)性化”程度,粗暴技術(shù)選型
我們將推薦系統(tǒng)的目標(biāo)進(jìn)行簡化,假設(shè)它要解決的是點(diǎn)擊率/轉(zhuǎn)化率預(yù)估問題(但實(shí)際上遠(yuǎn)不止這個(gè)問題,本文不展開)。那么這些指標(biāo)都與哪些因素有關(guān)?我們用“看島國片子”為例,也就是說,用戶點(diǎn)擊/觀看一部被推薦片子,都與哪些因素有關(guān)?
- 平臺(tái)的因素:一部片子放在官方的平臺(tái)上,跟放在旮旯的小平臺(tái),完全一樣的信息,這些數(shù)字顯然不同(小平臺(tái)的片子誰敢點(diǎn)?病毒啊對(duì)不?。?/li>
- 片子本身的魅力:幾部片子,即使有同樣的靜態(tài)信息(導(dǎo)演,女優(yōu),出品商等),一定也會(huì)有所差異,這些差異的原因非常難以捕捉,但通過歷史信息卻可以看到;
- 片子信息造成的差異
- 用戶的群體偏好
- 用戶的個(gè)性化偏好
五、總結(jié)
其中這幾個(gè)因素,有一定的界限,其對(duì)應(yīng)的技術(shù)選型也不同,如果只有平臺(tái)的因素,點(diǎn)擊率與轉(zhuǎn)化率遵循Beta分布,只需要對(duì)這些值進(jìn)行估計(jì)。而片子本身的魅力通過簡單的歷史信息統(tǒng)計(jì)便可得到。片子信息造成的差異,則可以通過典型的線性預(yù)估 屬性特征進(jìn)行處理。而如果有強(qiáng)烈的群體偏好,則可以在線性預(yù)估模型里面增加交叉特征,但是如果個(gè)性化需求極其強(qiáng)烈,那么協(xié)同過濾算法可能更加適合。
推薦系統(tǒng)的不同產(chǎn)品形態(tài),其實(shí)就是“個(gè)性化”程度不同。沒有太強(qiáng)個(gè)性化類型的,這樣的推薦系統(tǒng)要解決的問題是“大家都喜歡什么?”,簡單的統(tǒng)計(jì)便能搞定。對(duì)于多數(shù)廣告類產(chǎn)品,個(gè)性化需求太難以捕捉,要解決的問題是“什么樣的人喜歡什么樣的結(jié)果?”那么線性模型 屬性特征 交叉特征更加適合。但是對(duì)于大多數(shù)推薦產(chǎn)品,尤其是大平臺(tái)的推薦產(chǎn)品,去探索“每個(gè)人喜歡什么東西?”的個(gè)性化推薦技術(shù)(協(xié)同過濾,SVD等)可能更加適合。而不同的產(chǎn)品,選型哪怕類似,卻也或多或少隱含差異,例如社交網(wǎng)絡(luò)中的一些推薦產(chǎn)品,基于圖挖掘的推薦方式可能更加適合。
一句話,技術(shù)選型必須參照產(chǎn)品形態(tài)與用戶需求。我曾經(jīng)跟同事慨嘆現(xiàn)在方法之多,資料之多,不知道如何選擇,同事冷幽幽的一句“全部實(shí)現(xiàn)了,再看個(gè)半年Case就行了。”然也。
還有挺多,暫時(shí)先談如上一些。歸根結(jié)底一句話:缺乏科學(xué)精神的“產(chǎn)品理想主義”與“技術(shù)理想主義”要不得。
相關(guān)閱讀:
深度丨從零搭建推薦體系:概述及標(biāo)簽體系搭建(上)
深度丨從零搭建推薦體系:用戶體系、項(xiàng)目體系和推薦體系(中)
深度丨從零搭建推薦體系: 推薦體系和評(píng)估體系(下)
個(gè)性化推薦技術(shù)|產(chǎn)品經(jīng)理和產(chǎn)品運(yùn)營的必修課
#專欄作家#
吳邢一夫(微信號(hào)mystic326531548),人人都是產(chǎn)品經(jīng)理專欄作家。3年產(chǎn)品經(jīng)理工作經(jīng)驗(yàn),需求、用戶、數(shù)據(jù)有深入研究。歡迎交流想法,拒絕無意義添加好友。
本文原創(chuàng)獨(dú)家發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。謝謝合作。
作者應(yīng)該先去了解下推薦系統(tǒng),以及推薦系統(tǒng)的基礎(chǔ)評(píng)價(jià)指標(biāo),了解下協(xié)同過濾的大概思想。要不就浪費(fèi)時(shí)間
謝謝忠告。
1,開頭就說了給新人看的,2,對(duì)于評(píng)價(jià)指標(biāo),我想我應(yīng)該比你稍稍清楚一些:算法,平均絕對(duì)誤差(MAE),平均平方誤差(MSE),標(biāo)準(zhǔn)平均誤差(NMSE);輔助比率,準(zhǔn)確率、召回率、精準(zhǔn)率、多樣性(平均海明距離)、分類精確度(ROC曲線)、排序精確度(平均排序分?jǐn)?shù))、半衰期(半衰參數(shù));用戶維度,用戶反饋(問卷、打分、評(píng)價(jià)等)、數(shù)據(jù)(瀏覽深度、打開比例、時(shí)長等)、長期(命中率、流失率、覆蓋率等)、體驗(yàn)(易用性、響應(yīng)速度、內(nèi)容質(zhì)量等);后期修正,信息增補(bǔ)技術(shù)(信息增補(bǔ)、權(quán)重增補(bǔ))、遺傳算法、神經(jīng)網(wǎng)絡(luò)技術(shù)。3,歡迎關(guān)注后續(xù)文章,會(huì)把從事內(nèi)容推薦的研究成果陸續(xù)發(fā)布。
假大空內(nèi)容大于實(shí)質(zhì)