互聯(lián)網(wǎng)電商平臺(tái)個(gè)性化智能推薦系統(tǒng)設(shè)計(jì)難在哪里

雖然從市場用戶調(diào)研到互聯(lián)網(wǎng)電商平臺(tái)產(chǎn)品設(shè)計(jì),再到上線運(yùn)營推廣,覆蓋的面很寬,但我仔細(xì)對(duì)整個(gè)互聯(lián)網(wǎng)電商平臺(tái)知識(shí)體系梳理了一遍,其中,最為關(guān)鍵和難度最高的就是個(gè)性化推薦系統(tǒng)、搜索和大數(shù)據(jù)系統(tǒng),其實(shí)不難看出,個(gè)性化推薦系統(tǒng)和搜索底層都是基于大數(shù)據(jù),所以最終各條產(chǎn)品線和技術(shù)都?xì)w集到大數(shù)據(jù)系統(tǒng)上,后續(xù)我會(huì)逐一對(duì)每個(gè)難點(diǎn)進(jìn)行分析,本篇就針對(duì)用戶個(gè)性化推薦系統(tǒng)設(shè)計(jì)進(jìn)行分享。
通過對(duì)多個(gè)大型互聯(lián)網(wǎng)電商平臺(tái)的跟蹤研究,個(gè)性化智能推薦系統(tǒng)設(shè)計(jì)建設(shè)由三步構(gòu)成:第一建立平臺(tái)用戶行為的召回模型,維度基于用戶歷史行為數(shù)據(jù)召回、用戶偏好召回和用戶地域召回來實(shí)現(xiàn),用戶歷史行為數(shù)據(jù)召回基于用戶歷史瀏覽、點(diǎn)擊、購買、評(píng)論、分享、收藏、關(guān)注等觸點(diǎn),分類推薦在線相關(guān)、在線相似、離線相關(guān)、離線相似行為;基于用戶偏好召回是基于用戶歸類畫像與平臺(tái)多屏互通融合;基于用戶地域召回是基于用戶地域的網(wǎng)格化來實(shí)現(xiàn)地域行為推薦算法;第二是召回模型匹配算法,利用高斯邏輯回歸及多維算法來得出與用戶召回行為的匹配商品及廣告信息;第三是平臺(tái)針對(duì)匹配模型推薦結(jié)果的排序算法,基于用戶交互日志通過模型訓(xùn)練特征權(quán)重,采用排序算法來實(shí)現(xiàn)自動(dòng)匹配個(gè)性化推薦。在系統(tǒng)實(shí)現(xiàn)技術(shù)架構(gòu)上,為支撐個(gè)性化推薦系統(tǒng)平均至少每周進(jìn)行算法迭代,采用HBase、Spark及MapReduce等系統(tǒng)架構(gòu),在個(gè)性化推薦系統(tǒng)優(yōu)化升級(jí)中,與DNN融合的速度越來越快。
個(gè)性化智能推薦最終的目標(biāo)就是讓一個(gè)普通訪問電商平臺(tái)的用戶,在進(jìn)入平臺(tái)頁面時(shí),系統(tǒng)能夠根據(jù)用戶日常的行為偏好和習(xí)慣,用戶心理想要購買的商品,在還沒有發(fā)生點(diǎn)擊行為時(shí),系統(tǒng)能自動(dòng)推薦到用戶訪問的頁面,提升平臺(tái)用戶下單轉(zhuǎn)化率。即使在用戶沒有訪問平臺(tái)時(shí),企業(yè)通過與用戶日常瀏覽互聯(lián)網(wǎng)行為軌跡的平臺(tái)進(jìn)行聯(lián)盟合作,在聯(lián)盟平臺(tái)推送用戶希望購買的商品廣告和鏈接,刺激和引導(dǎo)用戶點(diǎn)擊購買。即使在用戶沒有打開電腦時(shí),能夠通過信息和郵件的方式,根據(jù)用戶平常的購買頻次和周期,在特定的時(shí)間推送到用戶手機(jī)和電腦。
平臺(tái)前端實(shí)現(xiàn)用戶千人千面,而后端需要建立復(fù)雜的用戶全網(wǎng)行為數(shù)據(jù)采集、存儲(chǔ)加工、數(shù)據(jù)建模和用戶畫像過程,單純采集互聯(lián)網(wǎng)電商平臺(tái)數(shù)據(jù),僅能達(dá)到個(gè)性化推薦效果的40%左右,如果要提升個(gè)性化推薦的效果,就必須覆蓋用戶全網(wǎng)行為軌跡,甚至用戶線下的行為軌跡,這就形成了以互聯(lián)網(wǎng)電商平臺(tái)為核心的生態(tài)系統(tǒng),也能說明阿里、騰訊為什么要控股或收購各行業(yè)企業(yè)的原因。
1、用戶行為數(shù)據(jù)采集
首先需要在采集的互聯(lián)網(wǎng)平臺(tái)進(jìn)行埋點(diǎn),在頁面放置“蜘蛛”探針、采集業(yè)務(wù)系統(tǒng)所有訪問和操作日志、從數(shù)據(jù)庫中提取業(yè)務(wù)數(shù)據(jù),采集回來存儲(chǔ)在數(shù)據(jù)倉庫,采集服務(wù)器組負(fù)責(zé)將采集到的日志信息生成文件,落地到存儲(chǔ)設(shè)備;ETL服務(wù)器負(fù)責(zé)將日志文件和結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入Hadoop分析集群,并將分析結(jié)果導(dǎo)出到Oracle數(shù)據(jù)庫;數(shù)據(jù)解析服務(wù)器負(fù)責(zé)連接Hadoop環(huán)境,完成數(shù)據(jù)分析各項(xiàng)計(jì)算;Hadoop和Hive提供數(shù)據(jù)分布式存儲(chǔ)和計(jì)算的基礎(chǔ)框架;調(diào)度實(shí)現(xiàn)以上數(shù)據(jù)導(dǎo)入、分析和結(jié)果導(dǎo)出的所有任務(wù)的統(tǒng)一調(diào)度;數(shù)據(jù)展示服務(wù)器負(fù)責(zé)數(shù)據(jù)分析結(jié)果的多種形式展現(xiàn)。
目前做大數(shù)據(jù)平臺(tái)的公司,大多數(shù)采集的數(shù)據(jù)指標(biāo)和輸出的可視化報(bào)表,都存在幾個(gè)關(guān)鍵問題:
- 采集的數(shù)據(jù)都是以渠道、日期、地區(qū)統(tǒng)計(jì),無法定位到具體每個(gè)用戶;
- 計(jì)算統(tǒng)計(jì)出的數(shù)據(jù)都是規(guī)模數(shù)據(jù),針對(duì)規(guī)模數(shù)據(jù)進(jìn)行挖掘分析,無法支持;
- 數(shù)據(jù)無法支撐系統(tǒng)做用戶獲客、留存、營銷推送使用;
所以,要使系統(tǒng)采集的數(shù)據(jù)指標(biāo)能夠支持平臺(tái)前端的個(gè)性化行為分析,必須圍繞用戶為主線來進(jìn)行畫像設(shè)計(jì),在初期可視化報(bào)表成果基礎(chǔ)上,將統(tǒng)計(jì)出來的不同規(guī)模數(shù)據(jù),細(xì)分定位到每個(gè)用戶,使每個(gè)數(shù)據(jù)都有一個(gè)用戶歸屬。將分散無序的統(tǒng)計(jì)數(shù)據(jù),在依據(jù)用戶來銜接起來,在現(xiàn)有產(chǎn)品界面上,每個(gè)統(tǒng)計(jì)數(shù)據(jù)都增加一個(gè)標(biāo)簽,點(diǎn)擊標(biāo)簽,可以展示對(duì)應(yīng)每個(gè)用戶的行為數(shù)據(jù),同時(shí)可以鏈接到其他統(tǒng)計(jì)數(shù)據(jù)頁面。由此可以推導(dǎo)出,以用戶為主線來建立數(shù)據(jù)采集指標(biāo)維度:用戶身份信息、用戶社會(huì)生活信息、用戶資產(chǎn)信息、用戶行為偏好信息、用戶購物偏好、用戶價(jià)值、用戶反饋、用戶忠誠度等多個(gè)維度,依據(jù)建立的采集數(shù)據(jù)維度,可以細(xì)分到數(shù)據(jù)指標(biāo)或數(shù)據(jù)屬性項(xiàng)。
① 用戶身份信息維度
性別,年齡,星座,居住城市,活躍區(qū)域,證件信息,學(xué)歷,收入,健康等。
② 用戶社會(huì)生活信息維度
行業(yè),職業(yè),是否有孩子,孩子年齡,車輛,住房性質(zhì),通信情況,流量使用情況……
③ 用戶行為偏好信息
是否有網(wǎng)購行為,風(fēng)險(xiǎn)敏感度,價(jià)格敏感度,品牌敏感度,收益敏感度,產(chǎn)品偏好,渠道偏好……
④ 用戶購物偏好信息
品類偏好,產(chǎn)品偏好,購物頻次,瀏覽偏好,營銷廣告喜好,購物時(shí)間偏好,單次購物最高金額……
⑤ 用戶反饋信息維度
用戶參與的活動(dòng),參與的討論,收藏的產(chǎn)品,購買過的商品,推薦過的產(chǎn)品,評(píng)論過的產(chǎn)品……
用戶畫像標(biāo)題體系設(shè)計(jì)
通過建立的用戶行為數(shù)據(jù)采集指標(biāo)體系后,將其再細(xì)分到數(shù)據(jù)屬性值,進(jìn)入這個(gè)環(huán)節(jié),就需要依賴各種建立的數(shù)據(jù)模型或函數(shù)算法,來對(duì)平臺(tái)用戶進(jìn)行特征提取分析,計(jì)算出用戶對(duì)應(yīng)的畫像數(shù)據(jù)值,這才是用戶畫像過程中最為關(guān)鍵的環(huán)節(jié)。舉個(gè)例子:如果一個(gè)用戶訪問瀏覽一個(gè)電商平臺(tái),注冊時(shí)沒有填寫性別,平臺(tái)如何通過用戶產(chǎn)生的訪問瀏覽行為,來計(jì)算出用戶的性別。絕大多數(shù)電商平臺(tái)都是通過用戶的瀏覽商品,為其推薦相同或相關(guān)的商品或相關(guān)商品類目商品,用戶瀏覽了連衣裙,并不能說明用戶就是女性,因此,要能夠更加準(zhǔn)確的向用戶推薦個(gè)性化商品,就必須通過數(shù)據(jù)特征提取,函數(shù)算法來計(jì)算出用戶的性別。
2、數(shù)據(jù)存儲(chǔ)加工
用戶行為數(shù)據(jù)采集后,需要存儲(chǔ)在數(shù)據(jù)倉庫,對(duì)采集的原始數(shù)據(jù)進(jìn)行ETL加工處理,首先需要處理掉存儲(chǔ)的無效重復(fù)數(shù)據(jù),對(duì)于用戶行為沒有影響或重復(fù)數(shù)據(jù),對(duì)非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,并對(duì)數(shù)據(jù)進(jìn)行補(bǔ)缺、替換、數(shù)據(jù)合并、數(shù)據(jù)拆分、數(shù)據(jù)加載和異常處理。(這個(gè)環(huán)節(jié)更多是技術(shù)程序處理)
3、數(shù)據(jù)建模及用戶特征提取、用戶畫像
對(duì)于加工處理后的用戶行為數(shù)據(jù),利用開源的機(jī)器學(xué)習(xí)分類器包,調(diào)用封裝好的各種數(shù)據(jù)函數(shù),神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、貝葉斯等對(duì)數(shù)據(jù)進(jìn)行聚類、分類和預(yù)測,根據(jù)第一步設(shè)計(jì)的用戶畫像標(biāo)簽體系,對(duì)訪問平臺(tái)的用戶計(jì)算行為特征值,用戶特征提取并不是針對(duì)所有的標(biāo)簽維度,對(duì)于優(yōu)先關(guān)鍵標(biāo)簽,如果從用戶數(shù)據(jù)庫查詢不到特征值,就需要調(diào)用R函數(shù)對(duì)其進(jìn)行計(jì)算,最終得出每個(gè)標(biāo)簽維度的特征值,依據(jù)特征屬性值,就可以對(duì)用戶進(jìn)行畫像處理。
按照用戶屬性和行為特征對(duì)全部用戶進(jìn)行聚類和精細(xì)化的客戶群細(xì)分,將用戶行為相同或相似的用戶歸類到一個(gè)子庫,這樣就可以將電商平臺(tái)所有的用戶劃分為N個(gè)不同子庫,每個(gè)子庫用戶擁有相同或相似的行為特征,到這一步,電商平臺(tái)就可以按照不同子庫行為對(duì)其進(jìn)行個(gè)性化智能推薦。
目前國內(nèi)主流電商平臺(tái),在進(jìn)行個(gè)性化智能推薦系統(tǒng)升級(jí)過程,都在逐步向DNN滲透和擴(kuò)展,也是未來個(gè)性化智能推薦必經(jīng)之路。在現(xiàn)有用戶畫像、用戶屬性打標(biāo)簽、客戶和營銷規(guī)則配置推送、同類型用戶特性歸集分庫模型基礎(chǔ)上,未來將逐步擴(kuò)展機(jī)器深度學(xué)習(xí)功能,通過系統(tǒng)自動(dòng)搜集分析前端用戶實(shí)時(shí)變化數(shù)據(jù),依據(jù)建設(shè)的機(jī)器深度學(xué)習(xí)函數(shù)模型,自動(dòng)計(jì)算匹配用戶需求的函數(shù)參數(shù)和對(duì)應(yīng)規(guī)則,推薦系統(tǒng)根據(jù)計(jì)算出的規(guī)則模型,實(shí)時(shí)自動(dòng)推送高度匹配的營銷活動(dòng)和內(nèi)容信息。
歸根結(jié)底,無論是做個(gè)性化智能推薦還是大數(shù)據(jù)進(jìn)行研究探索,最終都是要達(dá)到讓系統(tǒng)更加智能的準(zhǔn)確識(shí)別和推送用戶心理想要的產(chǎn)品或內(nèi)容,也就是互聯(lián)網(wǎng)平臺(tái)與用戶前端交互的效果,使系統(tǒng)具有人類大腦的效果,更加智能、甚至學(xué)會(huì)思考。
作者簡介:劉永平 ,10年以上互聯(lián)網(wǎng)電商、互聯(lián)網(wǎng)金融項(xiàng)目實(shí)操經(jīng)驗(yàn),任職產(chǎn)品總監(jiān),產(chǎn)品咨詢專家,曾親自主導(dǎo)參與項(xiàng)目超過15個(gè),10個(gè)以上從0到1實(shí)操經(jīng)驗(yàn)。
免責(zé)聲明:本文是作者通過多年項(xiàng)目實(shí)操,積累分享的干貨,全部屬于原創(chuàng),如需轉(zhuǎn)載分享,必須注明作者和出處,并關(guān)注微信公眾號(hào)“互聯(lián)網(wǎng)金融干貨”,微信號(hào):WYGH188,如沒有注明作者和出處,會(huì)追究法律責(zé)任。
本文由 @劉永平 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理?,未經(jīng)許可,禁止轉(zhuǎn)載。
進(jìn)銷存
用戶的身份信息,社會(huì)生活信息,這些不算是個(gè)人隱私嗎?
互聯(lián)網(wǎng)app前無隱私
寫的好
請(qǐng)問作為電子商務(wù)的pm要對(duì)機(jī)器學(xué)習(xí)掌握到什么程度和范圍呢
牛
點(diǎn)贊