構(gòu)建完行為分析報(bào)表后,如何識(shí)別異常與指標(biāo)修復(fù)?「用戶行為分析」【修復(fù)篇】
在數(shù)據(jù)分析的世界里,準(zhǔn)確識(shí)別并修復(fù)數(shù)據(jù)報(bào)表中的異常是確保決策有效性的關(guān)鍵。本文深入探討了用戶行為分析中的異常識(shí)別與修復(fù)手段,從理解業(yè)務(wù)背景和客觀規(guī)律到具體的修復(fù)策略,為讀者提供了一套全面的指南。
從《用戶行為分析-構(gòu)建篇》到本篇已經(jīng)是第三篇了,分別圍繞用戶行為分析的全流程講述了數(shù)據(jù)集構(gòu)建-分析方法-異常修復(fù)這三趴,雖然三篇是圍繞流程互通的,但也因?yàn)橹髦v的內(nèi)容會(huì)分布到不同的職能上,所以有些讀者群體們產(chǎn)生不了多少興趣,或者說(shuō)工作上還沒(méi)有遇到諸如此類的問(wèn)題還不太用的上,但是沒(méi)有關(guān)系,我依舊期望在你需要的時(shí)候,能夠在搜索結(jié)果或是收藏夾中出現(xiàn)它們的身影,為你提供一套標(biāo)準(zhǔn)可用的用戶行為分析指南。
一、如何識(shí)別報(bào)表數(shù)據(jù)異常
為什么要留意報(bào)表中的數(shù)據(jù)異常?你聽(tīng)我放屁:天災(zāi)人禍你要渡過(guò)難關(guān)、潑天富貴你要想法接住、事在人為你要對(duì)比效果。簡(jiǎn)言之幫助產(chǎn)品運(yùn)營(yíng)良性發(fā)展。
1、識(shí)別與修復(fù)的重要性
數(shù)據(jù)報(bào)表會(huì)用作業(yè)務(wù)決策參考,不想被帶偏就要確保準(zhǔn)確性,所以當(dāng)我們完成報(bào)表搭建以后,先不考慮業(yè)務(wù)數(shù)據(jù)是否漂亮、是否有外界因素干擾,一定要先檢查從數(shù)據(jù)加工到報(bào)表建成的這個(gè)過(guò)程中是否有紕漏,如果這個(gè)過(guò)程沒(méi)有問(wèn)題,數(shù)據(jù)依舊異常,則要進(jìn)一步觀測(cè)數(shù)據(jù)采集階段是否有問(wèn)題,只有當(dāng)數(shù)據(jù)從采集到加工成報(bào)表都沒(méi)啥問(wèn)題時(shí),最后代入到業(yè)務(wù)場(chǎng)景中分析異常原因才有價(jià)值。
在工作場(chǎng)景中的價(jià)值
作為一名非數(shù)據(jù)分析師,你可能是PD、UE、UX、UI等,但作為產(chǎn)研人員你不關(guān)注業(yè)務(wù)數(shù)據(jù)有些說(shuō)不過(guò)去,而掌握不同程度的數(shù)據(jù)異常識(shí)別與修復(fù)能力,可以更便捷的滿足自身業(yè)務(wù)數(shù)據(jù)分析的需要。雖然張嘴提數(shù)據(jù)需求很快,但是需求什么時(shí)候落地你還得靜候佳音,所以通過(guò)自助分析減少對(duì)BI同學(xué)的依賴,加快響應(yīng)何嘗不可;
好了,再聊回來(lái)如何識(shí)別異常~
清晰業(yè)務(wù)背景與客觀規(guī)律
事實(shí)上要搞清楚你的數(shù)據(jù)報(bào)表有沒(méi)有問(wèn)題,最簡(jiǎn)單快捷的辦法就是了解業(yè)務(wù)與產(chǎn)品屬性后找客觀規(guī)律,因此數(shù)據(jù)不要揪著那么一兩天的看,也不要只停留在報(bào)表上找問(wèn)題,最好是把數(shù)據(jù)的周期范圍拉長(zhǎng),以形成參考對(duì)比便于觀察趨勢(shì)變化,如果數(shù)據(jù)指標(biāo)比較單一,不能構(gòu)建趨勢(shì)或環(huán)比,那么你也可以結(jié)合業(yè)務(wù)流程、指標(biāo)結(jié)構(gòu)、行業(yè)標(biāo)準(zhǔn)等來(lái)看,看數(shù)據(jù)指標(biāo)是否處于合理的水準(zhǔn)。
如果上述的流程方法你一個(gè)字也沒(méi)看進(jìn)去,那么請(qǐng)看這個(gè)例子:
如果當(dāng)產(chǎn)品內(nèi)部沒(méi)有主動(dòng)的變量事件,外部也沒(méi)有明顯的被動(dòng)事件影響,且數(shù)據(jù)指標(biāo)還不符合客觀規(guī)律或業(yè)務(wù)預(yù)期,那么大概率報(bào)表搭建的過(guò)程中出了Bug,準(zhǔn)備找問(wèn)題吧hhhh
以下是針對(duì)業(yè)務(wù)背景與客觀規(guī)律的變量整理,一些常見(jiàn)的基本都概括了,在進(jìn)行報(bào)表數(shù)據(jù)異常排查時(shí)可以參考;
通??陀^規(guī)律是比較能夠反映出數(shù)據(jù)異常的,因?yàn)閿?shù)據(jù)有一定的標(biāo)準(zhǔn)或規(guī)律可言,另外就是配合業(yè)務(wù)背景或行業(yè)狀況來(lái)解釋或預(yù)測(cè)數(shù)據(jù)的變動(dòng),這兩套數(shù)據(jù)異常識(shí)別方法,基本上可以用一套決策樹(shù)來(lái)概括;
業(yè)務(wù)數(shù)據(jù)-多表對(duì)比驗(yàn)證
用戶行為分析構(gòu)建通常會(huì)單獨(dú)創(chuàng)建一套行為數(shù)據(jù)采集系統(tǒng),這表明相關(guān)的數(shù)據(jù)表不止一套,一般還有業(yè)務(wù)后臺(tái)的數(shù)據(jù)、渠道投放數(shù)據(jù)等,這個(gè)時(shí)候我們就可以將相關(guān)的核心指標(biāo)或大盤數(shù)據(jù)進(jìn)行抽樣對(duì)比,如果數(shù)據(jù)對(duì)不上,那就代表數(shù)據(jù)報(bào)表搭建的有問(wèn)題,一般業(yè)務(wù)后臺(tái)的接口數(shù)據(jù)是不會(huì)出錯(cuò)的,遇到數(shù)據(jù)對(duì)不上就老老實(shí)實(shí)檢查報(bào)表或采集系統(tǒng)吧。
二、如何修復(fù)數(shù)據(jù)指標(biāo)異常
一套用戶行為分析報(bào)表剛構(gòu)建好之時(shí),用戶行為指標(biāo)異常無(wú)非就兩方面;
一方面就是用戶群中確實(shí)有異常的行為帶來(lái)了異常的數(shù)據(jù)或趨勢(shì),這些是要結(jié)合業(yè)務(wù)營(yíng)銷或外界因素來(lái)找原因了,但可以肯定的是異常數(shù)據(jù)是對(duì)的,沒(méi)有說(shuō)謊,例如商品的優(yōu)惠券配置錯(cuò)了,給出了驚人的優(yōu)惠,導(dǎo)致下單量數(shù)據(jù)與趨勢(shì)遠(yuǎn)超以往,數(shù)據(jù)看起來(lái)是異常的,但卻是能找到對(duì)應(yīng)異常原因的。
另一方面就是你的數(shù)據(jù)采集到計(jì)算加工出錯(cuò)了,事實(shí)上這種情況也時(shí)有發(fā)生,常見(jiàn)于多個(gè)同事交叉作業(yè)、采集需求不完善、數(shù)據(jù)維護(hù)不規(guī)范、工作量較大出現(xiàn)紕漏、數(shù)據(jù)處理不熟練等。
那么接下來(lái)就好好跟大家嘮嘮數(shù)據(jù)報(bào)表構(gòu)建完后,如何修復(fù)這些異常問(wèn)題。
修復(fù)過(guò)程我結(jié)合我個(gè)人的習(xí)慣與過(guò)往經(jīng)驗(yàn)拆分成了六個(gè)部分,相較于專業(yè)的BI數(shù)字建模開(kāi)發(fā),可能還是有些差距的,但是也算夠用,起碼能夠自己Hold住大多問(wèn)題,剩下的疑難雜癥再抱抱BI同事的大腿即可~
1、定位數(shù)據(jù)異常
這是數(shù)據(jù)異常修復(fù)的首要工作,如何識(shí)別異常已經(jīng)在上一趴聊過(guò)了,那么如何定位問(wèn)題主要有兩個(gè)行動(dòng)方向;
需要注意的是在數(shù)據(jù)驗(yàn)證的過(guò)程中,采用相同條件的過(guò)濾或數(shù)據(jù)范圍,保證口徑的統(tǒng)一,那么當(dāng)你找到數(shù)據(jù)異常發(fā)生在底層還是在中間加工層后,那么就進(jìn)入下一步驟治理工作了。
2、給數(shù)據(jù)打補(bǔ)丁
給數(shù)據(jù)打補(bǔ)丁就是加篩選條件,發(fā)現(xiàn)數(shù)據(jù)有異常后將異常的部分過(guò)濾掉即可,通過(guò)觀察這些異常數(shù)據(jù)的規(guī)律來(lái)界定一個(gè)數(shù)據(jù)有效的范圍或標(biāo)準(zhǔn),然后在數(shù)據(jù)報(bào)表上添加數(shù)據(jù)過(guò)濾或判斷,通常數(shù)據(jù)或報(bào)表工具一定會(huì)具備這些功能,在前文有個(gè)清洗調(diào)研問(wèn)卷的例子還有印象嗎?其實(shí)就是將無(wú)效的用戶反饋剔除即可;
※你可能會(huì)好奇這些臟數(shù)據(jù)從哪里來(lái)的?
除了以上交互邏輯不完善導(dǎo)致用戶填入的數(shù)據(jù)外,還有一些可能是來(lái)自產(chǎn)品內(nèi)部測(cè)試、腳本測(cè)試、數(shù)據(jù)爬蟲(chóng)、灰產(chǎn)攻擊、數(shù)據(jù)采集Bug等,所以如果團(tuán)隊(duì)內(nèi)部有大量測(cè)試或腳本動(dòng)作,一定開(kāi)個(gè)名單把這些數(shù)據(jù)過(guò)濾掉,其他的則可以通過(guò)觀察產(chǎn)生異常數(shù)據(jù)的賬號(hào)、設(shè)備信息、MAC地址、參數(shù)內(nèi)容、IP網(wǎng)絡(luò)等信息來(lái)找規(guī)律和數(shù)據(jù)規(guī)避,例如寫(xiě)一個(gè)條件判斷的計(jì)算列,有效為0無(wú)效為1,數(shù)據(jù)分析時(shí)過(guò)濾掉為1的即可;
3、修正函數(shù)算法
在我的過(guò)往經(jīng)歷中,指標(biāo)度量的出錯(cuò)通常有兩種情況,一個(gè)是你的函數(shù)能跑,但寫(xiě)的不符合指標(biāo)的預(yù)期,另一個(gè)是你計(jì)算過(guò)程中,引用了錯(cuò)的字段參數(shù),這兩種情況都會(huì)使得最終的指標(biāo)度量不對(duì)。
如果你函數(shù)用的比較熟練,那么通常出錯(cuò)的原因往往是用了不對(duì)的字段參數(shù)進(jìn)行計(jì)算,如果你對(duì)業(yè)務(wù)數(shù)據(jù)不夠熟悉,或是業(yè)務(wù)數(shù)據(jù)的口徑不規(guī)范,都很容易出現(xiàn)這種問(wèn)題,這種情況就需要你進(jìn)行抽樣與數(shù)據(jù)試驗(yàn)了。
a. 字段參數(shù)口徑選用
最簡(jiǎn)單辦法就是定位到存在有差異的數(shù)據(jù)源后,觀察具備相同屬性的字段參數(shù)那個(gè)更完整或更準(zhǔn)確,例如一套數(shù)據(jù)集中有兩個(gè)字段參數(shù)可以視為用戶個(gè)體,但是進(jìn)行列統(tǒng)計(jì)時(shí)兩個(gè)數(shù)據(jù)不相等,那么我們就要在原始數(shù)據(jù)集上進(jìn)行排查,看看數(shù)據(jù)缺失的部分是否符合邏輯或是數(shù)據(jù)采集有漏洞,然后結(jié)合業(yè)務(wù)情景或數(shù)據(jù)詳情,來(lái)挑選出一個(gè)靠譜的字段參數(shù)用作業(yè)務(wù)指標(biāo)度量計(jì)算,修復(fù)之后呢,也建議找個(gè)地方進(jìn)行備注,特別是數(shù)據(jù)血緣比較復(fù)雜時(shí),便于維護(hù);
b. 指標(biāo)函數(shù)驗(yàn)算
如果對(duì)各種函數(shù)的用法不熟悉,或是某個(gè)BI工具沒(méi)用采用傳統(tǒng)的SQL函數(shù),導(dǎo)致你的指標(biāo)度量計(jì)算出錯(cuò)概率也是很大的,一般遇到這種情況,我都是先鎖定到一定范圍的數(shù)據(jù),然后通過(guò)一些簡(jiǎn)單的函數(shù)加人工算出指標(biāo)值,然后找可行的函數(shù)來(lái)加工或調(diào)整出這個(gè)指標(biāo)值,之后再隨機(jī)采樣驗(yàn)證一下是否準(zhǔn)確,如果遇到實(shí)在搞不定的數(shù)據(jù)運(yùn)算或函數(shù)使用,那就問(wèn)問(wèn)AI大模型,或者平臺(tái)客服,反正我這邊BI平臺(tái)的語(yǔ)法群里的消息基本沒(méi)有停過(guò)~
4、下鉆指標(biāo)度量
此項(xiàng)是針對(duì)套娃式函數(shù)運(yùn)算的指標(biāo)場(chǎng)景,即當(dāng)前的指標(biāo)函數(shù)計(jì)算中,用到了其他計(jì)算列或是度量,但這些計(jì)算列或度量本身又是由其他計(jì)算列或度量構(gòu)成,這就意味著引用的下游計(jì)算列或度量一旦有誤,上游指標(biāo)全盤崩壞,這種情況也是排查和修護(hù)中比較惡心的,你得像剝洋蔥一樣一層一層的找問(wèn)題,好在改完一個(gè)問(wèn)題后,其他也能變回正常,此類問(wèn)題修復(fù)可以參考以下決策樹(shù);
5、糾正數(shù)據(jù)采集
針對(duì)用戶行為數(shù)據(jù)采集,如果起初的埋點(diǎn)采集需求沒(méi)有寫(xiě)清楚或開(kāi)發(fā)驗(yàn)證中有了遺漏,就會(huì)導(dǎo)致進(jìn)行指標(biāo)或用戶行為路徑分析時(shí)缺少關(guān)鍵數(shù)據(jù)或是數(shù)據(jù)對(duì)不上,這就是典型的數(shù)據(jù)采集事故,即上報(bào)完整性有問(wèn)題、上報(bào)準(zhǔn)確性有問(wèn)題,如果產(chǎn)品迭代后,相關(guān)埋點(diǎn)沒(méi)有及時(shí)迭代更新也會(huì)出現(xiàn)諸如此類的問(wèn)題。
你以為這種問(wèn)題是少數(shù)?實(shí)際上很多時(shí)候開(kāi)發(fā)者完成行為埋點(diǎn)開(kāi)發(fā)后,業(yè)務(wù)方都沒(méi)有仔細(xì)測(cè)試驗(yàn)證過(guò),都是簡(jiǎn)單看兩眼就好了沒(méi)問(wèn)題了,然后在做數(shù)據(jù)報(bào)表或相關(guān)分析時(shí),才開(kāi)始查缺補(bǔ)漏找開(kāi)發(fā)返工或補(bǔ)充,提過(guò)行為埋點(diǎn)需求的同學(xué)們,試問(wèn)自己,每次埋點(diǎn)開(kāi)發(fā)完后有仔細(xì)測(cè)試驗(yàn)收過(guò)么?有的話,繼續(xù)保持!
6、培訓(xùn)和交流「交流中」
這一趴從企業(yè)流程管理或是個(gè)人發(fā)展學(xué)習(xí)都是有益的,特別是多個(gè)同學(xué)交叉作業(yè)的情景,無(wú)規(guī)范無(wú)維護(hù)后續(xù)越亂套我們?cè)诫y受,讓改一套報(bào)表遇到點(diǎn)兒?jiǎn)栴}都要找半天,真的還不如新建一套報(bào)表來(lái)的舒服,所以數(shù)據(jù)采集加工、口徑統(tǒng)一、語(yǔ)法技巧等都是可以多交流的,甚至沉淀內(nèi)部材料或分享都是不錯(cuò)的。
就例如指標(biāo)的函數(shù)加工,之前我為了輸出業(yè)務(wù)的期望指標(biāo),我寫(xiě)了好幾套計(jì)算列才把結(jié)果套出來(lái)了,但是后來(lái)請(qǐng)教BI后,對(duì)方只用了兩套語(yǔ)法就把度量指標(biāo)弄出來(lái)了,看完后我表示妙啊~
至于現(xiàn)在,基本的數(shù)據(jù)分析或報(bào)表構(gòu)建我都能自助解決,完全不依賴數(shù)據(jù)相關(guān)的同事,同樣的數(shù)據(jù)需求,如果我有時(shí)間的話,別人的還在等數(shù)據(jù)同事那邊的排期,我這邊就開(kāi)始了,人家開(kāi)始時(shí),我這邊已經(jīng)結(jié)束了。
三、行為分析的延展應(yīng)用
前文分享了如何進(jìn)行基礎(chǔ)的用戶行為分析,實(shí)際上行為分析的妙用不止于此,如果這些行為數(shù)據(jù)妥善應(yīng)用還能為業(yè)務(wù)帶來(lái)不少價(jià)值,如通過(guò)機(jī)器深度學(xué)習(xí)構(gòu)建預(yù)測(cè)模型、更深入的偏好分析應(yīng)用、異?;驖撛谕{的行為監(jiān)控等。
1、異常行為監(jiān)控
用戶行為異常分析可以幫助業(yè)務(wù)發(fā)現(xiàn)不正常的用戶行為,不同類型的異常行為對(duì)業(yè)務(wù)也會(huì)造成不同程度的威脅或負(fù)面影響,因此可以構(gòu)建一套用戶行為監(jiān)控系統(tǒng)(根據(jù)業(yè)務(wù)需要提需求或接入第三方服務(wù)即可,不是讓你寫(xiě)代碼哈),根據(jù)不同類型的用戶行為定制相應(yīng)的響應(yīng)策略,這樣可以減少潛在的威脅以提升安全性或用戶行為規(guī)范性,通常來(lái)講這些異常可以分為兩大類;
一類是用戶不合規(guī)的行為,前者可以通過(guò)評(píng)估行為的惡劣程度來(lái)進(jìn)行賬號(hào)警告、凍結(jié)等來(lái)處理。
另一類則是灰產(chǎn)攻擊,后者的容忍度相對(duì)會(huì)更低,一旦通過(guò)行為或其他數(shù)據(jù)確認(rèn)后,就會(huì)進(jìn)行攔截屏蔽或是相關(guān)賬號(hào)封禁處理。
至于這些異常如何識(shí)別,在第一部分的【清晰業(yè)務(wù)規(guī)律與客觀規(guī)律】或第二部分的【如何給數(shù)據(jù)打補(bǔ)丁】都有提過(guò),基本上就是用戶行為異常或設(shè)備屬性異常,那么在發(fā)現(xiàn)問(wèn)題以后,最好就是將這些異常的特征記錄在案,并通過(guò)算法或一些自動(dòng)化手段,融合到異常行為監(jiān)控系統(tǒng)中,一旦發(fā)現(xiàn)符合特征的潛在威脅就提前告警或攔截屏蔽等,并且持續(xù)的優(yōu)化迭代,以減少人工投入的成本。
2、用戶偏好系統(tǒng)
相比于預(yù)測(cè)模型,用戶偏好系統(tǒng)大家肯定更熟悉一些,一般可以分成三個(gè)部分,即用戶畫(huà)像構(gòu)建、用戶偏好分析、個(gè)性推薦系統(tǒng),這里就不展開(kāi)一個(gè)個(gè)聊了,其用途與構(gòu)建的思路方法我用表格整理了一下可供參考,如果有興趣可以專門找一下相關(guān)的資料看看;
3、行為預(yù)測(cè)模型
行為預(yù)測(cè)模型的本質(zhì)是機(jī)器深度學(xué)習(xí)或AI相關(guān)的應(yīng)用,說(shuō)人話就是不定期的把業(yè)務(wù)數(shù)據(jù)整理好了喂個(gè)算法服務(wù),然后算法根據(jù)數(shù)據(jù)產(chǎn)生一套預(yù)測(cè)結(jié)果,然后你把結(jié)果用于業(yè)務(wù)決策或定制化營(yíng)銷上。
因?yàn)橛?xùn)練模型需要一定成本,所以訓(xùn)練前需要明確有業(yè)務(wù)上的需要,以及有合適的行為數(shù)據(jù)可用于加工后進(jìn)行模型訓(xùn)練,那么具體如何繼續(xù)模型訓(xùn)練我就不展開(kāi)了,很多人可能疑問(wèn)這些行為預(yù)測(cè)模型具體有什么東西,能起到什么用途,對(duì)此整理了一下五點(diǎn)可供參考;
四、連續(xù)三篇全流程與決策樹(shù)總結(jié)
整個(gè)流程事件的步驟與決策方法概括;
三章內(nèi)容整合路書(shū):
感謝耐心閱讀,如果覺(jué)得寫(xiě)的還行,就點(diǎn)贊關(guān)注一下吧,下次更新先通知你~
專欄作家
泡泡,公眾號(hào):即刻UX,人人都是產(chǎn)品經(jīng)理專欄作家。專注產(chǎn)品交互領(lǐng)域的體驗(yàn)設(shè)計(jì)師,擅長(zhǎng)思考和UI呈現(xiàn)設(shè)計(jì),喜愛(ài)交流探討~
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
湊條評(píng)論