數(shù)據(jù)產(chǎn)品經(jīng)理必備技能之分析方法

本文作者將與你分享三種數(shù)據(jù)分析方法:常規(guī)分析、統(tǒng)計模型分析以及自建模型分析。掌握這三種分析思路,就能解決大部分分析需求,并根據(jù)分析需求固化為數(shù)據(jù)產(chǎn)品。
很多人覺得,做數(shù)據(jù)產(chǎn)品經(jīng)理就沒有必要掌握數(shù)據(jù)分析相關(guān)技能了,終于可以遠(yuǎn)離了枯燥的數(shù)據(jù)分析工作。如果真這么覺得,那么就大錯特錯了,一個好的數(shù)據(jù)產(chǎn)品經(jīng)理,不僅要有產(chǎn)品sense,還要有好的分析思路,因為一個數(shù)據(jù)產(chǎn)品需求大部分都是由分析需求固化而來的。很多時候,數(shù)據(jù)產(chǎn)品和分析是分不開的,一個好的數(shù)據(jù)產(chǎn)品經(jīng)理,要掌握常用的數(shù)據(jù)分析框架和方法,才能使做出來的數(shù)據(jù)產(chǎn)品讓數(shù)據(jù)分析師和業(yè)務(wù)人員使用更順手,更貼近業(yè)務(wù)。
在進行數(shù)據(jù)分析之前,一般都會先想一下分析框架和分析方法,數(shù)據(jù)分析方法一般有常規(guī)分析、統(tǒng)計模型分析以及自建模型分析。掌握這三種分析思路,就能解決大部分分析需求,并根據(jù)分析需求固化為數(shù)據(jù)產(chǎn)品。下面重點講一下這三個分析方法。
1、常規(guī)分析
其實很多公司80%的分析需求都是可以通過常規(guī)分析解決,很多分析師一般把業(yè)務(wù)相關(guān)數(shù)據(jù)從hive或者mysql中導(dǎo)入到excel,然后在excel中通過簡單的表格、線圖等方式來簡單直觀的分析數(shù)據(jù)。常規(guī)分析經(jīng)常會用到同環(huán)比分析法和ABC分析法,即分析對比趨勢和分析占比情況。
同環(huán)比分析應(yīng)用到數(shù)據(jù)產(chǎn)品中常見的有業(yè)務(wù)周、月、日報等,例如,拿很多互聯(lián)網(wǎng)公司都關(guān)注的核心指標(biāo)DAU(日活躍用戶數(shù)),周報里一般都會對比DAU的周環(huán)比變化,如果上漲或者下跌的比較大的話,就要進一步查找分析業(yè)務(wù)原因。
同比:某個周期的時段與上一個周期的相同時段比較,如今年的6月比去年的月,本周的周一比上周的周一等等。同比增長率=(本期數(shù)-同期數(shù))/同期數(shù)×100%。
環(huán)比:某個時段與其上一個時長相等的時段做比較,比如本周環(huán)比上周等等。環(huán)比增長率=(本期數(shù)-上期數(shù))/上期數(shù)×100%。
至于ABC分析法,一般是以某一指標(biāo)為對象,進行數(shù)量分析,以該指標(biāo)各維度數(shù)據(jù)與總體數(shù)據(jù)的比重為依據(jù),按照比例大小順序排列,并按照一定的比重或累計比重標(biāo)準(zhǔn),將各組成部分分為ABC三類。舉一個通俗易懂的例子,經(jīng)過長期的觀察發(fā)現(xiàn):美國80%的人只掌握了20%的財產(chǎn),而另外20%的人卻掌握了全國80%的財產(chǎn),而且很多事情都符合該規(guī)律。于是可以應(yīng)用此規(guī)律在業(yè)務(wù)上,通過合理分配時間和力量到A類-總數(shù)中的少數(shù)部分,將會得到更好的結(jié)果。當(dāng)然忽視B類和C類也是危險的,但是它確實得到與A類相對少得多的注意。
舉一個比較簡單的例子,在分析支付訂單量的數(shù)據(jù)中,對各個城市的支付訂單量做ABC分析法進一步分析,如圖1所示,發(fā)現(xiàn)武漢、杭州、上海等地的支付訂單量占比很大,這樣就可以在運營活動中進一步關(guān)注占比比較高的城市,重點支持下這部分城市的活動推廣。
圖1 各城市支付訂單量占比情況
2、統(tǒng)計模型分析
當(dāng)掌握了很大的數(shù)據(jù)量,希望在數(shù)據(jù)中挖掘出更多信息的時候,一般都可以應(yīng)用成熟的模型進行比較深入的分析,例如,經(jīng)常會面對如下的業(yè)務(wù)場景:
- 預(yù)測產(chǎn)品在未來一年內(nèi)的日活用戶數(shù)會按什么趨勢發(fā)展,預(yù)估DAU;
- 上線了某個營銷活動,預(yù)估活動效果怎么樣,用戶參與度情況;
- 對現(xiàn)有用戶進行細(xì)分,到底哪一類用戶才是目標(biāo)用戶群;
- 一些用戶購買了很多商品后,哪些商品同時被購買的幾率高。
針對于第一個案例,要用到回歸分析,可以理解成幾個自變量通過加減乘除或者比較復(fù)雜的運算得出因變量,例如預(yù)估DAU,因變量是DAU,和他有關(guān)的自變量有新增用戶、老用戶、老用戶留存、回流用戶等,然后根據(jù)歷史數(shù)據(jù),通過回歸分析擬合成一個函數(shù),這樣就可以根據(jù)未來可能的自變量,進一步得出因變量。現(xiàn)在常用的回歸分析主要有線性和非線性回歸、時間序列等。
舉個簡單的例子,通過之前的業(yè)務(wù)支付訂單量要預(yù)測未來的訂單量情況作參考,在排除其他因素干擾的情況下,可以通過簡單的線性回歸根據(jù)支付訂單量的歷史值,進一步擬合出未來90的支付訂單量曲線情況,如下圖2所示。
圖2 ?線性回歸預(yù)測支付訂單量
針對第二個案列,根據(jù)以往活動的數(shù)據(jù),分析活動的各個影響因素在滿足什么情況時才會產(chǎn)生我們想要的效果,并可以根據(jù)有活動時和沒有上線活動時的各項數(shù)據(jù)輸入到系統(tǒng)中,這個函數(shù)就會根據(jù)判斷活動效果會與哪些因素有關(guān),目前常用的分類分析方法有:決策樹、貝葉斯、KNN、神經(jīng)網(wǎng)絡(luò)等。
關(guān)于第三個案例,可以用聚類分析,細(xì)分市場、細(xì)分用戶群里都屬于聚類問題,這樣更方便了解用戶的具體特征,從而針對性的做一些營銷等,常見的聚類分析一般有K均值聚類、分布估計聚類等。
關(guān)于聚類分析,最常用的就是對用戶進行分類,首先,要選取聚類變量,要盡量使用對產(chǎn)品使用行為有影響的變量,但是還是要注意這些變量要在不同研究對象上有明顯差異,這些變量之間又不存在高度相關(guān),例如,年齡、性別、學(xué)歷等。然后,把變量對應(yīng)的數(shù)據(jù)輸入到模型中,選擇一個合適的分類數(shù)目,一般會選拐點附近的幾個類別作為分類數(shù)目,如下圖3。接下來,要觀察各類別用戶在各變量上的表現(xiàn),找出不同類別用戶區(qū)別去其他用戶的重要特征,選取最明顯的幾個特征,最后進行聚類處理。
圖3 R2曲線
關(guān)于第四個案例,要用到關(guān)聯(lián)分析,在電商中的應(yīng)用場景比較大,最經(jīng)典的案例當(dāng)屬啤酒與尿不濕的搭配銷售,常用的關(guān)聯(lián)分析有購物籃分析、屬性關(guān)聯(lián)分析等。
做關(guān)聯(lián)分析一般要理解頻繁項集和關(guān)聯(lián)規(guī)則兩個概念,頻繁項集是經(jīng)常出現(xiàn)在一塊兒的物品的集合,關(guān)聯(lián)規(guī)則暗示兩種物品之間可能存在很強的關(guān)系。
下面用一個例子來說明這兩種概念:例如圖4,給出了某個雜貨店的交易清單。
圖4 訂單交易情況
頻繁項集是指那些經(jīng)常出現(xiàn)在一起的商品集合,圖中的集合{葡萄酒,尿布,豆奶}就是頻繁項集的一個例子。從這個數(shù)據(jù)集中也可以找到諸如尿布->葡萄酒的關(guān)聯(lián)規(guī)則,即如果有人買了尿布,那么他很可能也會買葡萄酒。
另外,為了評估關(guān)聯(lián)分析的效果和可信性,定義了可信度或置信度這兩個概念。規(guī)則{尿布}?{啤酒}的可信度被定義為”支持度({尿布,啤酒})/支持度({尿布})”,由于{尿布,啤酒}的支持度為3/5,尿布的支持度為4/5,所以”尿布?啤酒”的可信度為3/4。這意味著對于包含”尿布”的所有記錄,我們的規(guī)則對其中75%的記錄都適用。
3、自建模型分析
當(dāng)以上兩種分析方法都不能滿足業(yè)務(wù)的分析需求時,這時候就需要自建模型進行分析,例如每個公司的業(yè)務(wù)模式都不太一樣,當(dāng)要分析用戶在生命周期產(chǎn)生的價值(LTV)時,就需要根據(jù)自己的業(yè)務(wù)模式進行自建模型分析,對于一般依靠廣告營收的公司,LTV會與用戶活躍天數(shù)和Arpu(每用戶平均收入)值有關(guān),而Arpu值方面,每個公司都有自己的廣告營收模式,所以Arpu值細(xì)分下去都是不太一樣的。自建模型是為了滿足業(yè)務(wù)需求,將各個指標(biāo)靈活自由組合,從而保證分析的有效性和針對性。
具體來看,定義LTV=平均活躍天數(shù)*Arpu值=平均活躍天數(shù)*(指標(biāo)1* 參數(shù)1 + 指標(biāo)2* 參數(shù)2 + 指標(biāo)3 * 參數(shù)3+……),其實,處了平均活躍天數(shù)需要預(yù)測外,后面的幾個指標(biāo)的值都比較明確,直接輸入固定值就可以。
平均活躍天數(shù)預(yù)測方式:
圖5 留存率曲線
圖6 DAU曲線
如上圖5和6的所示根據(jù)實際留存率和實際ArpuDau進行截斷天數(shù)內(nèi)平均活躍天數(shù)預(yù)測:
(1)INPUT /每日實際留存數(shù),OUTPUT/beta(α,β)曲線,預(yù)測哪一天就根據(jù)beta曲線返回對應(yīng)值【預(yù)測非線性擬合,起始點和終點權(quán)重較大】
對beta曲線目前分為三個partition:
- 樂觀預(yù)估:因ArpuDau持續(xù)上漲導(dǎo)致波動過大,輸出值過大。
- 穩(wěn)健預(yù)估:為保證輸出值穩(wěn)定平滑,進行l(wèi)og導(dǎo)數(shù)限制。
- 當(dāng)前平均預(yù)估:在穩(wěn)健預(yù)估無法輸出有效值時采用此預(yù)估方法,根據(jù)當(dāng)前留存和Arpu值作為重點,對未來進行預(yù)估。
(2)ArpuDau根據(jù)實際情況按公式進行每日計算,一段時間后Arpu值趨于穩(wěn)定。
(3)LTV公式= ∑(留存beta1*Arpu1+留存beta2*Arpu2+….+留存betak*Arpuk),可簡單理解為∑留存beta*∑ArpuDau
k值由模型調(diào)用者決定,660天LTV預(yù)估同樣可由模型調(diào)用者進行修改調(diào)整。
其實,以上的分析方法和思路,數(shù)據(jù)產(chǎn)品經(jīng)理只需要掌握基本的20%就能解決80%的問題,剩下的20%的問題,可以交給更專業(yè)的數(shù)據(jù)分析師們?nèi)ソ鉀Q,當(dāng)然,多學(xué)一些分析方法,對以后的數(shù)據(jù)工作還是很有幫助的。畢竟,數(shù)據(jù)產(chǎn)品和數(shù)據(jù)分析是分不開的,都是基于數(shù)據(jù)需求解決一定問題出發(fā)的,選擇什么方法去解決問題,還是需要具體深入到業(yè)務(wù)中去。
相關(guān)閱讀
數(shù)據(jù)產(chǎn)品經(jīng)理必備技能之BI建設(shè)
本文由 @徐鵬 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Pexels,基于 CC0 協(xié)議
同比跟環(huán)比說的跟找不同似的
大家期待已久的《數(shù)據(jù)產(chǎn)品經(jīng)理實戰(zhàn)訓(xùn)練營》終于上線啦!
本課程非常適合新手?jǐn)?shù)據(jù)產(chǎn)品經(jīng)理,或者想要轉(zhuǎn)崗的產(chǎn)品經(jīng)理、數(shù)據(jù)分析師、研發(fā)、產(chǎn)品運營等人群。
課程會從基礎(chǔ)概念,到核心技能,再通過典型數(shù)據(jù)分析平臺的實戰(zhàn),幫助大家構(gòu)建完整的知識體系,掌握數(shù)據(jù)產(chǎn)品經(jīng)理的基本功。
學(xué)完后你會掌握怎么建指標(biāo)體系、指標(biāo)字典,如何設(shè)計數(shù)據(jù)埋點、保證數(shù)據(jù)質(zhì)量,規(guī)劃大數(shù)據(jù)分析平臺等實際工作技能~
現(xiàn)在就添加空空老師(微信id:anne012520),咨詢課程詳情并領(lǐng)取福利優(yōu)惠吧!
樓主文章中的圖表用的是什么工具啊
入門選手,能加個微信不
作用不大
hi,看到你的分享很棒,騰訊在尋找優(yōu)秀的數(shù)據(jù)產(chǎn)品經(jīng)理,求聯(lián)系,微信號:andymincao,謝謝
微信是多少???方便加個微信唄:2659644553
是嘛是嘛,會給一些福利試用BDP更多功能嘛? ??