細(xì)分十一步,助你構(gòu)建完整的數(shù)據(jù)運(yùn)營體系
數(shù)據(jù)運(yùn)營需要掌握哪些技能?怎樣構(gòu)建屬于自己的數(shù)據(jù)運(yùn)營體系?本文作者用十多年的工作經(jīng)驗(yàn),助你一步一步完善數(shù)據(jù)運(yùn)營體系。
未來30年數(shù)據(jù)將成為生產(chǎn)資料,計(jì)算會(huì)是生產(chǎn)力,互聯(lián)網(wǎng)是一種生產(chǎn)關(guān)系。如果我們不數(shù)據(jù)化,不和互聯(lián)網(wǎng)相連,那么會(huì)比過去30年不通電顯得更為可怕。未來30年,互聯(lián)網(wǎng)將不再是互聯(lián)網(wǎng)公司的互聯(lián)網(wǎng),互聯(lián)網(wǎng)是所有人的互聯(lián)網(wǎng)。如果說過去20年互聯(lián)網(wǎng)從無到有,那么未來30年,互聯(lián)網(wǎng)將“從有到無”,這個(gè)“無”是無處不在的“無”,沒有人能夠離開網(wǎng)絡(luò)而存在。
——馬云,第四屆世界互聯(lián)網(wǎng)大會(huì)
在我的18年的互聯(lián)網(wǎng)行業(yè)工作經(jīng)歷中,很大一部分時(shí)間的工作是數(shù)據(jù)運(yùn)營,從QQ秀到Y(jié)Y語音,再到迅雷,都經(jīng)歷了產(chǎn)品數(shù)據(jù)運(yùn)營的流程優(yōu)化、平臺(tái)構(gòu)建、分析應(yīng)用等過程,親歷了數(shù)據(jù)運(yùn)營在產(chǎn)品成長中發(fā)揮的重要作用。
不少人對(duì)數(shù)據(jù)運(yùn)營的理解,局限于數(shù)據(jù)統(tǒng)計(jì)、原因分析等,其實(shí)這些只是數(shù)據(jù)運(yùn)營工作的一小部分,數(shù)據(jù)最終是為產(chǎn)品服務(wù)的,數(shù)據(jù)運(yùn)營,重點(diǎn)在運(yùn)營,數(shù)據(jù)是載體。
數(shù)據(jù)運(yùn)營是做什么的?個(gè)人的理解是:
推動(dòng)團(tuán)隊(duì)明確產(chǎn)品目標(biāo),定義產(chǎn)品數(shù)據(jù)指標(biāo),創(chuàng)建數(shù)據(jù)上報(bào)通道和規(guī)則流程,高效的推動(dòng)實(shí)現(xiàn)數(shù)據(jù)需求,觀測產(chǎn)品數(shù)據(jù),做好數(shù)據(jù)預(yù)警,分析數(shù)據(jù)變化原因,根據(jù)分析結(jié)果進(jìn)行產(chǎn)品迭代和運(yùn)營,為產(chǎn)品決策提供依據(jù),用數(shù)據(jù)驅(qū)動(dòng)產(chǎn)品和組織成長,達(dá)成組織目標(biāo)。
通俗點(diǎn)說,數(shù)據(jù)運(yùn)營搞清楚以下5個(gè)問題:
1. 我們要做什么?——目標(biāo)數(shù)據(jù)制訂;
2. 現(xiàn)狀是什么?——行業(yè)分析,產(chǎn)品數(shù)據(jù)報(bào)表輸出;
3. 數(shù)據(jù)變化的原因?——數(shù)據(jù)預(yù)警,數(shù)據(jù)變化的原因分析;
4. 未來會(huì)怎樣?——數(shù)據(jù)預(yù)測;
5. 我們應(yīng)該做什么?——決策與數(shù)據(jù)的產(chǎn)品應(yīng)用。
大致梳理了一下數(shù)據(jù)運(yùn)營需要掌握的技能:
上面的這些技能概念較多,其實(shí)最基本的就是,先學(xué)好統(tǒng)計(jì)學(xué),再深入進(jìn)行業(yè)務(wù)實(shí)踐,熟練掌握分析工具,例如最常用的Excel,再多學(xué)一個(gè)數(shù)據(jù)挖掘工具,個(gè)人使用的是SPSS。
SPSS的功能包括數(shù)據(jù)管理、統(tǒng)計(jì)分析、圖表分析、輸出管理等。SPSS統(tǒng)計(jì)分析過程包括描述性統(tǒng)計(jì)、均值比較、一般線性模型、相關(guān)分析、回歸分析、對(duì)數(shù)線性模型、聚類分析、數(shù)據(jù)簡化、生存分析、時(shí)間序列分析、多重響應(yīng)等。
工具不難學(xué),重要的是學(xué)習(xí)統(tǒng)計(jì)學(xué),知道不同場景選用什么分析方法,如何進(jìn)行分析結(jié)果的解讀和應(yīng)用。
后來,我把自己數(shù)據(jù)運(yùn)營工作經(jīng)歷整理了一份企業(yè)構(gòu)建數(shù)據(jù)運(yùn)營體系的層級(jí)圖:
如何才能構(gòu)建一個(gè)完整的產(chǎn)品數(shù)據(jù)運(yùn)營體系?我根據(jù)自己的工作實(shí)踐經(jīng)驗(yàn)進(jìn)行了梳理和總結(jié),整個(gè)過程可以分為如下的11步,供大家參考。
第一步,制訂產(chǎn)品目標(biāo)
這是數(shù)據(jù)運(yùn)營的起點(diǎn),也是產(chǎn)品上線運(yùn)營后進(jìn)行評(píng)估的標(biāo)準(zhǔn),以此形成閉環(huán)。
制訂目標(biāo)絕不能拍腦袋,可以根據(jù)業(yè)務(wù)發(fā)展、行業(yè)發(fā)展、競品分析、往年產(chǎn)品發(fā)展走勢、產(chǎn)品轉(zhuǎn)化規(guī)律等綜合計(jì)算得出。制訂目標(biāo)常用SMART原則來衡量。
1. S代表具體(Specific)
指工作指標(biāo)要具體可評(píng),不能籠統(tǒng)。例如我們制定YY語音基礎(chǔ)體驗(yàn)的產(chǎn)品目標(biāo),如果是提升產(chǎn)品體驗(yàn),則不夠具體,每個(gè)人的理解不一致,當(dāng)時(shí)我們的基礎(chǔ)產(chǎn)品目標(biāo)則是提升新用戶次日留存,則非常具體。
2. M代表可度量(Measurable)
指績效指標(biāo)是數(shù)量化或者行為化的,驗(yàn)證這些績效指標(biāo)的數(shù)據(jù)或者信息是可以獲得的;提升新用戶次日留存率,則需要給出具體的數(shù)值。
3. A代表可實(shí)現(xiàn)(Attainable)
指績效指標(biāo)在付出努力的情況下可以實(shí)現(xiàn),避免設(shè)立過高或過低的目標(biāo);新注冊用戶的次日留存率,也不是拍腦袋得出的,當(dāng)時(shí)我們基于YY新用戶次日留存率的歷史數(shù)據(jù)和游戲用戶的新注冊用戶留存率的行業(yè)參考數(shù)值,制訂了一個(gè)相對(duì)有挑戰(zhàn)性的目標(biāo),從新注冊用戶次日留存率從25%提升到35%。
4. R代表相關(guān)性(Relevant)
是與工作的其它目標(biāo)是相關(guān)聯(lián)的;績效指標(biāo)是與本職工作相關(guān)聯(lián)的;新用戶的次日留存率,和用戶行為息息相關(guān),例如用戶對(duì)語音工具的認(rèn)可程度,用戶對(duì)YY平臺(tái)的內(nèi)容喜好程度等,所以新用戶的次日留存和產(chǎn)品的性能、內(nèi)容受歡迎程有較強(qiáng)的相關(guān)性。
5. T代表有時(shí)限(Time-bound)
注重完成目標(biāo)的特定期限。
產(chǎn)品目標(biāo)可以這樣制訂:在2013年12月31日前,將YY語音新注冊用戶的次日留存率從25%提升到35%。
新用戶次日留存率的提升,意味著更多用戶的活躍轉(zhuǎn)化,帶動(dòng)整個(gè)用戶活躍數(shù)量的增長。
這里需要注意,需要洞察目標(biāo)背后的本質(zhì),不能唯數(shù)據(jù)論,例如我做過的提高YY語音新注冊用戶留存率的項(xiàng)目,如果只是看留存率的數(shù)據(jù)變化,是很容易達(dá)到的。
記得當(dāng)時(shí)我用的一個(gè)方法是用戶分類,把不同渠道、不同行為的用戶進(jìn)行分類,發(fā)現(xiàn)有部分垃圾新用戶大大影響了整體留存率數(shù)據(jù),這部分用戶很多是機(jī)器注冊產(chǎn)生,并非真正的用戶,剔除掉這部分用戶,留存數(shù)據(jù)高了很多,但這不能說,我們就完成了任務(wù)。因?yàn)檫@個(gè)目標(biāo)的背后,實(shí)際是需要獲得活躍用戶的增長,新用戶留存率,只是一個(gè)數(shù)據(jù)體現(xiàn),所以不能只看新用戶留存率這個(gè)單一指標(biāo),必須從提高新用戶注冊數(shù)量、有效用戶留存、用戶活躍、付費(fèi)轉(zhuǎn)化等多個(gè)指標(biāo)來衡量工作價(jià)值。
第二步,定義產(chǎn)品數(shù)據(jù)指標(biāo)
沿著上面的目標(biāo)制訂,就需要考慮數(shù)據(jù)指標(biāo),上門的案例,我們給出的目標(biāo)是新用戶留存率,做好了新用戶留存率,需要去判斷這個(gè)數(shù)據(jù)指標(biāo)的實(shí)現(xiàn)是否真的促進(jìn)了整個(gè)產(chǎn)品活躍用戶的增長。
產(chǎn)品數(shù)據(jù)指標(biāo)是反應(yīng)產(chǎn)品健康發(fā)展的具體的數(shù)值,我們需要對(duì)數(shù)據(jù)指標(biāo)給出明確定義,還包括數(shù)據(jù)上報(bào)方法、計(jì)算公式等。
例如上文的次日留存率,可以定義為:次日留存率是一個(gè)比率,分母是當(dāng)天新注冊并在當(dāng)天登錄YY客戶端的YY帳戶數(shù),分子是分母當(dāng)中在第二天再次登錄YY客戶端的YY帳戶數(shù)。
注意這里的細(xì)節(jié),第一天和第二天,需要有明確的時(shí)間點(diǎn),例如0點(diǎn)到24點(diǎn),計(jì)算為一天;問題來了,一個(gè)新用戶在第一天的23點(diǎn)注冊并登錄YY客戶端,到第二天的凌晨1點(diǎn)下線;按照上面的定義,這個(gè)用戶或許將不會(huì)被記錄為次日留存用戶,因?yàn)檫@里沒有定義清楚數(shù)據(jù)上報(bào)細(xì)節(jié)。
定義是第二天再次登錄YY客戶端,上面案例的用戶在第二天是沒有登錄行為的,但他確實(shí)是連續(xù)兩天都在登錄狀態(tài)的用戶。
所以針對(duì)這個(gè)定義,需要補(bǔ)充細(xì)節(jié):用戶登錄狀態(tài),如果是5分鐘進(jìn)行一次心跳包的上報(bào),那么這位新用戶就可以被上報(bào)為第二天的登錄狀態(tài)用戶,如果在0點(diǎn)5分之前下線之后,持續(xù)到第二天的24點(diǎn),仍未有登錄狀態(tài),那么將不被記錄為留存用戶。
我們根據(jù)產(chǎn)品目標(biāo)來選擇數(shù)據(jù)指標(biāo),例如網(wǎng)頁產(chǎn)品,經(jīng)常用PV、UV、崩失率、人均PV、停留時(shí)長等數(shù)據(jù)進(jìn)行產(chǎn)品度量。定義產(chǎn)品指標(biāo)體系,需要產(chǎn)品、開發(fā)等各個(gè)團(tuán)隊(duì)達(dá)成共識(shí),數(shù)據(jù)指標(biāo)的定義是清晰的,并且有據(jù)可查,不會(huì)引起數(shù)據(jù)解讀的理解差異。
產(chǎn)品在不同生命周期,關(guān)注的數(shù)據(jù)指標(biāo)側(cè)重點(diǎn)也會(huì)不同,下表大致列出了一些各個(gè)階段需要重點(diǎn)關(guān)注的指標(biāo),除了常見的用戶指標(biāo)、收入指標(biāo),我們還必須重視技術(shù)層面的性能指標(biāo)。
好的數(shù)據(jù)指標(biāo),有五個(gè)要點(diǎn)可供參考:
(1)能夠反映用戶需求的滿足、產(chǎn)品核心價(jià)值以及發(fā)展趨勢。這些指標(biāo)變好了能說明公司是在往好的方向上發(fā)展。
(2)好的數(shù)據(jù)指標(biāo)是可比較的。比較在不同的時(shí)間段,用戶群體,競爭產(chǎn)品之間的表現(xiàn),可以更好的洞察產(chǎn)品的實(shí)際走向。
(3)易懂、可控。很容易地理解、記住,方便統(tǒng)計(jì)。
(4)好的數(shù)據(jù)指標(biāo)多數(shù)時(shí)候是一個(gè)比率。
(5)指標(biāo)隨業(yè)務(wù)而進(jìn)化。不同階段的關(guān)鍵性指標(biāo)應(yīng)該是隨著業(yè)務(wù)的變化而變化的。
第三步,構(gòu)建產(chǎn)品數(shù)據(jù)指標(biāo)體系
在數(shù)據(jù)指標(biāo)提出的基礎(chǔ)上,我們按照產(chǎn)品邏輯進(jìn)行指標(biāo)的歸納整理,使之條理化。
新用戶的次日留存率是我們訂制的一個(gè)核心目標(biāo),但實(shí)際上,只看次日留存率還是不夠的,還需要綜合考察影響用戶留存率的多種因素,才能更準(zhǔn)確的了解產(chǎn)品的健康發(fā)展。如圖1所示,是常用的一種指標(biāo)體系,包含:用戶新增、用戶活躍、付費(fèi)、其他數(shù)據(jù)。
圖1 互聯(lián)網(wǎng)產(chǎn)品常用數(shù)據(jù)指標(biāo)體系
在我們做YY語音客戶端產(chǎn)品的時(shí)候,會(huì)用到下面的指標(biāo)體系,包括:賬號(hào)體系、關(guān)系鏈數(shù)據(jù)、狀態(tài)感知數(shù)據(jù)、溝通能力等四大方面。具體指標(biāo)有:好友的個(gè)數(shù)分布、觀看頻道節(jié)目的時(shí)長、IM聊天時(shí)長、個(gè)人狀態(tài)的切換與時(shí)長等,如圖2所示:
圖2 IM即時(shí)通訊產(chǎn)品數(shù)據(jù)指標(biāo)體系
第四步,提出產(chǎn)品數(shù)據(jù)需求
產(chǎn)品指標(biāo)體系的建立不是一蹴而就的,產(chǎn)品經(jīng)理根據(jù)產(chǎn)品發(fā)展的不同階段,有所側(cè)重的進(jìn)行數(shù)據(jù)需求的提出,一般的公司都會(huì)有產(chǎn)品需求文檔的模板,方便產(chǎn)品和數(shù)據(jù)上報(bào)開發(fā)、數(shù)據(jù)平臺(tái)等部門同事溝通,進(jìn)行數(shù)據(jù)建設(shè)。
創(chuàng)業(yè)型中小企業(yè),產(chǎn)品數(shù)據(jù)的需求提出到上報(bào)或許就是1-2人的事情,但同樣建議做好數(shù)據(jù)文檔的建設(shè),例如數(shù)據(jù)指標(biāo)的定義,數(shù)據(jù)計(jì)算邏輯等。
圖3是我在YY語音客戶端團(tuán)隊(duì)建立的基礎(chǔ)產(chǎn)品數(shù)據(jù)需求實(shí)現(xiàn)流程。其實(shí)在大多數(shù)時(shí)候,并不需要這么一個(gè)數(shù)據(jù)需求流程,只是當(dāng)時(shí)我們在數(shù)據(jù)需求剛剛開始進(jìn)行規(guī)范化,數(shù)據(jù)需求評(píng)審過程,也是培訓(xùn)過程,讓更多同事有數(shù)據(jù)意識(shí),到后面,數(shù)據(jù)需求是融入到產(chǎn)品需求流程的。
圖3 YY事業(yè)部基礎(chǔ)產(chǎn)品數(shù)據(jù)需求實(shí)現(xiàn)流程圖(施行)
常見的數(shù)據(jù)上報(bào)需求,有兩類:
1. 標(biāo)準(zhǔn)協(xié)議上報(bào),例如按鈕點(diǎn)擊上報(bào);
2. 自定義協(xié)議上報(bào)。
(1)標(biāo)準(zhǔn)協(xié)議上報(bào)數(shù)據(jù)需求范例
表1 標(biāo)準(zhǔn)協(xié)議上報(bào)數(shù)據(jù)需求范例模板
(2)自定義協(xié)議上報(bào)數(shù)據(jù)需求范例
表2 自定義協(xié)議上報(bào)數(shù)據(jù)需求范例模板
報(bào)名名稱:YY事業(yè)部——基礎(chǔ)產(chǎn)品組——游戲直播運(yùn)營日報(bào)。
第五步,上報(bào)數(shù)據(jù)
這個(gè)步驟就是開發(fā)根據(jù)產(chǎn)品經(jīng)理的數(shù)據(jù)需求,按照數(shù)據(jù)上報(bào)規(guī)范,完成上報(bào)開發(fā),將數(shù)據(jù)上報(bào)到數(shù)據(jù)服務(wù)器。
上報(bào)數(shù)據(jù)的關(guān)鍵是數(shù)據(jù)上報(bào)通道的建設(shè),原來在騰訊工作時(shí)候,沒有體會(huì)到這個(gè)環(huán)節(jié)的艱辛,因?yàn)閿?shù)據(jù)平臺(tái)部門已經(jīng)做了完備的數(shù)據(jù)通道搭建,開發(fā)按照一定規(guī)則,使用統(tǒng)一的數(shù)據(jù)SDK進(jìn)行數(shù)據(jù)上報(bào)就可以了。
后來在YY,屬于發(fā)展型公司,則是從上報(bào)通道開始進(jìn)行建設(shè),也讓我得到更多鍛煉提升的機(jī)會(huì)。其中很關(guān)鍵的一個(gè)環(huán)節(jié),就是數(shù)據(jù)上報(bào)測試,曾經(jīng)因?yàn)樵摥h(huán)節(jié)的測試資源沒到位,造成不必要的麻煩。
很多創(chuàng)業(yè)公司沒有自己的數(shù)據(jù)平臺(tái),可以利用第三方的數(shù)據(jù)平臺(tái):網(wǎng)頁產(chǎn)品,可以使用百度統(tǒng)計(jì)(#baidu.com);移動(dòng)端產(chǎn)品,可以使用友盟(www.umeng.com)、TalkingData(www.talkingdata.com)等平臺(tái)。
例如下表,就是頁面流量數(shù)據(jù)上報(bào)的發(fā)送函數(shù)send_web_pv,源于迅雷哈勃數(shù)據(jù)平臺(tái)規(guī)范。
表3 頁面流量數(shù)據(jù)上報(bào)的發(fā)送函數(shù)send_web_pv
下表是某直播做APP數(shù)據(jù)上報(bào)的埋點(diǎn)范例。(數(shù)據(jù)埋點(diǎn),就是在功能邏輯中添加統(tǒng)計(jì)邏輯)。
表4 某直播APP數(shù)據(jù)上報(bào)范例
目前也有無埋點(diǎn)的數(shù)據(jù)上報(bào)方式,參見這篇文章《揭開GrowingIO無埋點(diǎn)的神秘面紗》。
第六-八步,數(shù)據(jù)采集與接入、存儲(chǔ)、調(diào)度與運(yùn)算
每一步都是一門學(xué)問,例如采集數(shù)據(jù)涉及接口創(chuàng)建,要考慮數(shù)據(jù)字段的拓展性,數(shù)據(jù)采集過程中的ETL數(shù)據(jù)清洗流程,客戶端數(shù)據(jù)上報(bào)的正確性校驗(yàn)等;數(shù)據(jù)存儲(chǔ)與調(diào)度、運(yùn)算,在大數(shù)據(jù)時(shí)代,更是很有挑戰(zhàn)性的技術(shù)活。
1. 數(shù)據(jù)的采集與接入
ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。
ETL一詞較常用在數(shù)據(jù)倉庫,但其對(duì)象并不限于數(shù)據(jù)倉庫。ETL是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。
下圖是產(chǎn)品數(shù)據(jù)體系的一個(gè)常見流程圖,數(shù)據(jù)采集、存儲(chǔ)、運(yùn)算,通常就在圖中的數(shù)據(jù)中心完成。
圖4 數(shù)據(jù)體系流程
確認(rèn)完數(shù)據(jù)上報(bào)之后,接下來幾個(gè)事情就比較偏技術(shù)化了。首先需要上報(bào)的數(shù)據(jù)通過什么樣的方式采集和存儲(chǔ)到我們的數(shù)據(jù)中心。
數(shù)據(jù)采集分為兩步,第一步從業(yè)務(wù)系統(tǒng)上報(bào)到服務(wù)器,這部分主要是通過cgi或者后臺(tái)server,通過統(tǒng)一的logAPI調(diào)用之后,匯總在logServer中進(jìn)行原始流水?dāng)?shù)據(jù)的存儲(chǔ)。當(dāng)這部分?jǐn)?shù)據(jù)量大了之后,需要考慮用分布式的文件存儲(chǔ)來做,外部常用的分布式文件存儲(chǔ)主要是HDFS。這里就不細(xì)展開。
圖5 原始數(shù)據(jù)上報(bào)存儲(chǔ)到文件的架構(gòu)圖
數(shù)據(jù)存儲(chǔ)到文件之后,第二步就進(jìn)入到ETL的環(huán)節(jié),ETL就是指通過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)把日志從文本中,基于分析的需求和數(shù)據(jù)緯度進(jìn)行清洗,然后存儲(chǔ)在數(shù)據(jù)倉庫中。
以騰訊為例子:
騰訊大數(shù)據(jù)平臺(tái)現(xiàn)在主要從離線和實(shí)時(shí)兩個(gè)方向支撐海量數(shù)據(jù)接入和處理,核心的系統(tǒng)包括TDW、TRC和TDbank。
圖6 騰訊數(shù)據(jù)平臺(tái)系統(tǒng)
騰訊數(shù)據(jù)平臺(tái)的數(shù)據(jù)收集、分發(fā)、預(yù)處理和管理工作,都是通過一個(gè)TDBank的平臺(tái)來實(shí)現(xiàn)的。整個(gè)平臺(tái)主要解決在大數(shù)據(jù)量下面數(shù)據(jù)收集和處理的量大、實(shí)時(shí)、多樣的問題。通過數(shù)據(jù)接入層、處理層和存儲(chǔ)層這樣的三層架構(gòu)來統(tǒng)一解決接入和存儲(chǔ)的問題。
(1)接入層
接入層可以支持各種格式的業(yè)務(wù)數(shù)據(jù)和數(shù)據(jù)源,包括不同的DB、文件格式、消息數(shù)據(jù)等。數(shù)據(jù)接入層會(huì)將收集到的各種數(shù)據(jù)統(tǒng)一成一種內(nèi)部的數(shù)據(jù)協(xié)議,方便后續(xù)數(shù)據(jù)處理系統(tǒng)使用。
(2)處理層
接下來處理層用插件化的形式來支持多種形式的數(shù)據(jù)預(yù)處理過程。對(duì)于離線系統(tǒng)來說,一個(gè)重要的功能是將實(shí)時(shí)采集到的數(shù)據(jù)進(jìn)行分類存儲(chǔ),需要按照某些維度(比如某個(gè)key值+時(shí)間等維度)進(jìn)行分類存儲(chǔ);同時(shí)存儲(chǔ)文件的粒度(大小/時(shí)間)也是需要定制的,使離線系統(tǒng)能以指定的的粒度來進(jìn)行離線計(jì)算。對(duì)于在線系統(tǒng)來說,常見的預(yù)處理過程如數(shù)據(jù)過濾、數(shù)據(jù)采樣和數(shù)據(jù)轉(zhuǎn)換等。
(3)數(shù)據(jù)存儲(chǔ)層
處理后的數(shù)據(jù),使用HDFS作為離線文件的存儲(chǔ)載體。保證數(shù)據(jù)存儲(chǔ)整體上是可靠的,然后最終把這部分處理后的數(shù)據(jù),入庫到騰訊內(nèi)部的分布式數(shù)據(jù)倉庫TDW。
圖7 TDW架構(gòu)圖
TDBank是從業(yè)務(wù)數(shù)據(jù)源端實(shí)時(shí)采集數(shù)據(jù),進(jìn)行預(yù)處理和分布式消息緩存后,按照消息訂閱的方式,分發(fā)給后端的離線和在線處理系統(tǒng)。
圖8 TDBank數(shù)據(jù)采集與接入系統(tǒng)
TDBank構(gòu)建數(shù)據(jù)源和數(shù)據(jù)處理系統(tǒng)間的橋梁,將數(shù)據(jù)處理系統(tǒng)同數(shù)據(jù)源解耦,為離線計(jì)算TDW和在線計(jì)算TRC平臺(tái)提供數(shù)據(jù)支持。目前通過不斷的改進(jìn),將以前Linux+HDFS的模式,轉(zhuǎn)變?yōu)榧?分布式消息隊(duì)列的模式,將以前一天才能處理的消息量縮短到2秒鐘!
從實(shí)際應(yīng)用來看,產(chǎn)品在考慮數(shù)據(jù)采集和接入的時(shí)候,主要要關(guān)心幾個(gè)緯度的問題:
- 多個(gè)數(shù)據(jù)源的統(tǒng)一,一般實(shí)際的應(yīng)用過程中,都存在不同的數(shù)據(jù)格式來源,這個(gè)時(shí)候,采集和接入這部分,需要把這些數(shù)據(jù)源進(jìn)行統(tǒng)一的轉(zhuǎn)化。
- 采集的實(shí)時(shí)高效,由于大部分系統(tǒng)都是在線系統(tǒng),對(duì)于數(shù)據(jù)采集的時(shí)效性要求會(huì)比較高。
- 臟數(shù)據(jù)處理,對(duì)于一些會(huì)影響整個(gè)分析統(tǒng)計(jì)的臟數(shù)據(jù),需要在接入層的時(shí)候進(jìn)行邏輯屏蔽,避免后面統(tǒng)計(jì)分析和應(yīng)用的時(shí)候,由于這部分?jǐn)?shù)據(jù)導(dǎo)致很多不可預(yù)知的問題。
2. 數(shù)據(jù)的存儲(chǔ)與計(jì)算
完成數(shù)據(jù)上報(bào)和采集和接入之后,數(shù)據(jù)就進(jìn)入存儲(chǔ)的環(huán)節(jié),繼續(xù)以騰訊為例。
在騰訊內(nèi)部,有個(gè)分布式的數(shù)據(jù)倉庫用來存儲(chǔ)數(shù)據(jù),內(nèi)部代號(hào)叫做TDW,它支持百PB級(jí)數(shù)據(jù)的離線存儲(chǔ)和計(jì)算,為業(yè)務(wù)提供海量、高效、穩(wěn)定的大數(shù)據(jù)平臺(tái)支撐和決策支持?;陂_源軟件Hadoop和Hive進(jìn)行構(gòu)建,并且根據(jù)公司數(shù)據(jù)量大、計(jì)算復(fù)雜等特定情況進(jìn)行了大量優(yōu)化和改造。
從對(duì)外公布的資料來看,TDW基于開源軟件hadoop和hive進(jìn)行了大量優(yōu)化和改造,已成為騰訊最大的離線數(shù)據(jù)處理平臺(tái),集群各類機(jī)器總數(shù)5000臺(tái),總存儲(chǔ)突破20PB,日均計(jì)算量超過500TB,覆蓋騰訊公司90%以上的業(yè)務(wù)產(chǎn)品,包含廣點(diǎn)通推薦,用戶畫像,數(shù)據(jù)挖掘和各類業(yè)務(wù)報(bào)表等,都是通過這個(gè)平臺(tái)來提供基礎(chǔ)能力。
圖8 騰訊TDW分布式數(shù)據(jù)倉庫
圖9 TDW業(yè)務(wù)示意圖
從實(shí)際應(yīng)用來看,數(shù)據(jù)存儲(chǔ)這部分主要考慮幾個(gè)問題:
- 數(shù)據(jù)安全性,很多數(shù)據(jù)是不可恢復(fù)的,所以數(shù)據(jù)存儲(chǔ)的安全可靠永遠(yuǎn)是最重要的。一定要投入最多的精力來關(guān)注。
- 數(shù)據(jù)計(jì)算和提取的效率,做為存儲(chǔ)源,后面會(huì)面臨很多數(shù)據(jù)查詢和提取分析的工作,這部分的效率需要確保。
- 數(shù)據(jù)一致性,存儲(chǔ)的數(shù)據(jù)主備要保證一致性。
這一步的關(guān)鍵,企業(yè)要構(gòu)建自己的私有數(shù)據(jù)平臺(tái),就是找到有數(shù)據(jù)平臺(tái)開發(fā)經(jīng)驗(yàn)的架構(gòu)師、工程師,事半功倍,當(dāng)然,如果是中小企業(yè),直接用云產(chǎn)品吧,效率更高。
第九步:獲取數(shù)據(jù)
就是產(chǎn)品經(jīng)理,數(shù)據(jù)分析人員從數(shù)據(jù)系統(tǒng)獲得數(shù)據(jù)的過程,常見的方式是數(shù)據(jù)報(bào)表和數(shù)據(jù)提取。
報(bào)表的格式,一般會(huì)在數(shù)據(jù)需求階段明確,尤其是有積累的公司,通常會(huì)有報(bào)表模板,照著填入指標(biāo)就好了。強(qiáng)大一些的數(shù)據(jù)平臺(tái),則可以根據(jù)分析需要,自助的選擇字段(表頭)進(jìn)行自助報(bào)表的配置和計(jì)算生成。
下面是做數(shù)據(jù)報(bào)表設(shè)計(jì)的幾個(gè)原則:
1. 提供連續(xù)周期的查詢功能
(1)報(bào)表要提供查詢的起始時(shí)間,可以查看指定時(shí)間范圍內(nèi)的數(shù)據(jù)。忌諱只有一個(gè)時(shí)間點(diǎn),無法看數(shù)據(jù)的趨勢。
(2)對(duì)一段時(shí)間范圍內(nèi)的數(shù)據(jù)能夠分段或匯總,能夠?qū)Σ煌A段進(jìn)行比較。
2. 查詢條件與維度相匹配
(1)有多少個(gè)維度,就提供多少個(gè)對(duì)應(yīng)的查詢條件。盡量滿足每個(gè)維度都能分析。
(2)查詢條件要提供開、合,以及具體值的過濾功能。既能看總體,又能看明細(xì),還要能看單一。
(3)查詢條件的順序,盡量與維度的順序?qū)?yīng),最好按從大到小的層次。
3. 圖表與數(shù)據(jù)要一致
(1)圖表顯示的趨勢,要與相應(yīng)的數(shù)據(jù)一致,避免數(shù)據(jù)有異議;
(2)有圖就必須有數(shù)據(jù),但是,有數(shù)據(jù)可以沒有圖;
(3)圖表內(nèi)的指標(biāo)不要太多,并且指標(biāo)間的差距不要太大。
4. 報(bào)表要單一
(1)一張報(bào)表,只做一份分析功能,多個(gè)功能盡量拆到不同的表報(bào)中;
(2)在報(bào)表中盡量不要有跳轉(zhuǎn);
(3)報(bào)表只提供查詢功能。
看幾張常用報(bào)表,WEB產(chǎn)品的流量報(bào)表,來自百度,關(guān)注PV、UV、新訪客比率、跳出率、平均訪問時(shí)長等。
專門說一下跳出率,這個(gè)數(shù)據(jù)反應(yīng)了用戶進(jìn)入網(wǎng)站的著陸頁(不一定是首頁)價(jià)值,是否可以吸引用戶進(jìn)行一次點(diǎn)擊,如果用戶達(dá)到著陸頁,沒有任何點(diǎn)擊,則跳出率增大。
圖10 百度統(tǒng)計(jì)的網(wǎng)頁數(shù)據(jù)報(bào)表
再看友盟數(shù)據(jù)平臺(tái)提供的產(chǎn)品留存率數(shù)據(jù)報(bào)表,通常關(guān)注的留存率有:1天后留存、7天后留存、30天后留存。
圖11 友盟的留存數(shù)據(jù)報(bào)表
數(shù)據(jù)提取,在做產(chǎn)品運(yùn)營中,是很常見的需求,例如提取某一批銷量較好的商品及其相關(guān)字段,提取某一批指定條件的用戶等。同樣,功能比較完備的數(shù)據(jù)平臺(tái),會(huì)有數(shù)據(jù)自助提取系統(tǒng),不能滿足自助需求,則需要數(shù)據(jù)開發(fā)寫腳本進(jìn)行數(shù)據(jù)提取。
第十步:觀測和分析數(shù)據(jù)
這里主要是數(shù)據(jù)變化的監(jiān)控和統(tǒng)計(jì)分析,通常我們會(huì)對(duì)數(shù)據(jù)進(jìn)行自動(dòng)化的日報(bào)表輸出,并標(biāo)識(shí)異動(dòng)數(shù)據(jù),數(shù)據(jù)的可視化輸出很重要。
數(shù)據(jù)分析常用于:了解產(chǎn)品現(xiàn)狀,了解發(fā)展趨勢,發(fā)現(xiàn)問題,認(rèn)清用戶,營銷推廣。
常用的軟件是EXCEL和SPSS,可以說是進(jìn)行數(shù)據(jù)分析的基本技能,以后再分享個(gè)人在實(shí)際工作中對(duì)這兩款軟件的使用方法和技巧。需要注意的是,在進(jìn)行數(shù)據(jù)分析之前,先進(jìn)行數(shù)據(jù)準(zhǔn)確性的校驗(yàn),判斷這些數(shù)據(jù)是否是你想要的,例如從數(shù)據(jù)定義到上報(bào)邏輯,是否嚴(yán)格按照需求文檔進(jìn)行,數(shù)據(jù)的上報(bào)通道是否會(huì)有數(shù)據(jù)丟包的可能,建議進(jìn)行原始數(shù)據(jù)的提取抽樣分析判斷數(shù)據(jù)準(zhǔn)確性。
數(shù)據(jù)解讀在這個(gè)環(huán)節(jié)至關(guān)重要,同一份數(shù)據(jù),由于產(chǎn)品熟悉度和分析經(jīng)驗(yàn)的差異,解讀結(jié)果也大不一樣,因此產(chǎn)品分析人員,必須對(duì)產(chǎn)品和用戶相當(dāng)了解。
絕對(duì)數(shù)值通常難以進(jìn)行數(shù)據(jù)解讀,通常都是通過比較,才更能表達(dá)數(shù)據(jù)含義。
例如某產(chǎn)品上線后的第一周,日均新增注冊10萬人,看起來數(shù)據(jù)不錯(cuò),但是如果這款產(chǎn)品是YY語音推出的新產(chǎn)品,并且通過YY彈窗消息進(jìn)行用戶觸達(dá),每天千萬次的用戶曝光,僅僅帶來10萬新增,則算不上是較好的產(chǎn)品數(shù)據(jù)。
圖13 通過比較更清晰表達(dá)數(shù)據(jù)含義
縱向比較,例如分析YY語音新注冊用戶的數(shù)據(jù)變化,那么可以和上周同期、上月同期、去年同期進(jìn)行對(duì)比,是否有相似的數(shù)據(jù)變化規(guī)律。
橫向比較,同樣是YY語音新用戶注冊數(shù)據(jù)的變化,可以從漏斗模型進(jìn)行分析,從用戶來源的不同渠道去看每個(gè)渠道的轉(zhuǎn)化率是否有變化,例如最上層漏斗,用戶觸達(dá)渠道有無哪個(gè)數(shù)據(jù)有較大變化,哪個(gè)渠道的某個(gè)環(huán)節(jié)有轉(zhuǎn)化率的數(shù)據(jù)變化。還可以進(jìn)行不同業(yè)務(wù)的橫向比較,例如YY語音新增注冊數(shù)據(jù)、多玩網(wǎng)流量數(shù)據(jù)、YY游戲新增注冊用戶數(shù)據(jù)進(jìn)行對(duì)比,查找數(shù)據(jù)變化原因。
縱橫結(jié)合對(duì)比,就是把多個(gè)數(shù)據(jù)變化的同一周期時(shí)間段曲線進(jìn)行對(duì)比,例如YY新增注冊用戶、多玩網(wǎng)的流量數(shù)據(jù)、YY游戲新增注冊用戶的半年數(shù)據(jù)變化,三條曲線同時(shí)進(jìn)行對(duì)比,找出某個(gè)數(shù)據(jù)異常的關(guān)鍵節(jié)點(diǎn),再查找運(yùn)營日志,看看有無運(yùn)營活動(dòng)的組織、有無外部事件的影響、有無特殊日子的影響因素。
數(shù)據(jù)分析結(jié)果的輸出,通常采用直觀的可視化展現(xiàn)方式,選擇一種合理的圖表,使得分析結(jié)果更直觀。
推薦兩個(gè)實(shí)用的可視化工具:
百度圖說:https://tushuo.baidu.com
文字云圖:https://wordart.com
自定義圖片生成個(gè)性化文字云圖。
關(guān)于文字云圖的攻略文章:
文字云圖攻略(二):自定義圖形做個(gè)性文字云圖
第十一步:產(chǎn)品評(píng)估與數(shù)據(jù)應(yīng)用
這是數(shù)據(jù)運(yùn)營閉環(huán)的終點(diǎn),同時(shí)也是新的起點(diǎn),數(shù)據(jù)報(bào)表絕不是擺設(shè),也不是應(yīng)付領(lǐng)導(dǎo)的提問,而是切實(shí)的為產(chǎn)品優(yōu)化和運(yùn)營的開展服務(wù),正如產(chǎn)品人員的績效,不僅僅是看產(chǎn)品項(xiàng)目是否按時(shí)完成,按時(shí)發(fā)布,更是要持續(xù)進(jìn)行產(chǎn)品數(shù)據(jù)的觀測分析,評(píng)估產(chǎn)品健康度,同時(shí)將積累的數(shù)據(jù)應(yīng)用到產(chǎn)品設(shè)計(jì)和運(yùn)營環(huán)節(jié),例如亞馬遜的個(gè)性化推薦產(chǎn)品,例如QQ音樂的猜你喜歡,例如淘寶的時(shí)光機(jī),例如今日頭條的推薦閱讀等等。數(shù)據(jù)產(chǎn)品應(yīng)用,大致可以分為以下幾類:
(1)以效果廣告為代表的精準(zhǔn)營銷
推薦周期短,實(shí)時(shí)性要求高;用戶短期興趣和即時(shí)行為影響力大;投放場景上下文和訪問人群特性。
產(chǎn)品案例:谷歌、Facebook、微信朋友圈。
下圖是微信的用戶數(shù)據(jù)定向能力,可以從地域、性別年齡、手機(jī)、婚戀、學(xué)歷等多維度進(jìn)行用戶精準(zhǔn)定位:
微信朋友圈廣告,雖然很多人說買不起,但很多時(shí)候是你想不想買,隨著數(shù)據(jù)積累,廣告會(huì)越來越精準(zhǔn)。
(2)以音頻、視頻推薦為代表的內(nèi)容推薦
長期興趣的累積影響力大;時(shí)段和熱點(diǎn)事件;多維度內(nèi)容相關(guān)性很重要。
產(chǎn)品案例:Youtube、網(wǎng)易云音樂、抖音、QQ音樂
下圖是抖音給我推薦的小姐姐、馬云、風(fēng)景,大體符合我這個(gè)40歲大叔、互聯(lián)網(wǎng)從業(yè)者、旅游愛好者的喜歡。
(3)以電商推薦為代表的購物推薦
長期+短期興趣+即時(shí)行為綜合;最貼近現(xiàn)實(shí),季節(jié)與用戶生活信息很關(guān)鍵;追求下單與成交,支付相關(guān)。
產(chǎn)品案例:亞馬遜、淘寶、京東。
下圖是淘寶給我的推薦,大致符合一個(gè)男性用戶、家有小朋友、喜歡戶外運(yùn)動(dòng)的用戶的產(chǎn)品推薦。
總結(jié)
最后,一張圖小結(jié)數(shù)據(jù)運(yùn)營11步:
圖14 數(shù)據(jù)運(yùn)營11步
從制訂產(chǎn)品目標(biāo)到最后基于目標(biāo)進(jìn)行產(chǎn)品評(píng)估與運(yùn)營優(yōu)化,形成數(shù)據(jù)運(yùn)營閉環(huán)。這個(gè)流程和規(guī)范,需要各個(gè)部門都能統(tǒng)一意識(shí),每個(gè)產(chǎn)品終端都能按照規(guī)范流程將數(shù)據(jù)統(tǒng)一上報(bào),建立公司級(jí)的統(tǒng)一數(shù)據(jù)中心,進(jìn)行數(shù)據(jù)倉庫建設(shè),才有可能將數(shù)據(jù)價(jià)值最大化,讓數(shù)據(jù)成為生產(chǎn)力。
再從組織落地方面小結(jié)產(chǎn)品數(shù)據(jù)運(yùn)營體系構(gòu)建,可以從以下五大要素進(jìn)行考慮:
(1)人:專職的數(shù)據(jù)運(yùn)營同事
專職的專業(yè)的產(chǎn)品同事,負(fù)責(zé)建立產(chǎn)品數(shù)據(jù)體系的流程化、標(biāo)準(zhǔn)化,沉淀經(jīng)驗(yàn),推動(dòng)體系的持續(xù)優(yōu)化發(fā)展;專職的專業(yè)的開發(fā)同事,負(fù)責(zé)數(shù)據(jù)上報(bào),報(bào)表開發(fā),數(shù)據(jù)庫開發(fā)維護(hù)等工作,保證產(chǎn)品數(shù)據(jù)體系的開發(fā)實(shí)現(xiàn)。
(2)數(shù)據(jù)后臺(tái):全面系統(tǒng)的數(shù)據(jù)倉庫
有一個(gè)專門的統(tǒng)一數(shù)據(jù)倉庫記錄自己產(chǎn)品的特殊個(gè)性數(shù)據(jù),共性數(shù)據(jù)充分利用數(shù)據(jù)平臺(tái)部公用接口獲取,共享數(shù)據(jù)源,充分降低成本。
(3)數(shù)據(jù)前臺(tái):固化數(shù)據(jù)體系展現(xiàn)平臺(tái)
需要專業(yè)的報(bào)表開發(fā)同事, 體系化思考報(bào)表系統(tǒng),靈活迭代執(zhí)行,而不是簡單的承接報(bào)表需求,造成報(bào)表泛濫。
(4)工作規(guī)范:需求實(shí)現(xiàn)流程化
就是前面描述的11步構(gòu)建產(chǎn)品數(shù)據(jù)體系的流程和方法,其中的數(shù)據(jù)需求把握好兩點(diǎn),一是固化需求開發(fā)流程化,二是臨時(shí)需求工具化。
(5)工作產(chǎn)出:數(shù)據(jù)應(yīng)用
常規(guī)的數(shù)據(jù)工作就是各種數(shù)據(jù)分析,輸出日報(bào)、周報(bào)、月報(bào);基于數(shù)據(jù)分析基礎(chǔ)上進(jìn)行決策依據(jù)提供。進(jìn)行數(shù)據(jù)產(chǎn)品開發(fā),例如精準(zhǔn)推薦、用戶生命周期管理等產(chǎn)品策劃。
以上內(nèi)容是我多年工作實(shí)踐的小結(jié),在此也感謝很多和我共事過的數(shù)據(jù)工作同事給了很多幫助:恭偉、暢波、春哥、夏聰、宇聞、志華、敬宓、小衛(wèi)、堅(jiān)裕等。
#專欄作家#
Blues,微信公眾號(hào):BLUEMIDOU,人人都是產(chǎn)品經(jīng)理專欄作家,迅雷產(chǎn)品總監(jiān),原YY語音、騰訊高級(jí)產(chǎn)品經(jīng)理。具有十年產(chǎn)品經(jīng)驗(yàn),多年產(chǎn)品講師經(jīng)驗(yàn)。著名自媒體人,WeMedia自媒體聯(lián)盟成員,十佳自媒體人之一。擅長產(chǎn)品策劃、產(chǎn)品運(yùn)營、數(shù)據(jù)分析、用戶研究、行業(yè)分析等。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,不得轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
你想和Blues老師有更多關(guān)于進(jìn)階產(chǎn)品的面對(duì)面學(xué)習(xí)交流嗎?
在【產(chǎn)品總監(jiān)修煉之道】,Blues老師和其他三位來自騰訊、百度操盤過億級(jí)產(chǎn)品用戶的老師,將和你面對(duì)面分享高階產(chǎn)品系統(tǒng)知識(shí),為你搭建產(chǎn)品總監(jiān)必備能力框架…….
想了解更多詳情?立即戳>>http://996.pm/z4bLB
也快可以聯(lián)系KK進(jìn)行咨詢哦~微信/TEL:13043462422
PS:除了咨詢問題,還能領(lǐng)取【產(chǎn)品總監(jiān)課程學(xué)習(xí)筆記】! ??
餐飲類app運(yùn)營方案
怎么突然變白了,看不了了
我也是
又看到Blues老師了,厲害
謝謝分享,寫的很有指導(dǎo)意義,從源到果闡述問題,思路,方法。受教了!
面向一般運(yùn)營有點(diǎn)深了,不過很有指導(dǎo)意義,謝謝。
很棒
太厲害了,看不懂??
經(jīng)驗(yàn)豐富??
這個(gè)牛逼
真的是大師級(jí)別的
感謝!梳理得很清楚,謝謝!!
這么好的干貨 看到就是賺到啊
寫的很詳細(xì),感謝
干貨滿滿,謝謝!~