企業(yè)架構13——數據處理
在日常業(yè)務中,你知道數據從哪里來、怎么處理數據嗎?在這篇文章里,作者便針對數據處理這件事進行了分析總結,并從指標體系、數據來源、數據處理、數據展示等維度做了拆解,一起來看看吧。
在前一篇文章中,我們梳理數據的建模方法,最終能夠順利的搭建一個業(yè)務的數據模型。
數據模型相當于是一個框架圖,一個設計藍圖。
但到目前為止,還沒有數據,數據怎么來,需要怎么處理數據,如何展示給需要的人,怎么樣使用數據呢?
所以本文就對以上內容做一個概要性的梳理。
一、指標體系
在之前的文章中《企業(yè)架構6——業(yè)務數據體系》中,我們已經梳理了如何去搭建整個業(yè)務的數據指標體系,大家有興趣的可以點擊鏈接查看。
1. 整體的指標體系搭建
OSM模型——通過將宏大的運營目標逐一拆解,對應到可落地的運營策略和可度量的運營動作上,從而確保我們梳理指標時不會偏離“主航道”。
UJM模型——用戶在使用產品過程中的生命旅程,指用戶從首次接觸直至下單以及享受產品或服務期間,用戶與企業(yè)產品或者平臺互動的全過程。
2. 布局具體指標
有了大框架之后,我們在實踐中會發(fā)現,想要快速切入,快速落地,往往可能找不到明確的切入點。
這個時候我們采用場景化的方法來分析,比如我們的業(yè)務需要獲客,獲客場景中,我們要看我們的獲客轉化率,那我們可以使用海盜模型,AARRR。
這種則根據具體指標→業(yè)務場景→對應指標體系這樣來拆分,這樣能夠結構化,模塊化的逐步梳理。
二、數據來源
當我們設置了指標體系,根據指標體系或系統需要什么樣的數據(業(yè)務數據、用戶行為數據、用戶數據),也就是我們要決定數據類型。
這些數據的格式有什么限制(是文本、音頻、視頻、圖片還是什么)?
當我們梳理清楚需要那些數據,我們再看怎么采集這些數據,也就是數據的源頭是通過傳感器,還是客戶端,還是業(yè)務系統;是通過線上采集,還是把線下的數據手動導入進來,還是通過api接口?
這些數據可能是自己的系統能夠產生,也許自己沒有要向第三方拿,這就是數據的歸屬權。
業(yè)務數據的收集直接在業(yè)務運作就能拿到,用戶數據是用戶基本數據信息這個在系統設計的時候就可以收集,用戶行為數據需要進行一些埋點采集。
1. 用戶行為數據采集方案
比如說,我們想要了解用戶進入某個頁面之后的行為。我們梳理用戶進入app之后可能的各種行為,如下。
針對每個操作事件,我們按4W1H的方式來記錄相關數據。
如下圖,我們梳理首頁的埋點事件。
埋點的方法有代碼埋點、全埋點、可視化埋點,原理是一致的,各自的方法略有不同。
以下為我們梳理一個瀏覽頁面的埋點文檔。
三、數據處理
1. 數據清洗和轉化
在數據采集之后,需要對數據進行清洗和轉換。數據清洗是指去除重復、缺失、錯誤的數據,以保證數據的準確性和可靠性。數據轉換是指將數據轉換成符合數據倉庫要求的格式和規(guī)范,以便后續(xù)的數據處理和分析。
2. 數據集成
在數據清洗和轉換之后,需要對數據進行集成。數據集成是指將不同的數據源中的數據進行整合,形成一個統一的數據集。這個數據集需要包含企業(yè)的歷史數據和實時數據,以便后續(xù)的數據分析和決策支持。這個階段通常需要使用一些數據集成工具,例如ETL工具等等。
3. 數據存儲
在數據集成之后,需要對數據進行存儲。數據存儲是指將數據存儲到數據倉庫中,以便后續(xù)的數據查詢和分析。這個階段通常需要使用一些數據存儲工具,例如關系型數據庫、非關系型數據庫等等。
四、數據展示
數據可視化是指將數據分析結果以圖表、圖像等形式展示出來,以便更好地理解和利用數據分析結果。
通俗來說,就是要把你分析好的數據結果用正確的圖表展現出來,讓人一眼可以看出關鍵信息的一種展示形式。
因此,要做好數據展現的前提,就是要先確定好用哪種圖表來表現數據,讓圖表結果最為直觀。
1. 明確目標和需求
在進行數據可視化設計步驟之前,需要先明確設計的目標和需求。這包括了解用戶群體、了解他們的需求和期望、確定所要展示的數據類型和數據來源等。只有明確了設計的目標和需求,才能更好地進行下一步的設計工作。
在明確目標和需求時,需要考慮以下幾個因素:
- 用戶群體:需要了解所設計的大屏將會被哪些人使用,不同的用戶群體可能對數據的需求和展現方式存在差異;
- 數據類型和來源:需要明確所要展示的數據的類型和來源,以便選擇合適的數據可視化工具和呈現方式;
- 需求和期望:需要了解用戶對數據可視化大屏的期望和需求,以便在設計時進行考慮。
2. 選擇合適的數據可視化工具
選擇合適的數據可視化工具是設計數據可視化的關鍵。根據所要展示的數據類型和數據來源,選擇合適的數據可視化工具可以使得數據更加直觀地展示出來,并且讓用戶更容易理解數據所包含的信息。
在選擇數據可視化工具時,需要考慮以下幾個因素:
- 數據類型和來源:需要選擇針對所要展示的數據類型和來源的數據可視化工具;
- 可視化效果:需要選擇能夠呈現出所要展示數據的效果的數據可視化工具;
- 易用性:需要選擇易于使用的數據可視化工具,以便在設計時更加方便和高效。
3. 選擇合適的數據呈現方式
數據可視化大屏有多種數據呈現方式,包括柱狀圖、折線圖、餅圖、雷達圖等等。在選擇數據呈現方式時,需要根據數據類型和數據來源,選擇最合適的數據呈現方式,以便更好地展示數據。
在選擇數據呈現方式時,需要考慮以下幾個因素:
- 數據類型和來源:需要選擇針對所要展示的數據類型和來源的數據呈現方式;
- 信息層次:需要根據數據的信息層次,選擇合適的數據呈現方式;
- 可視化效果:需要選擇能夠呈現出所要展示數據的效果的數據呈現方式。
比如:Power BI、finebi、Tableau、Sugar BI、神策數據、growingio、QlikView。
分類1——基本分類
數據可視化分為四種情況:比較、聯系、構成、分布。具體使用指南如下圖所示:
1)比較
比較數據間各類別的關系,或者是它們隨著時間的變化趨勢。
2)聯系
查看兩個或兩個以上變量之間的關系。
3)分布
關注單個變量,或者多個變量的分布情況。
4)構成
每個部分占整體的百分比,或者是隨著時間的百分比變化。
每種圖形的詳細使用說明見文章《數據可視化常用圖形分類,用途及使用建議》,點擊可以查看。
分類法2——圖標字典Visual Vocabulary
該圖表字典將數據可視化分為了九種類型,分別是Deviation、Correlation、Ranking、Distribution、Change overt Time、Magnitude、Part-to-whole、Spatial、Flow,共計76個圖表。
1)Deviation——差異
可理解為“差異”。強調固定參考點的變化(+/-)。通常,參考點為零,但也可以是目標或長期平均值。也可以用來表示情緒(正面/中立/負面)。
FT使用示例:貿易順差/赤字,氣候變化。
2)Correlation——相關性
可理解為“相關性”。顯示兩個或多個變量之間的關系。請注意,除非你告知讀者,否則他們很可能認為你展示的是因果關系(例如一個變量導致另一個變量變化)。
FT使用示例:通貨膨脹和失業(yè),收入和預期壽命……
3)Ranking——排名
可理解為“排名”。當項目的排序或位置比其絕對值或相對值更重要時,可使用排名類圖表,在結果中進一步突出感興趣的點可以吸引使用者的注意。
FT使用示例:財富、排位名次表、選區(qū)選舉結果……
4)Distribution——分布
可理解為“分布”。顯示數據集的值及其出現頻率。通過分布的形狀(或偏離程度)突出數據的不一致或不平均性。是一種便于記憶的方式。
FT使用示例:收入分布、人口分布(年齡/性別)……
5)Change over Time——趨勢
可理解為“趨勢”。強調趨勢的變化,有可能是短期(一日內)波動,或者是長到數十年或數百年的變化。選擇正確的時間段有助于向讀者提供準確的背景信息。
FT使用示例:股價走勢、經濟時間序列……
6)Part-to-Whole——部分與整體
可理解為“部分與整體”。能顯示出一個整體如何被拆分為不同的部分。如果讀者只是想了解個別組成部分的大小,不妨改用對比類的圖表。
FT使用示例:財政預算、公司結構、全國選舉結果……
7)Magnitude——對比
可理解為“對比”。用于比較數據大小??梢员容^相對值(哪一個比較大),或比較絕對值(需要顯示出精確的差異)。通常用來比較數量,而不是計算后的比率或百分比。
FT使用示例:商品產量、市值……
8)Spatial——地理空間
可理解為“地理空間”。當數據中的精確位置和地理分布規(guī)律比其他信息對讀者來說更重要時,可使用這類圖表。
FT使用示例:人口密度、自然資源位置、自然災害風險/影響、流域、選舉結果的變化……
9)Flow——流向
可理解為“流向 ”。展示兩個或兩個以上的狀態(tài)、情境之間的流動量或流動強度。這里的狀態(tài)、情境可能是邏輯關系或地理位置。
FT使用示例:資金轉移、貿易、移民、訴訟、信息、關系圖……
以上兩種數據圖表的分類方法各有不同,但本質都是將各類圖表進行分類,并且說明了每個圖表匹配哪種數據。方便大家在選擇要可視化的數據之后,挑選更適配數據的表達方式。比如:
雷達圖:
① 用途
用來展示某一類型事物在幾個屬性的優(yōu)良情況,或該類事物互相對比??梢栽谕蛔鴺讼祪日故径嘀笜说姆治霰容^情況。它是由一組坐標和多個同心圓組成的圖表。
即將一個樣本的各項指標所得的數字或比率,就其比較重要的指標集中劃在一個圓形的圖表上,來表現一個樣本各項指標重要比率的情況,使用者能一目了然的了解樣本各項數據的變動情形及其好壞趨向。
② 使用建議
數據點不能太多,一般不超過6個,否則無法辨別,因此適用場合有限。
4. 布局
布局是數據可視化設計步驟的重要環(huán)節(jié)。在設計圖表布局時,需要考慮多個因素,如可視化效果、用戶體驗、信息層次等等。一個好的布局應該能夠使得數據更加清晰明了,同時也要體現出設計的美感。
在設計布局時,需要考慮以下幾個因素:
- 信息層次:需要根據數據的信息層次,設計出合理的布局,使得用戶能夠更加清晰地理解數據;
- 用戶體驗:需要設計出易于使用和操作的大屏布局,以便用戶更加方便地使用;
- 美感設計:需要考慮設計的美感,使得大屏布局更加吸引人。
不會布局,那么可以去哪里快速尋找儀表盤來進行模仿呢?這里給大家推薦 4 個網站:
- 花瓣網,以配色+布局為主體,搜索可以直接使用;
- 站酷網,以配色+布局為主體,跟花瓣網一樣;
- Collect UI,以UI設計為主,模仿網站后臺;
- 優(yōu)設網,以設計思路+教程為主,提升細節(jié)體驗。
在這些網站搜索關鍵詞:大屏、Dashboard、看板、數據報告,就可以找到非常多值得參考的大屏數據匯報,吸取他們的配色方案即可。
當我們最終經過布局之后、美化之后得到如下的一個可視化大屏,對不同的人給予不同的權限,則不同部門、不同層級的人所看到的的可視化大屏呈現的數據不同。
5. 測試和優(yōu)化
在完成數據可視化設計步驟之后,需要進行測試和優(yōu)化。
需要注意數據的準確性和完整性,如果發(fā)現了問題,需要及時進行優(yōu)化,以便讓數據可視化更加完美。
在測試和優(yōu)化時,需要考慮以下幾個因素:
- 數據準確性和完整性:需要測試數據的準確性和完整性,以便發(fā)現問題并進行優(yōu)化;
- 用戶反饋:需要收集用戶的反饋和建議,以便在優(yōu)化時進行考慮;
- 優(yōu)化效果:需要測試優(yōu)化后的效果,以便驗證優(yōu)化是否有效。
五、數據分析
根據我們之前搭建的指標體系進行分析。
1. 分析的類型
1)描述性分析——發(fā)生了什么
描述性分析是任何數據分析過程的起點,旨在回答發(fā)生了什么問題,是我們通過對各種來源的原始數據進行整理,再將其轉化為對業(yè)務有價值的洞察。
2)探索性分析——探索數據之間的關系
顧名思義,探索性分析的主要目的是探索,其最典型的應用領域就是數據挖掘。通過探索性分析,能夠幫助我們發(fā)現原本不相關事物之間的數據變量聯系。
數據挖掘領域有一個典型案例:沃爾瑪通過數據挖掘,發(fā)現紙尿褲與啤酒的銷量數據呈相關關系。于是調整了超市貨架的擺放位置,將紙尿褲與啤酒放在相近的位置,沒想到雙雙增加了這兩種完全不同品類的銷量。
3)診斷性分析——為什么會發(fā)生
診斷性分析是最常見的數據分析類型。運營人員通過診斷性分析能探究某件事情發(fā)生的原因,引發(fā)這件事情的前置事件是什么,這件事情發(fā)生后又會引發(fā)什么后置事件。
4)預測性分析——會發(fā)生什么
預測性分析通過分析已知數據假設未來,回答將來會發(fā)生什么的問題。
5)規(guī)范性分析——要采取什么行動
規(guī)范性分析是最高級的數據分析類型,通過以上所有數據分析,并結合數據模型,回答要采取什么行動的問題。規(guī)范性分析會分析多個場景,預測每個場景的結果,并根據結果決定哪個是最佳行動方案。
2. 分析的方法
1)趨勢分析
趨勢分析可以說是最基礎且最常用的數據分析方法。通過對有關指標各期對基期的變化趨勢分析,分析該指標的趨勢變化,從中直觀地發(fā)現問題,讓運營決策更準確和更實時。
2)細分分析
當趨勢分析過于宏觀,那細分分析則是精細化運營的必備,按照不同的維度一步步地對數據進行拆分,不斷接近問題發(fā)生的起源,讓運營獲取更加精細的數據洞察。
例如,某品牌零售企業(yè)的 GMV 某天有明顯下降,那么我們就可以根據全國各省級行政區(qū)的維度,細分湖南省、廣東省、北京市、云南省等 34 個省級行政區(qū),查看具體是哪個省級行政區(qū)的 GMV 有所下降。定位到具體的省級行政區(qū)后,還可以繼續(xù)往市級、區(qū)級層層細分。
3)對比分析
對比分析是將兩個或兩個以上的數據進行比較,分析差異并揭示數據所代表事情的發(fā)展變化情況以及規(guī)律。其特點是可以非常直觀地看出事情某方面的變化或差距,并且可以準確、量化地表示出這種變化或差距是多少,主要是為了給孤立的數據參考系。
4)溯源分析
追溯到事情的源頭去分析,是避免運營做過多無用分析的方法。
舉個例子,當一批用戶到來我們的產品內,購買轉化率比較低。通常情況下我們去分析,可能會圍繞產品流暢度、運營活動力度,或者商品吸引力等問題。但很有可能從源頭分析,這批用戶就并非我們的目標用戶,而是虛假流量。
5)歸因分析
通過一種或者一組規(guī)則,將銷售功勞或者轉化功勞等分配給轉化路徑中的各接觸點,即為歸因分析。
本質上歸因分析都是為了衡量和評估用戶觸點對總體轉化目標達成所作出的貢獻,評價的核心指標為轉化貢獻度。但具體如何衡量和評估,就需要我們用到歸因分析模型。
六、數據應用
在數據可視化之后,需要對數據進行應用。數據應用是指將數據分析結果應用到實際業(yè)務中,例如制定營銷策略、優(yōu)化產品等等。這個階段通常需要與業(yè)務人員進行溝通和合作,以確保數據分析結果能夠真正地幫助業(yè)務發(fā)展。
1. 市場營銷
1)渠道投放方評估
通過對各渠道數據的收集,分析情況,判斷渠道的效果,選擇合適的投放渠道。
2)分發(fā)效率評估
基本上通過業(yè)務屬性、用戶屬性或行為特征數據提煉篩選人群分組標簽,再根據人群分組標簽匹配對應的方案或內容庫,繼而根據規(guī)則進行是否展示和展示順序的判斷進行個性化推薦,以達到提升體驗、分發(fā)效率、業(yè)績等目標。
不同產品的差別往往只在于實現這套體系時的內容供給類型與時效性,這很大程度決定了實現需求本身的成本大小,整體邏輯可概括為下圖:
3)個性化推薦
通過埋點收集用戶行為數據,計算用戶行為特征,進行行為預測,進行智能推薦。
4)精準營銷觸達
通過用戶行為分析及行為特征進行用戶分群,輸出精準名單,然后匹配規(guī)則策略對接不同的通道/營銷系統,進行發(fā)短信/發(fā) Push,亦或是發(fā)券發(fā)紅包的觸達等,這是產品外的一種營銷機制,其最終的結果是目標轉化。
2. 核心指標監(jiān)控
對于C端產品來說,數據其實是用戶行為的真實反饋。用戶在產品上的大部分行為,并不會直接告訴你,但是通過數據,我們可以分析用戶的使用路徑,需求的滿足程度,從而衡量產品的價值。
我們在前面也搭建了指標體系,我們也按照固定的周期檢查數據指標的情況,檢查之前的APP核心指標數據,看是否有異常。一般相關的數據波動在上下2%以內是可以接受的,但如果差距過大,就需要排查原因。
3. 驅動產品迭代優(yōu)化
通過數據,在產品的迭代優(yōu)化中,需要用合適的方式把無法量化的“客戶體驗”,通過不斷的分析進行量化,再通過不斷的知識積累進行運營決策,為產品的良性發(fā)展打下基礎。
4. 精細化運營
通過完備合理的策略規(guī)劃外,準確、及時的策略執(zhí)行及同步的效果監(jiān)測與分析。
可以提高決策效率和準確性,企業(yè)通過數據分析可以更客觀地評估各種策略和方案的優(yōu)劣,消除人為偏見和錯誤,從而做出更明智的決策。
在體驗維度上,數據驅動可以幫助企業(yè)更好地了解客戶需求,從而優(yōu)化產品和服務,提供個性化服務和產品,提高客戶滿意度。
在增長維度上,數據驅動有助于企業(yè)預測趨勢、市場變化和客戶需求,發(fā)現潛在的市場機會和創(chuàng)新領域,推動組織的創(chuàng)新和發(fā)展,從而實現增長。
七、總結
數據處理的整個流程包括數據收集、存儲、處理、分析、展示、使用。
本文簡單說明了一下流程的整個環(huán)節(jié),每個環(huán)節(jié)需要做什么事情,要有一個什么樣的結果。
其中數據存儲及數據計算等環(huán)節(jié)因作者技術知識有限,說的比較粗略,更多想怎么與業(yè)務聯系的角度來說明。
通過前一篇文章數據建模及本文數據處理,算是從宏觀上對業(yè)務系統的數據方面有一個認知,之后我們就可以繼續(xù)往用戶畫像等角度去做深入研究,之后將逐步看梳理相關的內容。
專欄作家
Markzou,8年產品經驗,人人都是產品經理專欄作家。主要專注于本地生活、O2O、到家服務、新零售領域;曾任職于多家本地生活垂直領域頭部公司,具有豐富的本地生活行業(yè)經驗。
本文原創(chuàng)發(fā)布于人人都是產品經理,未經作者許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
文章同款課程https://ke.qidianla.com/courses/qyjg
歡迎關注訂閱號:markzou的筆記