作為數(shù)據(jù)產(chǎn)品經(jīng)理,你需要搞懂這4大模塊

4 評(píng)論 12969 瀏覽 119 收藏 16 分鐘
🔗 技术知识、行业知识、业务知识等,都是B端产品经理需要了解和掌握的领域相关的知识,有助于进行产品方案设计和评估

文章從數(shù)據(jù)全生命周期的四大模塊展開,對(duì)數(shù)據(jù)的采集、處理、存儲(chǔ)和分析作了簡要的分析介紹。希望對(duì)你有所幫助。

前面我們學(xué)習(xí)了4個(gè)步驟,用OSM和第一關(guān)鍵指標(biāo)法來確定核心指標(biāo),接下來我們聊聊數(shù)據(jù)全生命周期。

接下來分別介紹這幾大模塊:

  1. 數(shù)據(jù)采集
  2. 數(shù)據(jù)預(yù)處理——ETL
  3. 數(shù)據(jù)存儲(chǔ)——數(shù)倉
  4. 數(shù)據(jù)分析——OLAP/業(yè)務(wù)模型

一、數(shù)據(jù)采集

按數(shù)據(jù)來源分,可將數(shù)據(jù)分為如下幾個(gè)類型:

  1. 埋點(diǎn)行為數(shù)據(jù):通過埋點(diǎn)的方式,采集到的一些行為數(shù)據(jù),如瀏覽、點(diǎn)擊、停留時(shí)長等
  2. 業(yè)務(wù)數(shù)據(jù):伴隨著業(yè)務(wù)產(chǎn)生的數(shù)據(jù),核心是生產(chǎn)系統(tǒng)內(nèi)存儲(chǔ)的業(yè)務(wù)表單數(shù)據(jù)
  3. 日志數(shù)據(jù):一般是web端日志記錄的數(shù)據(jù)
  4. 外部接入數(shù)據(jù):從第三方獲得的數(shù)據(jù)

按數(shù)據(jù)類型可分為:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。

(1)結(jié)構(gòu)化數(shù)據(jù)

一般是從內(nèi)部數(shù)據(jù)庫和外部開放數(shù)據(jù)庫接口中獲得,一般都是存儲(chǔ)產(chǎn)品業(yè)務(wù)運(yùn)營數(shù)據(jù)以及用戶操作的結(jié)果數(shù)據(jù),比如注冊(cè)用戶數(shù)、下單量、完單量等數(shù)據(jù)。這類數(shù)據(jù)格式規(guī)范,典型代表就是關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),可以用二維表來存儲(chǔ),有固定字段數(shù),每個(gè)字段有固定的數(shù)據(jù)類型(數(shù)字、字符、日期等),每個(gè)字節(jié)長度相對(duì)固定。這類數(shù)據(jù)易于維護(hù)管理,同時(shí)對(duì)于查詢、展示和分析而言也是最為方便的一類數(shù)據(jù)格式。

(2)半結(jié)構(gòu)化數(shù)據(jù)

應(yīng)用的點(diǎn)擊日志以及一些用戶行為數(shù)據(jù),通常指日志數(shù)據(jù)、xml、json等格式輸出的數(shù)據(jù),格式較為規(guī)范,一般是純文本數(shù)據(jù),需要對(duì)數(shù)據(jù)格式進(jìn)行解析,才能用于查詢或分析數(shù)據(jù)。每條記錄預(yù)定義規(guī)范,但是每條記錄包含信息不同,字段數(shù)不同,字段名和字段類型不同,或者還包含著嵌套的格式。

(3)非結(jié)構(gòu)化數(shù)據(jù)

指非純文本類數(shù)據(jù),沒有標(biāo)準(zhǔn)格式,無法直接解析相應(yīng)值,常見的非結(jié)構(gòu)化數(shù)據(jù)有富文本、圖片、聲音、視頻等數(shù)據(jù)。這類數(shù)據(jù)除非是要進(jìn)行高級(jí)的文本挖掘或者多媒體數(shù)據(jù)挖掘,否則對(duì)于日常的數(shù)據(jù)統(tǒng)計(jì)與分析而言,非結(jié)構(gòu)化數(shù)據(jù)沒有分析價(jià)值。一般不會(huì)將非結(jié)構(gòu)化數(shù)據(jù)以二進(jìn)制形式存入數(shù)據(jù)倉庫,數(shù)據(jù)倉庫之父Inmon的建議是數(shù)據(jù)倉庫中只需要存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)。一般將非結(jié)構(gòu)化數(shù)據(jù)存放在文件系統(tǒng)中,數(shù)倉中記錄數(shù)據(jù)的信息,如標(biāo)題、摘要、創(chuàng)建時(shí)間等,方便進(jìn)行索引查詢。

二、數(shù)據(jù)預(yù)處理——ETL

ETL

即Extract Transform Load,描述數(shù)據(jù)抽取、轉(zhuǎn)換、加載的過程。

  • 數(shù)據(jù)抽取:把數(shù)據(jù)從數(shù)據(jù)源中讀出來
  • 數(shù)據(jù)轉(zhuǎn)換:把原始數(shù)據(jù)轉(zhuǎn)換成期待的格式和維度
  • 數(shù)據(jù)加載:把處理后的數(shù)據(jù)加載到目標(biāo)處,如數(shù)據(jù)倉庫中

數(shù)據(jù)倉庫從各數(shù)據(jù)源獲取數(shù)據(jù)以及在數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)流轉(zhuǎn)和流動(dòng)都可以認(rèn)為是ETL過程,ETL是數(shù)據(jù)倉庫的流水線,也可以認(rèn)為是數(shù)據(jù)倉庫的血液,它維系著數(shù)據(jù)倉庫中數(shù)據(jù)的新陳代謝,而數(shù)據(jù)倉庫日常的管理和維護(hù)工作大部分精力是保持ETL的正常和穩(wěn)定。

Kettle

Kettle是常用的ETL處理開源免費(fèi)工具,其中文名叫水壺,該項(xiàng)目的主程序員MATT希望把各種數(shù)據(jù)放到一個(gè)壺中,然后以指定的格式流出。Kettle是純Java編寫,可以在Windows、Linux、unix上運(yùn)營,數(shù)據(jù)抽取效率高效穩(wěn)定,開放源代碼,便于二次開發(fā)包裝。但其數(shù)據(jù)抽取速度和大數(shù)據(jù)處理方面的能力比起powercenter、informatica、datastage等商業(yè)軟件要慢。

三、數(shù)據(jù)存儲(chǔ)——數(shù)據(jù)倉庫

數(shù)據(jù)倉庫的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持。數(shù)據(jù)倉庫本身不生產(chǎn)任何數(shù)據(jù),同時(shí)也不消費(fèi)任何數(shù)據(jù),數(shù)據(jù)來源于外部,并且開放給外部應(yīng)用。這就是為什么叫數(shù)據(jù)倉庫,而非數(shù)據(jù)工廠的原因。

數(shù)據(jù)倉庫基本架構(gòu)

數(shù)據(jù)倉庫基本架構(gòu)包含數(shù)據(jù)流入/流出的過程,可以分為三層:源數(shù)據(jù)、數(shù)據(jù)倉庫、數(shù)據(jù)應(yīng)用。

(1)ODS(Operational Data Store)數(shù)據(jù)操作層

用于原始數(shù)據(jù)在數(shù)據(jù)平臺(tái)的落地,這些數(shù)據(jù)從數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)之間的邏輯關(guān)系上都與雨啊是數(shù)據(jù)層基本一致。在源數(shù)據(jù)進(jìn)入這一層時(shí),通常要進(jìn)行數(shù)據(jù)清洗,如業(yè)務(wù)字段提取、去掉不用字段、臟數(shù)據(jù)處理等。默認(rèn)保留近30天的數(shù)據(jù),表命名規(guī)范為:ods_主題_原表名。

(2)DIM(Dimension Data Layer),數(shù)據(jù)維度層

主要用于存儲(chǔ)公共的信息數(shù)據(jù),如地理位置、時(shí)間,數(shù)據(jù)格式一般是維表,如以國家ID等字段為主鍵,按需存儲(chǔ),保留歷史至今的所有數(shù)據(jù),表命名規(guī)范為:dim_業(yè)務(wù)描述,如dim_time。

(3)DWD(Data Warehouse Detail)數(shù)據(jù)明細(xì)層

用于源系統(tǒng)數(shù)據(jù)在數(shù)據(jù)平臺(tái)中的永久存儲(chǔ),用以支持DWS層和DM層無法覆蓋的需求。默認(rèn)保留歷史至今的所有數(shù)據(jù),表命名規(guī)范為:dwd_主題域_描述,如dws_driver_detail 司機(jī)個(gè)人信息表。

(4)DWS(Data Warehouse Service),數(shù)據(jù)匯總層

主要包含兩類匯總表,一是細(xì)粒度的寬表,二是粗粒度的匯總表。例如打車業(yè)務(wù),包含基于訂單、乘客、司機(jī)、車輛等細(xì)粒度的寬表和基于維度組合如(用戶日下單量匯總、用戶日完單量匯總、司機(jī)日接單量匯總)的粗粒度匯總表。DWS層的匯總數(shù)據(jù)目標(biāo)時(shí)滿足80%的業(yè)務(wù)計(jì)算,默認(rèn)保留歷史至今的所有數(shù)據(jù),表命名規(guī)范為:dws_主題域_描述,如dws_訂單_今日下單量。

(5)DM:數(shù)據(jù)集市層

按照業(yè)務(wù)主題構(gòu)建,面向特定部門或人員等數(shù)據(jù)集合,如產(chǎn)品、運(yùn)營、客服等,用于支持BI、多維分析、營銷推薦、標(biāo)簽、數(shù)據(jù)挖掘和其他數(shù)據(jù)服務(wù)。默認(rèn)保留歷史至今的所有數(shù)據(jù),表命名規(guī)范為:dm_主題域_描述。

數(shù)據(jù)倉庫特性

數(shù)據(jù)倉庫有4大特性:主題性、集成性、穩(wěn)定性、動(dòng)態(tài)性。

(1)為什么要面向主題?

面向主題是數(shù)據(jù)倉庫的第一特性,主要指合理的組織數(shù)據(jù)以方便實(shí)現(xiàn)分析。對(duì)于源數(shù)據(jù)而言,數(shù)據(jù)組織形式是多樣的,如點(diǎn)擊流數(shù)據(jù)格式是未經(jīng)優(yōu)化的,前臺(tái)數(shù)據(jù)庫基于OLTP操作組織,不適合直接進(jìn)行分析,而整理成面向主題的形式,才方便分析。如點(diǎn)擊流日志整理成頁面、訪問、用戶三個(gè)主題,可以明顯提升分析效率。

(2)為什么集成?

數(shù)據(jù)倉庫中存儲(chǔ)的數(shù)據(jù)是來源于多個(gè)數(shù)據(jù)源的集成,原始數(shù)據(jù)來自不同的數(shù)據(jù)源,存儲(chǔ)方式各不相同。

(3)為什么穩(wěn)定?

數(shù)據(jù)倉庫匯總保存的數(shù)據(jù)是一系列歷史快照,不允許修改,用戶只能通過分析工具進(jìn)行查詢。

(4)為什么動(dòng)態(tài)?

數(shù)據(jù)倉庫會(huì)定期接收新的集成數(shù)據(jù),反映出最新的數(shù)據(jù)變化。當(dāng)數(shù)據(jù)超過數(shù)據(jù)倉庫的存儲(chǔ)期限時(shí),或?qū)Ψ治鰺o用時(shí),會(huì)從數(shù)據(jù)倉庫中刪除這些數(shù)據(jù),數(shù)據(jù)倉庫的結(jié)構(gòu)和維護(hù)信息存儲(chǔ)在數(shù)據(jù)倉庫的元數(shù)據(jù)中。

Hive

主流的數(shù)據(jù)倉庫,在國內(nèi)常用的是一款開源數(shù)據(jù)倉庫hive。Hive是基于Hadoop的數(shù)據(jù)倉庫工具,可以對(duì)存儲(chǔ)在HDFS的文件數(shù)據(jù)集進(jìn)行查詢和分析處理。Hive對(duì)外提供了類似于SQL語言的查詢語句hiveQL,在做查詢時(shí),將HQL語句轉(zhuǎn)換成計(jì)算模型。Hive的主要優(yōu)勢是免費(fèi),而商業(yè)收費(fèi)數(shù)據(jù)倉庫有Teradata、Oracle、Db2等。

四、數(shù)據(jù)分析

1. OLAP

也被稱為多維分析,提供多維數(shù)據(jù)管理環(huán)境,其典型應(yīng)用是對(duì)商業(yè)問題的建模與商業(yè)分析。

1993年,關(guān)系數(shù)據(jù)庫支父F.Codd提出OLAP概念,同時(shí)提出OLAP的12條準(zhǔn)則。使得分析人員能夠從多角度對(duì)信息進(jìn)行快速、一致、交互的存取。

目標(biāo):滿足決策支持或者滿足在多維環(huán)境條件下特定的查詢和報(bào)表需求,核心技術(shù)是“維”的這個(gè)概念?!熬S”是人們觀察客觀世界的角度,是一種高層次的類型劃分。

OLAP的多維分析操作:鉆取、上卷、切片、切塊、切塊、旋轉(zhuǎn)、透視、排序、篩選。

  • 鉆取:在維的不同層次間的變化,從上層降到下一層,比如通過對(duì)2020年第二季度的總銷售額數(shù)據(jù)進(jìn)行鉆取,查看2010年第二季度4、5、6每個(gè)月消費(fèi)數(shù)據(jù);也可以鉆取浙江省查看杭州、寧波等城市銷售數(shù)據(jù)。
  • 上卷:鉆取的逆操作,細(xì)粒度向高層聚合,如將江蘇、上海、浙江省的銷售數(shù)據(jù)匯總查看江浙滬地區(qū)的銷售數(shù)據(jù)。
  • 切片:選擇維中特定的值進(jìn)行分析,比如只選擇電子產(chǎn)品的銷售數(shù)據(jù)。
  • 切塊:選擇維中特定區(qū)間的數(shù)據(jù)或者某批特定值進(jìn)行分析,比如選擇電子產(chǎn)品和日用品的銷售數(shù)據(jù)。
  • 旋轉(zhuǎn):維的位置互換,就像二維表行列轉(zhuǎn)換,通過旋轉(zhuǎn)實(shí)現(xiàn)產(chǎn)品維和地域維的互換。

優(yōu)勢:基于數(shù)據(jù)倉庫面向主題的、集成的、保留歷史不可變更的數(shù)據(jù)存儲(chǔ),以及多維模型多層次的數(shù)據(jù)組織形式。

2. 業(yè)務(wù)模型

基于某些數(shù)據(jù)分析和決策支持而建立起來的數(shù)據(jù)模型,如用戶評(píng)價(jià)模型、關(guān)聯(lián)推薦模型、RFM分析模型、漏斗模型、用戶行為路徑模型、用戶分群模型、留存分析模型等。接下來介紹一個(gè)常用的模型RFM模型,其他的業(yè)務(wù)模型在后續(xù)篇章進(jìn)行展開。

RFM模型

根據(jù)美國數(shù)據(jù)庫營銷研究所Arthur Hughes的研究,客戶數(shù)據(jù)庫中有3個(gè)神奇的要素,這3個(gè)要素構(gòu)成了數(shù)據(jù)分析最好的指標(biāo)。

  1. 最近一次消費(fèi)(Recency):指用戶上一次購買的的時(shí)間,理論上上一次消費(fèi)時(shí)間越近的顧客是比較好的顧客,是維系顧客的一個(gè)重要指標(biāo)。。
  2. 消費(fèi)頻率(Frequency):顧客在限定時(shí)間周期內(nèi)消費(fèi)的次數(shù)。最長購買的顧客,也是滿意度最高的顧客。根據(jù)這個(gè)指標(biāo),可以把客戶分成5等份,相當(dāng)于劃分了一個(gè)忠誠度的階梯。
  3. 消費(fèi)金額(Monetary):消費(fèi)金額時(shí)產(chǎn)能最直接的衡量指標(biāo),也可以驗(yàn)證“帕雷托法則”,公司的80%收入來自于20%的顧客。

客戶類型可劃分為:

1)重要價(jià)值客戶:RFM比較大、優(yōu)質(zhì)客戶,需要保持;

措施:傾斜更多資源、VIP服務(wù)、個(gè)性化服務(wù)、附加銷售

2)重要喚回客戶:消費(fèi)金額和消費(fèi)頻次大,但最近無消費(fèi),需要喚回;

措施:提供有用資源,通過續(xù)訂或更新產(chǎn)品贏回他們

3)重要深耕客戶:消費(fèi)金額大貢獻(xiàn)度高,且最近有交易,需要重點(diǎn)識(shí)別;

措施:交叉銷售,提供會(huì)員/忠誠計(jì)劃,推薦其他產(chǎn)品

4)重要挽留客戶:消費(fèi)金額大,潛在有價(jià)值客戶,需要挽留

措施:push消息觸達(dá),回訪,提高留存率

5)潛力客戶:消費(fèi)頻次高,且最近有消費(fèi),需要挖掘

措施:向上銷售更高價(jià)值的產(chǎn)品

6)新客戶:最近有消費(fèi),接觸的新客戶,有推廣價(jià)值

措施:開展活動(dòng),免費(fèi)試用,提高客戶興趣,建立品牌認(rèn)知度

7)一般維持客戶:消費(fèi)頻次多,但貢獻(xiàn)不大,一般維持

措施:積分制,分享寶貴的資源,以折扣推薦熱門產(chǎn)品/續(xù)訂,與他們重新獲得聯(lián)系

8)流失客戶:FM值均低于平均值,最近也沒消費(fèi),相當(dāng)于流失

措施:恢復(fù)客戶興趣,暫時(shí)放棄無價(jià)值用戶

總結(jié)

本文主要數(shù)據(jù)采集、ETL數(shù)據(jù)預(yù)處理、數(shù)據(jù)倉庫、OLAP數(shù)據(jù)分析與業(yè)務(wù)模型,幫助大家進(jìn)行技術(shù)上的掃盲,后續(xù)會(huì)介紹業(yè)務(wù)模型以及BI數(shù)據(jù)應(yīng)用,歡迎一起交流。

#相關(guān)閱讀#

4個(gè)步驟,用模型確定數(shù)據(jù)指標(biāo)

 

作者:草帽小子;公眾號(hào):一個(gè)數(shù)據(jù)人的自留地,wx:luckily304

本文由 @草帽小子 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 對(duì)于要做的BI的數(shù)據(jù)小白受益匪淺,“ODS(Operational Data Store)數(shù)據(jù)操作層
    用于原始數(shù)據(jù)在數(shù)據(jù)平臺(tái)的落地,這些數(shù)據(jù)從數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)之間的邏輯關(guān)系上都與雨啊是數(shù)據(jù)層基本一致”有個(gè)輸入法錯(cuò)誤,另外樓主微信好像不對(duì)。。。咋是個(gè)女生的微信呢

    來自廣東 回復(fù)
    1. 微信是對(duì)的,我的性別女??

      回復(fù)
    2. 我看看怎么改一下

      回復(fù)
  2. 大家期待已久的《數(shù)據(jù)產(chǎn)品經(jīng)理實(shí)戰(zhàn)訓(xùn)練營》終于在起點(diǎn)學(xué)院(人人都是產(chǎn)品經(jīng)理旗下教育機(jī)構(gòu))上線啦!

    本課程非常適合新手?jǐn)?shù)據(jù)產(chǎn)品經(jīng)理,或者想要轉(zhuǎn)崗的產(chǎn)品經(jīng)理、數(shù)據(jù)分析師、研發(fā)、產(chǎn)品運(yùn)營等人群。

    課程會(huì)從基礎(chǔ)概念,到核心技能,再通過典型數(shù)據(jù)分析平臺(tái)的實(shí)戰(zhàn),幫助大家構(gòu)建完整的知識(shí)體系,掌握數(shù)據(jù)產(chǎn)品經(jīng)理的基本功。

    學(xué)完后你會(huì)掌握怎么建指標(biāo)體系、指標(biāo)字典,如何設(shè)計(jì)數(shù)據(jù)埋點(diǎn)、保證數(shù)據(jù)質(zhì)量,規(guī)劃大數(shù)據(jù)分析平臺(tái)等實(shí)際工作技能~

    現(xiàn)在就添加空空老師(微信id:anne012520),咨詢課程詳情并領(lǐng)取福利優(yōu)惠吧!

    來自廣東 回復(fù)
专题
14285人已学习14篇文章
流量难获取,获取之后转化为付费用户更是困难。本专题的文章分享了如何提升付费转化率。
专题
12599人已学习13篇文章
在用户运营中,拉新往往要比做好用户留存所花费的成本要高,但有各种各样的原因会让用户在某个过程中流失掉,应当如何规避与注意呢?本专题的文章分享了如何做好用户流失预警。
专题
37610人已学习20篇文章
“搜索功能”拆解:小功能,大细节。
专题
70312人已学习13篇文章
什么是产品的商业模式,不同类型的产品在商业模式上有什么区别?
专题
13669人已学习12篇文章
作者B端的产品经理,要基于这个行业理解的大背景下去了解公司的业务全局。本专题的文章分享了B端产品经理如何了解业务全局。
专题
112415人已学习29篇文章
透过别人的项目总结,学习项目管理项目设计项目流程经验。