產(chǎn)品經(jīng)理數(shù)據(jù)分析入門(三)- 分析過程

林海舟
0 評論 1361 瀏覽 13 收藏 8 分鐘
🔗 B端产品经理需要进行售前演示、方案定制、合同签订等,而C端产品经理需要进行活动策划、内容运营、用户激励等

前面的文章我們已經(jīng)分享了數(shù)據(jù)的指標和采集,這篇文章,我們繼續(xù)分析下數(shù)據(jù)分析中的清洗和驗證、加工內(nèi)容,希望能幫到大家。

一、數(shù)據(jù)采集

數(shù)據(jù)分析的對象就是數(shù)據(jù),通過數(shù)據(jù)采集來獲得數(shù)據(jù)。數(shù)據(jù)采集在《產(chǎn)品要懂點數(shù)據(jù)分析(一)-數(shù)據(jù)采集和數(shù)據(jù)指標》中已經(jīng)討論,這里不展開。

二、數(shù)據(jù)清洗

在原始數(shù)據(jù)里面存在著大量錯誤、重復(fù)的數(shù)據(jù),如果直接使用有可能會導(dǎo)致分析結(jié)果出現(xiàn)嚴重的偏差。數(shù)據(jù)清洗是對“臟數(shù)據(jù)”進行處理,提高數(shù)據(jù)的質(zhì)量。

常見的“臟數(shù)據(jù)”的類型有錯誤、缺失、重復(fù)等。數(shù)據(jù)清洗就是利用糾正數(shù)據(jù)的錯誤、刪除或填充缺失的數(shù)據(jù)、刪除合并重復(fù)數(shù)據(jù)等手段,將數(shù)據(jù)整理成合規(guī)范的數(shù)據(jù)。

1. 糾正數(shù)據(jù)錯誤

數(shù)據(jù)錯誤多由數(shù)據(jù)源輸入不規(guī)范導(dǎo)致的。常見的錯誤類型有:

  • 數(shù)據(jù)值錯誤。如超過域值(性別出現(xiàn)男、女之外的其他值)、超過范圍(年齡大于150歲)。
  • 不合理的值。如拼寫錯誤(姓名出現(xiàn)字母)、數(shù)據(jù)填錯(手機號碼填到身份證號碼字段上了)等。
  • 編碼格式錯誤。如全角半角問題、文本編碼問題。
  • 數(shù)據(jù)邏輯不一致。如身份證是女的、性別填成男的。
  • 單位規(guī)格不一致。如身高“1.75m”和“175cm”、“2019-01-01”和“01/01/2019”。
  • 表達方式不一致。如國家“中國”和“中華人民共和國”。

2. 補充/刪除缺失數(shù)據(jù)

并非所有字段缺失都需要處理,如一個學(xué)生用戶的工作單位字段是可能為空的。

如何處理缺失的數(shù)據(jù),需要綜合考慮填充難度、數(shù)據(jù)重要性、缺失情況來綜合考慮。

  • 如果填充很容易,則直接進行填充。如知道身份證號碼,填充年齡字段。
  • 如果數(shù)據(jù)不重要,且缺失數(shù)據(jù)較少,則直接填充默認值或者刪除對應(yīng)的數(shù)據(jù)(行)。
  • 如果數(shù)據(jù)不重要,但缺失比較嚴重,則直接刪除數(shù)據(jù)屬性字段(列)。
  • 如果數(shù)據(jù)重要,則可以通過計算的方式算出可能的值進行填充,也可以結(jié)合業(yè)務(wù)和現(xiàn)有數(shù)據(jù)推斷可能的值。
  • 如果數(shù)據(jù)重要,但是沒辦法計算,則就只能人工進行填充了。

要注意空值對數(shù)據(jù)處理的影響。假設(shè)有10個用戶,兩個月收入為0,另外八個為10000。那么要考慮用戶月收入是否真的為0??赡苡脩羰I(yè)了沒工作,可能是用戶沒填。那么在求平均值時,如果是用戶失業(yè)了的情況,則平均收入為:( 0 * 2 + 10000 * 8 ) / 10。如果用戶沒填則要剔除兩個用戶,應(yīng)該這么計算:(10000 * 8) / 8。

3. 合并刪除重復(fù)數(shù)據(jù)

出現(xiàn)重復(fù)數(shù)據(jù)的原因很多,經(jīng)常是表達不一致導(dǎo)致的。

重復(fù)數(shù)據(jù)往往并不是一模一樣一式多份的數(shù)據(jù)。所以,對于數(shù)據(jù)相似程度的判斷是很有必要的。如手機設(shè)備“iPhone X”和“iPhone 10”是一樣的數(shù)據(jù),卻是兩個不一樣的表達。是否是重復(fù)數(shù)據(jù)要結(jié)合數(shù)據(jù)本身和業(yè)務(wù)進行分析。

三、數(shù)據(jù)驗證

數(shù)據(jù)經(jīng)過處理之后,有部分數(shù)據(jù)被更改、填充、刪除,更有甚者原始數(shù)據(jù)就存在問題。在進行分析前,需要進行數(shù)據(jù)驗證。

1. 交叉驗證

如果有其他相關(guān)數(shù)據(jù),或者其他數(shù)據(jù)源,可以聯(lián)合多個表、多個字段進行交叉分析。

通過身份證信息可以驗證用戶性別、年齡等信息。甚至通過對用戶行為的分析,可以推斷用戶的性別,然后再進行驗證。

2. 人工抽查

對于一些重要的數(shù)據(jù),還可以通過人工抽查的方式進行驗證。抽取一定量的數(shù)據(jù)樣本進行人工檢查,根據(jù)抽查結(jié)果推斷數(shù)據(jù)樣本的數(shù)據(jù)質(zhì)量。

例如,隨機抽取1000條數(shù)據(jù),錯誤2條。那么推斷錯誤率為0.2%左右。再比對這個錯誤率是否符合分析的要求。

常見的數(shù)據(jù)抽取方式有:

  • 隨機抽取。從數(shù)據(jù)樣本中隨機抽取一定量的數(shù)據(jù)。
  • 等距抽取。按一定距離抽取數(shù)據(jù),沒間隔一定數(shù)量的樣本抽取一次。
  • 分層抽取。將同一類型的數(shù)據(jù)樣本分層多個層次,如高收入群、中收入群、低收入群,然后根據(jù)每個層次的占比抽取一定量的數(shù)據(jù)。
  • 分類抽取。將不同類型的數(shù)據(jù)樣本根據(jù)不同的類型進行分類,如學(xué)生群體、教師群體、職工群體,然后在每個分類中抽取一定量的數(shù)據(jù)。

四、數(shù)據(jù)加工

在數(shù)據(jù)清洗后,我們得到了一個完整正確的數(shù)據(jù)。但是數(shù)據(jù)源和數(shù)據(jù)分析所需要的數(shù)據(jù)并不完全一致,在開始分析前。還需要將部分數(shù)據(jù)進行加工。

數(shù)據(jù)拆分

從數(shù)據(jù)字段中抽取需要的數(shù)據(jù)內(nèi)容。如從身份證中抽取出生年月日、從手機型號中抽取手機品牌。

數(shù)據(jù)合并

數(shù)據(jù)合并是數(shù)據(jù)拆分的逆操作,將多個字段合并成一個字段。如將出生年、月、日三個字段合并成出生日期一個字段。

數(shù)據(jù)匹配

從不同的表中匹配到需要的信息組成新的數(shù)據(jù)表。

如用訂單表匹配用戶信息表,可以得到一個訂單的區(qū)域表。

結(jié)構(gòu)轉(zhuǎn)換

將數(shù)據(jù)表的結(jié)構(gòu)進行轉(zhuǎn)換,主要是為了方便后續(xù)數(shù)據(jù)處理。

數(shù)據(jù)計算

對數(shù)據(jù)進行簡單的加減乘除、平均、加權(quán)等計算。產(chǎn)生新的字段或者新的數(shù)據(jù)表。

數(shù)據(jù)轉(zhuǎn)換

根據(jù)分析的需要將字段進行計算和轉(zhuǎn)換。如將出生年月轉(zhuǎn)換成年齡,將廣東、湖南轉(zhuǎn)換成華南區(qū)等。

本文由 @林海舟 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
36510人已学习27篇文章
作为AIGC的代表性应用之一,ChatGPT仅仅只用了2个月的时间就已经突破了1亿用户。
专题
15948人已学习12篇文章
区别于普通业务,中台能让系统更好地满足业务需求,提升系统效率。本专题的文章分享了如何搭建业务中台。
专题
12712人已学习13篇文章
产品经理在日常工作中,除了要跟进和把控产品的整体流程以外,也要对产品后续的销售策略进行规划;销售策略的规划可以让产品经理对于用户的场景以及体验等更加熟悉。本专题的文章分享了产品的销售策略。
专题
16125人已学习16篇文章
企业服务(2B)公司的创业有8个阶段,所有SaaS公司或2B公司不可能跳过这些阶段,每个阶段都有明确的任务。本专题的文章分享了SaaS创业路线图。
专题
14790人已学习12篇文章
本专题的文章分享了SaaS平台产品架构设计。
专题
12512人已学习12篇文章
所谓SOP,即标准作业程序,指将某一事件的标准操作步骤和要求以统一的格式描述出来,用于指导和规范日常的工作。本专题的文章分享了SOP创作指南。