如何評(píng)價(jià)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)好壞?有哪些量化指標(biāo)

0 評(píng)論 2649 瀏覽 4 收藏 7 分鐘

該文本主要是關(guān)于如何評(píng)估數(shù)據(jù)倉(cāng)庫(kù)建設(shè)和維護(hù)效果的一些建議和相關(guān)量化指標(biāo),包括數(shù)倉(cāng)完善度、復(fù)用度和規(guī)范性的衡量方法。

企業(yè)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)需要數(shù)據(jù)開(kāi)發(fā)者投入大量的時(shí)間和資源,對(duì)于數(shù)據(jù)團(tuán)隊(duì)來(lái)說(shuō),管理者如何評(píng)價(jià)他們工作的好壞呢?

一群數(shù)據(jù)開(kāi)發(fā)者每天都加班加點(diǎn),業(yè)務(wù)部門仍然吐槽數(shù)據(jù)找不到,數(shù)據(jù)沒(méi)有,又該如何評(píng)價(jià)呢?

結(jié)合數(shù)據(jù)中臺(tái)思想,數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)目標(biāo)是希望為業(yè)務(wù)提供盡可能完善的模型(需要的我都有),并且減少重復(fù)建設(shè)盡量復(fù)用(成本要足夠低),此外,還需要符合統(tǒng)一的標(biāo)準(zhǔn)規(guī)范(數(shù)據(jù)標(biāo)準(zhǔn))。

一、數(shù)倉(cāng)完善度的衡量指標(biāo)

數(shù)倉(cāng)完善度是指經(jīng)過(guò)數(shù)據(jù)開(kāi)發(fā)長(zhǎng)時(shí)間的開(kāi)發(fā)和迭代,現(xiàn)有的數(shù)據(jù)倉(cāng)庫(kù)資產(chǎn)是否覆蓋了業(yè)務(wù)常用的查詢場(chǎng)景,業(yè)務(wù)要的,模型是否已經(jīng)建設(shè)完成?

衡量DWD層是否完善,通常看ODS層有多少表被 DWS/ADS/DM 層引用。因?yàn)?DWD 以上的層引用的越多,就說(shuō)明越多的任務(wù)是基于原始數(shù)據(jù)進(jìn)行深度聚合計(jì)算的,明細(xì)數(shù)據(jù)沒(méi)有積累,無(wú)法被復(fù)用,數(shù)據(jù)清洗、格式化、集成存在重復(fù)開(kāi)發(fā)。因此, 可以用跨層引用率指標(biāo)衡量 DWD 的完善度。

–跨層引用率:ODS 層直接被 DWS/ADS/DM 層引用的表,占所有 ODS 層表(僅統(tǒng)計(jì)活 躍表)比例??鐚右寐试降驮胶?,在數(shù)據(jù)中臺(tái)模型設(shè)計(jì)規(guī)范中,一般要求不允許出現(xiàn)跨層引用,ODS 層數(shù)據(jù)只能被 DWD 引用。

DWS/ADS/DM 層完善度:考核匯總數(shù)據(jù)的完善度,一般主要看匯總數(shù)據(jù)能直接滿足多少查詢需求(也就是用匯總層數(shù)據(jù)的查詢比例衡量)。如果匯總數(shù)據(jù)無(wú)法滿足需求,使用數(shù)據(jù)的人就必須使用明細(xì)數(shù)據(jù),甚至是原始數(shù)據(jù),可以用匯總數(shù)據(jù)查詢比例衡量DWS/ADS/DM 層完善度

–匯總數(shù)據(jù)查詢比例:DWS/ADS/DM 層的查詢占所有查詢的比例。要明確的是,這個(gè)跟跨層引用率不同,匯總查詢比例不可能做到 100%,但值越高,說(shuō)明上層的數(shù)據(jù)建設(shè)越完善,對(duì)于使用數(shù)據(jù)的人來(lái)說(shuō),查詢速度和成本會(huì)減少,用起來(lái)會(huì)更順暢。

二、數(shù)倉(cāng)復(fù)用度衡量指標(biāo)

數(shù)據(jù)中臺(tái)核心是追求模型的復(fù)用和共享,通過(guò)元數(shù)據(jù)中心的數(shù)據(jù)血緣圖,可以看到,一個(gè)比較差的模型設(shè)計(jì),自下而上是一條線。而一個(gè)理想的模型設(shè)計(jì),它應(yīng)該是交織的發(fā)散型結(jié)構(gòu)??梢杂媚P鸵孟禂?shù)作為指標(biāo),衡量數(shù)據(jù)模型設(shè)計(jì)的復(fù)用度。引用系數(shù)越高,說(shuō)明數(shù)倉(cāng)的復(fù)用性越好。

模型引用系數(shù):一個(gè)模型被讀取,直接產(chǎn)出下游模型的平均數(shù)量。比如一張 DWD 層表被 5 張 DWS 層表引用,這張 DWD 層表的引用系數(shù)就是 5,如果把所有 DWD 層表(有下游表的)引用系數(shù)取平均值,則為 DWD 層表平均模型引用系數(shù), 一般低于 2 比較差,3 以上相對(duì)比較好(經(jīng)驗(yàn)值)。

三、數(shù)倉(cāng)規(guī)范度衡量指標(biāo)

在數(shù)據(jù)治理初期,我們統(tǒng)計(jì)發(fā)現(xiàn)80%的表的字段描述時(shí)不全的(不到100%),超過(guò) 40% 的表都沒(méi)有分層信息,在模型設(shè)計(jì)層面,這顯然是不規(guī)范的。

除了看這個(gè)表有沒(méi)有分層,還要看它有沒(méi)有歸屬到主題域(例如交易域)如果沒(méi)有歸屬主題域,就很難找到這張表,也無(wú)法復(fù)用。

其次,你要看表的命名。拿order_detai這個(gè)命名為例,當(dāng)你看到這個(gè)表時(shí),知道它是哪個(gè)主題域、業(yè)務(wù)過(guò)程?是全量數(shù)據(jù)的表,還是每天的增量數(shù)據(jù)?

總的來(lái)說(shuō),通過(guò)這個(gè)表名獲取的信息太有限了。一個(gè)規(guī)范的表命名應(yīng)該包括主題域、分層、表是全量快照,還是增量等信息。

除此之外,如果在表 A 中用戶 ID 的命名是 UserID,在表 B 中用戶 ID 命名是 ID,就會(huì)對(duì)使用者造成困擾,這到底是不是一個(gè)東西。所以我們要求相同的字段在不同的模型中,它的命名必須是一致的。

常用的規(guī)范性指標(biāo)可以從數(shù)據(jù)標(biāo)準(zhǔn)治理的核心角度設(shè)定,比如,字段描述覆蓋率,模型分層信息覆蓋率、命名不規(guī)范表占比等

總之,評(píng)價(jià)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)好壞需要從多個(gè)維度進(jìn)行考量,包括外部評(píng)價(jià)標(biāo)準(zhǔn)和內(nèi)部評(píng)價(jià)標(biāo)準(zhǔn)。在量化指標(biāo)方面,可以從完善度、復(fù)用度和規(guī)范性三個(gè)方面進(jìn)行衡量,以確保數(shù)據(jù)倉(cāng)庫(kù)能夠?yàn)槠髽I(yè)帶來(lái)更大的價(jià)值。

本文由人人都是產(chǎn)品經(jīng)理作者【數(shù)據(jù)干飯人】,微信公眾號(hào):【數(shù)據(jù)干飯人】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!
专题
36790人已学习17篇文章
如果你们有志于在运营路上深耕,并实现快速成长,你需要知道以下这些!
专题
17929人已学习15篇文章
签到功能是培养用户习惯的好办法。本专题的文章提供了签到功能的设计指南。
专题
35543人已学习18篇文章
好的数据分析可以使我们的产品不断优化,而做好数据分析的第一步就是做好数据埋点。
专题
12691人已学习13篇文章
产品经理在日常工作中,除了要跟进和把控产品的整体流程以外,也要对产品后续的销售策略进行规划;销售策略的规划可以让产品经理对于用户的场景以及体验等更加熟悉。本专题的文章分享了产品的销售策略。
专题
13601人已学习12篇文章
用户调研作为产品人员最常用的工作方式,相信各位一定不会陌生。但如何提高用户调研的有效性却是一直困扰大家的问题。本专题的文章分享了用户调研的方法论。