如何評(píng)價(jià)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)好壞?有哪些量化指標(biāo)
該文本主要是關(guān)于如何評(píng)估數(shù)據(jù)倉(cāng)庫(kù)建設(shè)和維護(hù)效果的一些建議和相關(guān)量化指標(biāo),包括數(shù)倉(cāng)完善度、復(fù)用度和規(guī)范性的衡量方法。
企業(yè)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)需要數(shù)據(jù)開(kāi)發(fā)者投入大量的時(shí)間和資源,對(duì)于數(shù)據(jù)團(tuán)隊(duì)來(lái)說(shuō),管理者如何評(píng)價(jià)他們工作的好壞呢?
一群數(shù)據(jù)開(kāi)發(fā)者每天都加班加點(diǎn),業(yè)務(wù)部門仍然吐槽數(shù)據(jù)找不到,數(shù)據(jù)沒(méi)有,又該如何評(píng)價(jià)呢?
結(jié)合數(shù)據(jù)中臺(tái)思想,數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)目標(biāo)是希望為業(yè)務(wù)提供盡可能完善的模型(需要的我都有),并且減少重復(fù)建設(shè)盡量復(fù)用(成本要足夠低),此外,還需要符合統(tǒng)一的標(biāo)準(zhǔn)規(guī)范(數(shù)據(jù)標(biāo)準(zhǔn))。
一、數(shù)倉(cāng)完善度的衡量指標(biāo)
數(shù)倉(cāng)完善度是指經(jīng)過(guò)數(shù)據(jù)開(kāi)發(fā)長(zhǎng)時(shí)間的開(kāi)發(fā)和迭代,現(xiàn)有的數(shù)據(jù)倉(cāng)庫(kù)資產(chǎn)是否覆蓋了業(yè)務(wù)常用的查詢場(chǎng)景,業(yè)務(wù)要的,模型是否已經(jīng)建設(shè)完成?
衡量DWD層是否完善,通常看ODS層有多少表被 DWS/ADS/DM 層引用。因?yàn)?DWD 以上的層引用的越多,就說(shuō)明越多的任務(wù)是基于原始數(shù)據(jù)進(jìn)行深度聚合計(jì)算的,明細(xì)數(shù)據(jù)沒(méi)有積累,無(wú)法被復(fù)用,數(shù)據(jù)清洗、格式化、集成存在重復(fù)開(kāi)發(fā)。因此, 可以用跨層引用率指標(biāo)衡量 DWD 的完善度。
–跨層引用率:ODS 層直接被 DWS/ADS/DM 層引用的表,占所有 ODS 層表(僅統(tǒng)計(jì)活 躍表)比例??鐚右寐试降驮胶?,在數(shù)據(jù)中臺(tái)模型設(shè)計(jì)規(guī)范中,一般要求不允許出現(xiàn)跨層引用,ODS 層數(shù)據(jù)只能被 DWD 引用。
DWS/ADS/DM 層完善度:考核匯總數(shù)據(jù)的完善度,一般主要看匯總數(shù)據(jù)能直接滿足多少查詢需求(也就是用匯總層數(shù)據(jù)的查詢比例衡量)。如果匯總數(shù)據(jù)無(wú)法滿足需求,使用數(shù)據(jù)的人就必須使用明細(xì)數(shù)據(jù),甚至是原始數(shù)據(jù),可以用匯總數(shù)據(jù)查詢比例衡量DWS/ADS/DM 層完善度
–匯總數(shù)據(jù)查詢比例:DWS/ADS/DM 層的查詢占所有查詢的比例。要明確的是,這個(gè)跟跨層引用率不同,匯總查詢比例不可能做到 100%,但值越高,說(shuō)明上層的數(shù)據(jù)建設(shè)越完善,對(duì)于使用數(shù)據(jù)的人來(lái)說(shuō),查詢速度和成本會(huì)減少,用起來(lái)會(huì)更順暢。
二、數(shù)倉(cāng)復(fù)用度衡量指標(biāo)
數(shù)據(jù)中臺(tái)核心是追求模型的復(fù)用和共享,通過(guò)元數(shù)據(jù)中心的數(shù)據(jù)血緣圖,可以看到,一個(gè)比較差的模型設(shè)計(jì),自下而上是一條線。而一個(gè)理想的模型設(shè)計(jì),它應(yīng)該是交織的發(fā)散型結(jié)構(gòu)??梢杂媚P鸵孟禂?shù)作為指標(biāo),衡量數(shù)據(jù)模型設(shè)計(jì)的復(fù)用度。引用系數(shù)越高,說(shuō)明數(shù)倉(cāng)的復(fù)用性越好。
模型引用系數(shù):一個(gè)模型被讀取,直接產(chǎn)出下游模型的平均數(shù)量。比如一張 DWD 層表被 5 張 DWS 層表引用,這張 DWD 層表的引用系數(shù)就是 5,如果把所有 DWD 層表(有下游表的)引用系數(shù)取平均值,則為 DWD 層表平均模型引用系數(shù), 一般低于 2 比較差,3 以上相對(duì)比較好(經(jīng)驗(yàn)值)。
三、數(shù)倉(cāng)規(guī)范度衡量指標(biāo)
在數(shù)據(jù)治理初期,我們統(tǒng)計(jì)發(fā)現(xiàn)80%的表的字段描述時(shí)不全的(不到100%),超過(guò) 40% 的表都沒(méi)有分層信息,在模型設(shè)計(jì)層面,這顯然是不規(guī)范的。
除了看這個(gè)表有沒(méi)有分層,還要看它有沒(méi)有歸屬到主題域(例如交易域)如果沒(méi)有歸屬主題域,就很難找到這張表,也無(wú)法復(fù)用。
其次,你要看表的命名。拿order_detai這個(gè)命名為例,當(dāng)你看到這個(gè)表時(shí),知道它是哪個(gè)主題域、業(yè)務(wù)過(guò)程?是全量數(shù)據(jù)的表,還是每天的增量數(shù)據(jù)?
總的來(lái)說(shuō),通過(guò)這個(gè)表名獲取的信息太有限了。一個(gè)規(guī)范的表命名應(yīng)該包括主題域、分層、表是全量快照,還是增量等信息。
除此之外,如果在表 A 中用戶 ID 的命名是 UserID,在表 B 中用戶 ID 命名是 ID,就會(huì)對(duì)使用者造成困擾,這到底是不是一個(gè)東西。所以我們要求相同的字段在不同的模型中,它的命名必須是一致的。
常用的規(guī)范性指標(biāo)可以從數(shù)據(jù)標(biāo)準(zhǔn)治理的核心角度設(shè)定,比如,字段描述覆蓋率,模型分層信息覆蓋率、命名不規(guī)范表占比等
總之,評(píng)價(jià)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)好壞需要從多個(gè)維度進(jìn)行考量,包括外部評(píng)價(jià)標(biāo)準(zhǔn)和內(nèi)部評(píng)價(jià)標(biāo)準(zhǔn)。在量化指標(biāo)方面,可以從完善度、復(fù)用度和規(guī)范性三個(gè)方面進(jìn)行衡量,以確保數(shù)據(jù)倉(cāng)庫(kù)能夠?yàn)槠髽I(yè)帶來(lái)更大的價(jià)值。
本文由人人都是產(chǎn)品經(jīng)理作者【數(shù)據(jù)干飯人】,微信公眾號(hào):【數(shù)據(jù)干飯人】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!