數(shù)據(jù)治理:如何提高數(shù)據(jù)質(zhì)量?

0 評(píng)論 2843 瀏覽 9 收藏 7 分鐘

本文深入探討了數(shù)據(jù)治理的核心議題——如何提高數(shù)據(jù)質(zhì)量。從識(shí)別數(shù)據(jù)質(zhì)量問(wèn)題的根源到實(shí)施有效的監(jiān)控規(guī)則,再到衡量數(shù)據(jù)治理成效的指標(biāo),為您提供了一套完整的數(shù)據(jù)質(zhì)量管理框架,希望幫助您的組織確保數(shù)據(jù)的準(zhǔn)確性和可靠性,從而做出更明智的業(yè)務(wù)決策。

文章基于《數(shù)據(jù)中臺(tái)實(shí)踐課》總結(jié)分享

往期文章講過(guò)數(shù)據(jù)治理可以說(shuō)是數(shù)據(jù)產(chǎn)品的生命線,如果數(shù)據(jù)不準(zhǔn)給業(yè)務(wù)帶來(lái)錯(cuò)誤的決策引導(dǎo),可能會(huì)帶來(lái)難以預(yù)計(jì)的業(yè)務(wù)損失。

一、數(shù)據(jù)質(zhì)量問(wèn)題產(chǎn)生的原因

二、如果提高數(shù)據(jù)質(zhì)量?

數(shù)據(jù)質(zhì)量問(wèn)題無(wú)法完全根治或杜絕,所以要想提升數(shù)據(jù)質(zhì)量,最重要的就是“早發(fā)現(xiàn),早恢復(fù)”。要做到這一點(diǎn)就需要依賴完善的數(shù)據(jù)質(zhì)量監(jiān)控能力,在數(shù)據(jù)生產(chǎn)加工的全鏈路過(guò)程中,添加質(zhì)量稽核規(guī)則。例如對(duì)產(chǎn)出表按照業(yè)務(wù)規(guī)則,設(shè)計(jì)一些校驗(yàn)邏輯,確保數(shù)據(jù)的完整性、一致性和準(zhǔn)確性。

在數(shù)據(jù)產(chǎn)出任務(wù)運(yùn)行結(jié)束后,啟動(dòng)稽核校驗(yàn)任務(wù)對(duì)數(shù)據(jù)結(jié)果進(jìn)行掃描計(jì)算,判斷數(shù)據(jù)結(jié)果是否符合規(guī)則預(yù)期。如果不符合,就根據(jù)提前設(shè)定的強(qiáng)弱規(guī)則,觸發(fā)不同的處理流程。如果是強(qiáng)規(guī)則,就立即終止任務(wù)加工鏈路,后續(xù)的任務(wù)不會(huì)執(zhí)行,并且立即發(fā)出電話報(bào)警, 甚至關(guān)鍵任務(wù)還要開(kāi)啟循環(huán)電話報(bào)警,直到故障被認(rèn)領(lǐng);如果是弱規(guī)則,任務(wù)會(huì)繼續(xù)執(zhí)行。但是存在風(fēng)險(xiǎn),這些風(fēng)險(xiǎn)會(huì)通過(guò)郵件或者短信的方式,通知到數(shù)據(jù)開(kāi)發(fā),由人來(lái)進(jìn)一步判斷風(fēng)險(xiǎn)嚴(yán)重程度。

早發(fā)現(xiàn),是要能夠先于數(shù)據(jù)使用方發(fā)現(xiàn)數(shù)據(jù)的問(wèn)題,盡可能在出現(xiàn)問(wèn)題的源頭發(fā)現(xiàn)問(wèn)題,這樣就為“早恢復(fù)”爭(zhēng)取到了大量的時(shí)間。早恢復(fù),就是要縮短故障恢復(fù)的時(shí)間,降低故障對(duì)數(shù)據(jù)產(chǎn)出的影響。圖5 稽核校驗(yàn)執(zhí)行流程圖 那具體要加哪些稽核規(guī)則呢?

三、數(shù)據(jù)治理監(jiān)控的常用規(guī)則

完整性規(guī)則。主要目的是確保數(shù)據(jù)記錄是完整的,不丟失。常見(jiàn)的稽核規(guī)則有表數(shù)據(jù)量的絕對(duì)值監(jiān)控和波動(dòng)率的監(jiān)控(比如表波動(dòng)超20%,就認(rèn)為是異常)。還有主鍵唯一性的監(jiān)控,它是判斷數(shù)據(jù)是否有重復(fù)記錄的監(jiān)控規(guī)則,比較基礎(chǔ)。除了表級(jí)別的監(jiān)控, 還有字段級(jí)別的監(jiān)控(比如字段為 0、為 NULL 的記錄)。

一致性規(guī)則。主要解決相關(guān)數(shù)據(jù)在不同模型中一致性的問(wèn)題。商品購(gòu)買率是通過(guò)商品購(gòu) 買用戶數(shù)除以商品訪問(wèn) uv 計(jì)算而來(lái)的,如果在不同的模型中,商品購(gòu)買用戶數(shù)是 1W、 商品訪問(wèn) uv10W,商品購(gòu)買率 20%,那這三個(gè)指標(biāo)就存在不一致。

準(zhǔn)確性規(guī)則。主要解決數(shù)據(jù)記錄正確性的問(wèn)題。常見(jiàn)的稽核規(guī)則有,一個(gè)商品只能歸屬在一個(gè)類目,數(shù)據(jù)格式是不是正確的 IP 格式,訂單的下單日期是還沒(méi)有發(fā)生的日期等等。

四、數(shù)據(jù)治理的衡量指標(biāo)

管理學(xué)大師彼得德魯克說(shuō)過(guò)如果你無(wú)法衡量,你就無(wú)法提升。做數(shù)據(jù)治理,也需要有衡量標(biāo)準(zhǔn),促進(jìn)不斷改善。那么如何評(píng)價(jià)數(shù)據(jù)質(zhì)量是否有改進(jìn)呢?除了故障次數(shù),你還可以有這樣幾個(gè)指標(biāo)。

核心任務(wù)產(chǎn)出完成率。這個(gè)指標(biāo)是一個(gè)綜合性指標(biāo),如果任務(wù)異常, 任務(wù)延遲,強(qiáng)稽核規(guī)則失敗,都會(huì)導(dǎo)致任務(wù)無(wú)法在規(guī)定時(shí)間前產(chǎn)出。

基于稽核規(guī)則,計(jì)算表級(jí)別的質(zhì)量分?jǐn)?shù)。根據(jù)表上稽核規(guī)則的通過(guò)情況,為每個(gè)表建立質(zhì)量分?jǐn)?shù),對(duì)于分?jǐn)?shù)低的表,表負(fù)責(zé)人要承擔(dān)改進(jìn)責(zé)任。

需要立即介入的報(bào)警次數(shù),通常以開(kāi)啟循環(huán)報(bào)警的電話報(bào)警次數(shù)為準(zhǔn)。對(duì)于核心任務(wù), 任務(wù)異常會(huì)觸發(fā)循環(huán)電話報(bào)警,接到報(bào)警的數(shù)據(jù)開(kāi)發(fā)需要立即介入。

數(shù)據(jù)產(chǎn)品 SLA。每個(gè)數(shù)據(jù)產(chǎn)品上所有指標(biāo)有沒(méi)有在 9 點(diǎn)產(chǎn)出,如果沒(méi)有,開(kāi)始計(jì)算不可 用時(shí)間,整體可以按照不同數(shù)據(jù)產(chǎn)品的重要性進(jìn)行折算,99.8% 是數(shù)據(jù)產(chǎn)品一個(gè)相對(duì)比 較好的 SLA。

五、數(shù)據(jù)質(zhì)量相關(guān)的數(shù)據(jù)產(chǎn)品

工欲善其事必先利其器,提升數(shù)據(jù)監(jiān)控稽核規(guī)則的配置效率和覆蓋度需要依賴于數(shù)據(jù)質(zhì)量監(jiān)控相關(guān)的產(chǎn)品,一般來(lái)說(shuō)需要具備靈活的規(guī)則配置能力和批量操作的功能,隨著AI的發(fā)展,增加更多的智能分析和預(yù)警能力。

本文由人人都是產(chǎn)品經(jīng)理作者【數(shù)據(jù)干飯人】,微信公眾號(hào):【數(shù)據(jù)干飯人】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!