數(shù)據(jù)產(chǎn)品經(jīng)理必須掌握的知識其實只是在大佬眼中的常識
眾所周知數(shù)據(jù)產(chǎn)品經(jīng)理是一個集數(shù)據(jù)分析、產(chǎn)品設計與業(yè)務理解于一體的綜合性崗位,其所需掌握的技能、崗位職責以及核心價值對于企業(yè)和產(chǎn)品的發(fā)展至關重要。小編最近在設計一個數(shù)字資產(chǎn)平臺的時候,深有體會,一個數(shù)據(jù)產(chǎn)品經(jīng)理是最有可能幫助公司找到技術壁壘的存在,因此,今日小編將會分以下幾點,和大家剖析數(shù)據(jù)產(chǎn)品經(jīng)理的Common Sense
一、所需掌握的技能
1. 數(shù)據(jù)分析技能
- SQL及數(shù)據(jù)庫知識:熟練掌握SQL語言,能夠高效地進行數(shù)據(jù)查詢、處理和分析。
- 統(tǒng)計與數(shù)據(jù)分析工具:熟悉使用Excel、Python(Pandas、NumPy等庫)、R等數(shù)據(jù)分析工具,能夠進行復雜的數(shù)據(jù)處理和分析。
- 數(shù)據(jù)可視化:掌握至少一種數(shù)據(jù)可視化工具(如Tableau、Power BI等),能夠將復雜的數(shù)據(jù)轉化為直觀的圖表,幫助業(yè)務團隊更好地理解數(shù)據(jù)。
2. 產(chǎn)品設計與項目管理技能
- 產(chǎn)品設計能力:具備用戶需求分析、產(chǎn)品原型設計、PRD文檔編寫等能力,能夠獨立完成產(chǎn)品的規(guī)劃和設計。
- 項目管理能力:能夠協(xié)調跨部門資源,推動項目按計劃進行,確保產(chǎn)品按時上線并持續(xù)優(yōu)化。
3. 業(yè)務理解與洞察能力
- 行業(yè)知識:對所在行業(yè)有深入的了解,能夠洞察行業(yè)趨勢和市場需求。
- 業(yè)務邏輯理解:深入理解企業(yè)業(yè)務邏輯和流程,能夠將業(yè)務需求轉化為產(chǎn)品功能。
4. 技術理解能力
- 大數(shù)據(jù)與AI技術:了解大數(shù)據(jù)平臺、機器學習等前沿技術,能夠將其應用于產(chǎn)品設計中以提升產(chǎn)品競爭力。
- 數(shù)據(jù)治理與安全:了解數(shù)據(jù)治理的基本概念和方法,確保數(shù)據(jù)的質量和安全。
二、核心價值
數(shù)據(jù)產(chǎn)品經(jīng)理的核心價值主要體現(xiàn)在以下幾個方面:
- 提升決策效率與質量:通過數(shù)據(jù)分析為業(yè)務團隊提供準確、及時的數(shù)據(jù)支持,幫助團隊做出更加科學、合理的決策。
- 優(yōu)化產(chǎn)品功能與用戶體驗:基于用戶需求和業(yè)務場景進行產(chǎn)品設計與優(yōu)化,提升產(chǎn)品的易用性和滿意度。
- 推動業(yè)務增長與創(chuàng)新:通過數(shù)據(jù)洞察發(fā)現(xiàn)新的業(yè)務機會和創(chuàng)新點,推動業(yè)務的持續(xù)增長和創(chuàng)新發(fā)展。
- 促進數(shù)據(jù)資產(chǎn)的價值最大化:通過數(shù)據(jù)治理和數(shù)據(jù)分析等手段提升數(shù)據(jù)資產(chǎn)的質量和價值,為企業(yè)創(chuàng)造更大的商業(yè)價值。
三、術語解釋
1. 數(shù)據(jù)元
數(shù)據(jù)元是數(shù)據(jù)的最小單元,它是對特定信息內容的標準化表示。它通常代表一個單一的事實、屬性或特征,如姓名、日期或金額等。數(shù)據(jù)元具有明確的定義、數(shù)據(jù)類型、值域和表示方法,它是構成數(shù)據(jù)集的基本單元。
2. 元數(shù)據(jù)
元數(shù)據(jù)是描述關于數(shù)據(jù)的數(shù)據(jù),它提供了關于數(shù)據(jù)元的相關信息,如數(shù)據(jù)的來源、格式、位置、名稱、大小等以及如何訪問和處理這些數(shù)據(jù)。有助于數(shù)據(jù)的識別、管理和使用。
元數(shù)據(jù)打通了源數(shù)據(jù)、數(shù)據(jù)倉庫、數(shù)據(jù)應用,記錄了數(shù)據(jù)從產(chǎn)生到消費的全過程。元數(shù)據(jù)主要記錄數(shù)據(jù)倉庫中模型的定義、各層級間的映射關系、監(jiān)控數(shù)據(jù)倉庫的數(shù)據(jù)狀態(tài)及ETL的任務運行狀態(tài)。
元數(shù)據(jù)按類型劃分:
- 業(yè)務元數(shù)據(jù):例如;用戶范圍、業(yè)務規(guī)則、邏輯規(guī)則等等;
- 技術元數(shù)據(jù):例如:在數(shù)據(jù)庫中的表名、字段名、字段類型、字段長度等等;
- 管理/操作元數(shù)據(jù):例如:管理元數(shù)據(jù)的加工、存檔、結構、存取、版本控制權等等的問題;
3. 主數(shù)據(jù)
企業(yè)中多個信息系統(tǒng)共享和使用的數(shù)據(jù),主數(shù)據(jù)不僅僅是清洗過的標準數(shù)據(jù),它還包括了數(shù)據(jù)的整合、豐富和維護等一系列管理活動,以確保數(shù)據(jù)的質量和應用的一致性。
4. 數(shù)據(jù)源
數(shù)據(jù)源則是指數(shù)據(jù)的產(chǎn)生地或存儲地,它可以是數(shù)據(jù)庫、文件、API接口等。數(shù)據(jù)源包含了一系列的數(shù)據(jù)元素,它們是數(shù)據(jù)流的起點,可以被提取、轉換并用于不同的應用場景。數(shù)據(jù)元:是實際的數(shù)據(jù)內容,是構成數(shù)據(jù)的基本單位,關注于數(shù)據(jù)的定義和標準化;
- 元數(shù)據(jù):是對數(shù)據(jù)元的描述和說明。數(shù)據(jù)元與元數(shù)據(jù)兩者相輔相成,共同構成了完整的數(shù)據(jù)管理體系;
- 主數(shù)據(jù):是企業(yè)核心業(yè)務實體的集合,關注于跨系統(tǒng)的數(shù)據(jù)一致性和準確性;
- 數(shù)據(jù)源:則是這些數(shù)據(jù)元的原始出處。
5. 數(shù)據(jù)質量規(guī)則體系
數(shù)據(jù)質量管理(Data Quality Management),是指對數(shù)據(jù)從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發(fā)的各類數(shù)據(jù)質量問題,進行識別、度量、監(jiān)控、預警等一系列管理活動,并通過改善和提高組織的管理水平使得數(shù)據(jù)質量獲得進一步提高。
完整性、唯一性、有效性(合規(guī)性)、一致性、準確性、及時性,六個維度進行單列、跨列、跨行和跨表的分析
- 準確性: 描述數(shù)據(jù)是否與其對應的客觀實體的特征相一致。
- 完整性: 描述數(shù)據(jù)是否存在缺失記錄或缺失字段。
- 一致性: 描述同一實體的同一屬性的值在不同的系統(tǒng)是否一致。
- 有效性: 描述數(shù)據(jù)是否滿足用戶定義的條件或在一定的域值范圍內。
- 唯一性: 描述數(shù)據(jù)是否存在重復記錄。
- 及時性: 描述數(shù)據(jù)的產(chǎn)生和供應是否及時。
- 穩(wěn)定性: 描述數(shù)據(jù)的波動是否是穩(wěn)定的,是否在其有效范圍內。
6. 數(shù)據(jù)安全管理
旨在確保數(shù)據(jù)在整個生命周期內的保密性、完整性和可用性,同時也包括確保數(shù)據(jù)的合法合規(guī)使用。
7. ETL數(shù)據(jù)
指通過提取(Extract)、轉換(Transform)和加載(Load)的流程處理的數(shù)據(jù)
8. 數(shù)據(jù)湖
是一個大規(guī)模的存儲系統(tǒng),用于存儲原始數(shù)據(jù)和未經(jīng)處理的數(shù)據(jù)。
數(shù)據(jù)湖中的數(shù)據(jù)可能是半結構化或非結構化的,例如文本文件、電子郵件、社交媒體帖子等。數(shù)據(jù)湖的目的是保留數(shù)據(jù)的原始狀態(tài),直到需要時再進行處理和分析。
9. 數(shù)據(jù)倉庫
數(shù)據(jù)倉庫側重于結構化數(shù)據(jù)的集成和分析。是一個面向主題、集成的、相對穩(wěn)定的環(huán)境,用于支持決策制定過程。它通常包含經(jīng)過清理和集成的歷史數(shù)據(jù),這些數(shù)據(jù)不再被修改,而是用于查詢和分析。數(shù)據(jù)倉庫的數(shù)據(jù)是結構化的,適合進行復雜的查詢和報告生成,以支持商業(yè)智能(BI)和在線分析處理(OLAP)應用。
10. 數(shù)據(jù)集市
可以被視為數(shù)據(jù)倉庫的子集,它服務于特定的業(yè)務領域或部門。數(shù)據(jù)集市包含特定主題的數(shù)據(jù),通常更加專注于滿足某個特定業(yè)務需求的數(shù)據(jù)分析。
11. 數(shù)據(jù)標簽
用戶對資產(chǎn)進行分類和描述,以便于檢索??梢詮臉I(yè)務角度定義標簽,并與技術資產(chǎn)關聯(lián)數(shù)據(jù)指標
12. Broker
通常指的是消息代理服務器
13. ODS
數(shù)據(jù)倉庫中的ODS(Operational Data Store),ODS是指操作型數(shù)據(jù)存儲,它是一種用于整合和管理多個數(shù)據(jù)源的數(shù)據(jù)存儲方式。它的主要作用是提供統(tǒng)一的數(shù)據(jù)平臺,讓業(yè)務用戶能夠在同一個平臺上訪問、管理和分析多個數(shù)據(jù)源的數(shù)據(jù)。ODS中的數(shù)據(jù)則是按照業(yè)務實時的需要進行組織,通常包括原始數(shù)據(jù)和運算數(shù)據(jù)兩種。
1)數(shù)據(jù)倉庫與ODS的區(qū)別
(1)數(shù)據(jù)結構不同
數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題進行組織的,通常采用三層架構:底層是數(shù)據(jù)明細層,中層是聚合層,頂層是匯總層。而ODS中的數(shù)據(jù)則是按照業(yè)務實時的需要進行組織,通常包括原始數(shù)據(jù)和運算數(shù)據(jù)兩種。
(2)數(shù)據(jù)處理方式不同
數(shù)據(jù)倉庫中的數(shù)據(jù)處理以分析為主,注重數(shù)據(jù)的全面性和綜合性,數(shù)據(jù)多為靜態(tài),數(shù)據(jù)處理操作較少。而ODS中的數(shù)據(jù)處理以操作為主,注重數(shù)據(jù)的準確性和實時性,數(shù)據(jù)多為動態(tài),數(shù)據(jù)處理操作頻繁。
(3)數(shù)據(jù)來源不同
數(shù)據(jù)倉庫中的數(shù)據(jù)通常來自于多個異構數(shù)據(jù)源,需要進行數(shù)據(jù)清洗、整合等操作才能進入數(shù)據(jù)倉庫。而ODS中的數(shù)據(jù)則來自于生產(chǎn)系統(tǒng)的數(shù)據(jù)庫,可以直接進行操作。
2)數(shù)據(jù)質量關注點
- 一致性:值數(shù)內容在系統(tǒng)內,系統(tǒng)間是否保持一致。如指標是否同名同義,存儲,精確度,加工邏輯等是否一致。
- 完整性:指數(shù)據(jù)的完整,完備性與及時性,是否存在數(shù)據(jù)遺漏,缺失及補充等。每日提供的數(shù)據(jù)應該是完整的,無論在量上還是在特定的數(shù)據(jù)上,高質量的數(shù)據(jù)是通過完整的數(shù)據(jù)統(tǒng)計出來的。
- 可靠性:指數(shù)據(jù)的穩(wěn)定性和準確性等,數(shù)據(jù)提供過程中,數(shù)據(jù)產(chǎn)生依賴于系統(tǒng)間的性能,生產(chǎn)數(shù)據(jù)和加工數(shù)據(jù)的過程,都會影響數(shù)據(jù)的可靠性。
- 準確性:數(shù)據(jù)域源頭的精確性,以及數(shù)據(jù)處理過程中是否存在算法和數(shù)據(jù)沖突等。數(shù)據(jù)的準確性可能存在于個別記錄,也可能存在于整個數(shù)據(jù)集,只有準確更高的數(shù)據(jù)才能提供高效、高優(yōu)的決策。
- 可理解性:數(shù)據(jù)的可讀性和可分析性,是否滿足業(yè)務需求,以及數(shù)據(jù)間是否存在相互關系,用戶拿到數(shù)據(jù)是可理解,可用,可決策的。
- 有效性:指數(shù)據(jù)是否有效可用,以及數(shù)據(jù)數(shù)據(jù)的訪問域安全性等。數(shù)據(jù)安全是數(shù)據(jù)質量的一項重點管理方面,數(shù)據(jù)安全對于數(shù)據(jù)人來說是一條不可觸摸的紅線。
14. oracle表分區(qū)
1)分區(qū)表的概念:
當表中的數(shù)據(jù)量不斷增大,查詢數(shù)據(jù)的速度就會變慢,應用程序的性能就會下降,這時就應該考慮對表進行分區(qū)。表進行分區(qū)后,邏輯上表仍然是一張完整的表,只是將表中的數(shù)據(jù)在物理上存放到多個表空間(物理文件上),這樣查詢數(shù)據(jù)時,不至于每次都掃描整張表。
2)分區(qū)表的優(yōu)點:
- 改善查詢性能:對分區(qū)對象的查詢可以僅搜索自己關心的分區(qū),提高檢索速度。
- 增強可用性:如果表的某個分區(qū)出現(xiàn)故障,表在其他分區(qū)的數(shù)據(jù)仍然可用;
- 維護方便:如果表的某個分區(qū)出現(xiàn)故障,需要修復數(shù)據(jù),只修復該分區(qū)即可;
- 均衡I/O:可以把不同的分區(qū)映射到磁盤以平衡I/O,改善整個系統(tǒng)性能。
3)分區(qū)表的種類:
(1)范圍分區(qū)
概念: 范圍分區(qū)將數(shù)據(jù)基于范圍映射到每一個分區(qū),這個范圍是你在創(chuàng)建分區(qū)時指定的分區(qū)鍵決定的。這種分區(qū)方式是最為常用的,并且分區(qū)鍵經(jīng)常采用日期。
(2)Hash分區(qū)
概念:
對于那些無法有效劃分范圍的表,可以使用hash分區(qū),這樣對于提高性能還是會有一定的幫助。hash分區(qū)會將表中的數(shù)據(jù)平均分配到你指定的幾個分區(qū)中,列所在分區(qū)是依據(jù)分區(qū)列的hash值自動分配,因此你并不能控制也不知道哪條記錄會被放到哪個分區(qū)中,hash分區(qū)也可以支持多個依賴列。
(3)List分區(qū)
List分區(qū)也需要指定列的值,其分區(qū)值必須明確指定,該分區(qū)列只能有一個,不能像range或者hash分區(qū)那樣同時指定多個列做為分區(qū)依賴列,但它的單個分區(qū)對應值可以是多個。
(4)組合分區(qū)
批處理和流處理區(qū)別:批處理和流處理的主要區(qū)別在于數(shù)據(jù)處理的時間、存儲方式、應用領域以及數(shù)據(jù)處理方式。
- 處理時間:批處理通常在固定時間間隔內一次性處理大量數(shù)據(jù),處理過程可能涉及讀取數(shù)據(jù)、數(shù)據(jù)轉換和寫入結果等階段,而流處理是連續(xù)不斷地處理數(shù)據(jù),每當有新的數(shù)據(jù)產(chǎn)生時,系統(tǒng)會立即對其進行處理并將結果實時輸出。
- 存儲方式:批處理通常涉及將數(shù)據(jù)存儲在臨時數(shù)據(jù)庫或文件系統(tǒng)中,以便進行集中處理,而流處理需要在內存中存儲一部分數(shù)據(jù),以便進行實時計算和分析。
- 應用領域:批處理適用于需要處理大量數(shù)據(jù)的場景,如大數(shù)據(jù)分析、數(shù)據(jù)挖掘、生成報表等。流處理則適用于需要實時處理數(shù)據(jù)并快速生成結果的場景,如實時監(jiān)控、金融風險控制、用戶行為分析等。
- 數(shù)據(jù)處理方式:批處理的數(shù)據(jù)被視為一批靜態(tài)的記錄集合,處理過程通常是一次性的,處理完整個數(shù)據(jù)集后,任務結束。流處理中,數(shù)據(jù)被視為不斷流動的數(shù)據(jù)流,系統(tǒng)持續(xù)不斷地處理這些數(shù)據(jù)流。
綜上所述,批處理和流處理各有其適用的場景和優(yōu)勢。批處理適合于不需要即時響應的場景,如日志分析、大規(guī)模數(shù)據(jù)集的ETL操作、復雜的數(shù)據(jù)轉換和計算等,而流處理則適合于需要實時或近實時響應的場景,如實時監(jiān)控、實時分析、在線推薦系統(tǒng)、實時欺詐檢測等。
流處理系統(tǒng)對低延遲的要求和批處理系統(tǒng)對高吞吐量的要求
四、數(shù)據(jù)采集
1. 數(shù)據(jù)質量核查與異常處理
- 數(shù)據(jù)質量核查對采集的數(shù)據(jù)總量進行比對, 生成數(shù)據(jù)對比報告,并對采集數(shù)據(jù)內容進行質量核 查,保證獲取數(shù)據(jù)與原始數(shù)據(jù)數(shù)量、數(shù)據(jù)內容一致。
- 若經(jīng)數(shù)據(jù)核查存在數(shù)據(jù)差異,啟動異常處理流程,將發(fā)現(xiàn)的異常數(shù)據(jù)反饋給數(shù)據(jù)提供方,待其 將異常數(shù)據(jù)核對修改后重新進行采集。
2. 數(shù)據(jù)類型
按結構化特征、業(yè)務歸屬和產(chǎn)生來源等維度對政務大數(shù)據(jù)進行分類,具體如下:
1)結構化數(shù)據(jù)
對于結構化數(shù)據(jù),按業(yè)務歸屬分為:
- 主數(shù)據(jù), 用來描述核心業(yè)務實體的數(shù)據(jù), 是核心業(yè)務對象、交易業(yè)務的執(zhí)行主體, 為應用 軟件提供一個統(tǒng)一、一致的參考數(shù)據(jù)映像,如人口、法人、車輛、房屋、事項等數(shù)據(jù);
- 基礎數(shù)據(jù),描述核心業(yè)務對象、交易業(yè)務的基礎信息數(shù)據(jù),通常是靜態(tài)的(如事項類型、 證件類型), 一般在業(yè)務事件發(fā)生之前就已經(jīng)預先定義,其變化很少或者變化很慢,可選值 數(shù)量有限的,如行政區(qū)劃、組織劃分、經(jīng)濟分類等數(shù)據(jù);
- 事務數(shù)據(jù), 在業(yè)務和流程中產(chǎn)生并記錄業(yè)務事件的數(shù)據(jù), 具有較強時效性的一次性業(yè)務事 件, 通常在事件結束后不再更新,事務數(shù)據(jù)會調用主數(shù)據(jù)和基礎數(shù)據(jù),如執(zhí)法監(jiān)管、行政審 批等數(shù)據(jù);
- 觀測數(shù)據(jù),對人、事、 物、環(huán)境等觀測對象,通過觀測工具獲取的數(shù)據(jù), 一般數(shù)據(jù)量較 大且是過程性的,主要用作監(jiān)控分析,如氣象觀測、水文監(jiān)測、環(huán)境監(jiān)測等數(shù)據(jù);
- 規(guī)則數(shù)據(jù), 結構化描述業(yè)務規(guī)則變量的數(shù)據(jù), 一般為決策表、關聯(lián)關系表等形式, 是實現(xiàn) 業(yè)務規(guī)則的核心,如事項審批規(guī)則、執(zhí)法規(guī)則等數(shù)據(jù);
- 統(tǒng)計數(shù)據(jù), 對數(shù)據(jù)按照統(tǒng)計學方法進行處理加工后, 用作業(yè)務決策依據(jù)的次級數(shù)據(jù), 一般 用于支持報告和報表的生成,如GDP指標、財政收入指標等數(shù)據(jù)。
2)半結構化數(shù)據(jù)
對于半結構化數(shù)據(jù),按產(chǎn)生來源分為:
- XML文檔;
- JSON文檔;
- 日志文件;
- HTML文檔;
- Email。
3)非結構化數(shù)據(jù)
對于非結構化數(shù)據(jù),按產(chǎn)生來源分為:
- 文本數(shù)據(jù);
- 多媒體數(shù)據(jù);
- 空間數(shù)據(jù)。
注: 針對事務數(shù)據(jù), 按產(chǎn)生頻率分類, 分為實時數(shù)據(jù)和非實時數(shù)據(jù); 針對文本數(shù)據(jù), 按業(yè)務歸屬分類, 分為法律數(shù) 據(jù)、規(guī)章數(shù)據(jù)、辦公數(shù)據(jù)、事務數(shù)據(jù); 針對多媒體數(shù)據(jù), 按產(chǎn)生來源分類, 分為音頻數(shù)據(jù)、視頻數(shù)據(jù)和圖像數(shù) 據(jù);針對空間數(shù)據(jù),按產(chǎn)生來源分類,分為矢量數(shù)據(jù)、柵格數(shù)據(jù)和實景三維數(shù)據(jù)。
3. 數(shù)據(jù)采集方式
根據(jù)需要采集數(shù)據(jù)的范圍、類型以及數(shù)據(jù)的質量和安全要求, 綜合考慮數(shù)據(jù)源網(wǎng)絡環(huán)境、數(shù)據(jù)采集 工具技術路線選型、現(xiàn)有數(shù)據(jù)采集通道建設情況,從而確定數(shù)據(jù)采集方式。
1)終端采集:通過硬件終端、軟件終端、網(wǎng)絡爬蟲等方式對物聯(lián)網(wǎng)傳感器數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等 進行數(shù)據(jù)采集;
2)人工采集:通過在線填報、離線拷貝和導入等人工轉化方式進行數(shù)據(jù)采集和導入,如問卷調查、實地調研、資料分析等產(chǎn)生的數(shù)據(jù),以及通過移動介質拷貝的數(shù)據(jù),包括常用的文件交 換類型和數(shù)據(jù)庫導出文件;
3)軟件系統(tǒng)數(shù)據(jù)匯聚:
- 數(shù)據(jù)庫表交換: 以數(shù)據(jù)庫表作為數(shù)據(jù)資源進行匯聚, 通過在數(shù)據(jù)交換兩端部署數(shù)據(jù)交換組件及交換庫;源端數(shù)據(jù)發(fā)生更新后實時通過交換組件推送至源端交換庫,由兩端交換組件協(xié)調雙方交換庫的同步,目標端通過交換組件從交換庫提取數(shù)據(jù)。
- 數(shù)據(jù)接口: 以數(shù)據(jù)接口服務作為數(shù)據(jù)資源進行匯集,常用的接口方式有WebService、 Restful,并以XML、JSON等格式進行服務。數(shù)據(jù)資源提供方調取業(yè)務應用系統(tǒng)或數(shù)據(jù)庫中的 數(shù)據(jù),并封裝提供數(shù)據(jù)接口服務,數(shù)據(jù)需求方通過數(shù)據(jù)接口調用獲取數(shù)據(jù),并把數(shù)據(jù)采集至 前置庫中,目標端通過交換組件從前置庫提取數(shù)據(jù);
- 文件交換:以電子文件作為數(shù)據(jù)資源進行匯聚,常用的電子文件類型有wps、xml、txt、 doc、docx、html、csv、xls、xlsx等。通過前置機的共享目錄或FTP服務,實現(xiàn)共享文件數(shù)據(jù)組裝、數(shù)據(jù)傳輸、數(shù)據(jù)解析和數(shù)據(jù)使用,達到數(shù)據(jù)交換的目的;
- 消息隊列: 以消息發(fā)布-訂閱方式進行數(shù)據(jù)匯聚, 可實現(xiàn)消息的異步發(fā)送接收, 發(fā)布訂閱, 使得兩端的應用解耦(減少或解除應用程序之間的耦合度)和網(wǎng)絡傳輸斷點續(xù)傳,支持分布 式消息隊列。
4. 實施數(shù)據(jù)采集
1)根據(jù)數(shù)據(jù)采集探查的結果, 針對不同的數(shù)據(jù)源類型, 推薦采用以下數(shù)據(jù)采集方案實施數(shù)據(jù)采集:
- 針對結構單一、數(shù)據(jù)量相對較小的結構化數(shù)據(jù),可通過數(shù)據(jù)庫交換、文件交換、數(shù)據(jù)接口、 消息隊列等方式進行數(shù)據(jù)采集;
- 針對傳感器、智能手機、網(wǎng)絡等渠道產(chǎn)生的類型豐富、數(shù)據(jù)量較大的數(shù)據(jù),可通過分布式數(shù) 據(jù)接口、分布式流數(shù)據(jù)收集、網(wǎng)絡爬蟲等方式進行數(shù)據(jù)采集;
- 針對由麥克風、攝像頭等設備產(chǎn)生的海量音視頻數(shù)據(jù),可通過硬件終端的語音圖像識別、編解碼等技術轉化后進行數(shù)據(jù)采集;
- 針對問卷調查、實地調研、資料分析等產(chǎn)生的數(shù)據(jù),可通過在線填報、離線導人等人工轉化 方式進行數(shù)據(jù)采集。
2)不應在待采集數(shù)據(jù)的源系統(tǒng)業(yè)務繁忙時進行,避免讀取動作影響源系統(tǒng)正常運行。
3)宜使用源系統(tǒng)的備份庫作為采集對象,使用備份庫時應保證數(shù)據(jù)一致性和可用性。
4)對于數(shù)據(jù)量較大、單批量采集可能會造成系統(tǒng)故障的,應支持分批或增量讀取, 并采用分布式 方式對數(shù)據(jù)源進行讀取。
5. 原始數(shù)據(jù)入庫
- 將不進行處理的原始數(shù)據(jù)采集后存放在政務大數(shù)據(jù)的原始庫中。
- 原始數(shù)據(jù)存儲應按照規(guī)定, 根據(jù)源數(shù)據(jù)選擇合適的數(shù)據(jù)存儲方式對數(shù)據(jù)進行存儲。
6. 數(shù)據(jù)規(guī)整
數(shù)據(jù)規(guī)整通過數(shù)據(jù)清洗、數(shù)據(jù)轉換、數(shù)據(jù)分析等操作, 對采集的原始數(shù)據(jù)進行標準化規(guī)整處理, 確保數(shù)據(jù)的完整性、準確性和時效性。
數(shù)據(jù)規(guī)整過程管理應包括但不限于:
- 數(shù)據(jù)分析:應對數(shù)據(jù)源進行分析,及時發(fā)現(xiàn)數(shù)據(jù)源存在的質量問題;
- 定義清洗規(guī)則:包括空值的檢查和處理、非法值的檢測和處理、不一致數(shù)據(jù)的檢測和處理、 相似重復記錄的檢測和處理等;
- 執(zhí)行數(shù)據(jù)清洗規(guī)則: 依據(jù)定義的清洗規(guī)則,補足殘缺/空值、糾正不一致、完成數(shù)據(jù)拆分、數(shù)據(jù)合并或去重、數(shù)據(jù)脫敏、數(shù)據(jù)除噪等;
- 清洗結果驗證:數(shù)據(jù)清洗方應對定義的清洗方法的正確性和效率進行驗證與評估,對不滿足 清洗要求的清洗方法進行調整和改進。數(shù)據(jù)清洗過程宜多次迭代并進行分析、設計和驗證。
應對數(shù)據(jù)的標準代碼、格式、類型等內容,按照政務大數(shù)據(jù)轉換規(guī)則進行轉換。
應通過數(shù)據(jù)聚合、數(shù)據(jù)歸類、數(shù)據(jù)關聯(lián)、數(shù)據(jù)血緣等方法,分析采集的數(shù)據(jù),形成上下文完整 有效的數(shù)據(jù)。
7. 規(guī)整數(shù)據(jù)入庫
對原始庫中的數(shù)據(jù)進行規(guī)整,使其滿足政務數(shù)據(jù)使用的標準化質量要求,規(guī)整后的數(shù)據(jù)存放在 政務大數(shù)據(jù)規(guī)整庫中。
規(guī)整庫數(shù)據(jù)存儲應根據(jù)源數(shù)據(jù)選擇合適的數(shù)據(jù)存儲方式,存儲應符合規(guī)定。 處理后的數(shù)據(jù)存儲應滿足海量、安全、高性能、高可靠、易管理。
8. 數(shù)據(jù)更新
原始數(shù)據(jù)發(fā)生更新時,應依照上述要求的數(shù)據(jù)采集流程中的步驟對原始庫和規(guī)整庫中的需更新數(shù)據(jù)進行更新采集, 并根據(jù)數(shù)據(jù)更新快慢和實時性要求制定不同的采集策略。原始庫中更新后的歷史數(shù) 據(jù)存放在政務大數(shù)據(jù)中的歷史庫中。
1)應支持全量更新和增量更新的數(shù)據(jù)更新方法:
- 對存在更新標識的數(shù)據(jù)應支持增量更新;
- 對不存在更新標識的數(shù)據(jù)應支持全量更新。
2)應支持定時更新、事件觸發(fā)更新和手動更新的數(shù)據(jù)更新策略:
- 對產(chǎn)生呈現(xiàn)周期性規(guī)律的數(shù)據(jù)應支持定時更新策略;
- 對產(chǎn)生由特定事件觸發(fā)的數(shù)據(jù)應支持事件觸發(fā)更新策略;
- 對產(chǎn)生無特定規(guī)律的數(shù)據(jù)應支持手動更新策略。
3)支持實時、定時的數(shù)據(jù)更新頻率,并根據(jù)數(shù)據(jù)變化情況,進行及時和持續(xù)更新:
- 實時產(chǎn)生且實時性要求高的數(shù)據(jù)應進行實時更新;
- 實時產(chǎn)生且實時性要求低的數(shù)據(jù)宜采用定時更新
9. 數(shù)據(jù)范圍
政務大數(shù)據(jù)采集范圍包括但不限于基礎數(shù)據(jù)、專題數(shù)據(jù)、業(yè)務數(shù)據(jù)和其他數(shù)據(jù)四大類:
- 基礎數(shù)據(jù),如人口、法人單位、自然資源、地理空間、宏觀經(jīng)濟、電子證照等數(shù)據(jù);
- 專題數(shù)據(jù),如房屋、城市部件、網(wǎng)格等與數(shù)字政府、數(shù)字社會、數(shù)字經(jīng)濟、數(shù)字文化、數(shù)字 生態(tài)相關的數(shù)據(jù);
- 業(yè)務數(shù)據(jù),如涉及公安、衛(wèi)生健康、教育、民政、交通、水利、人力資源和社會保障、市場 監(jiān)管、應急管理、司法、住房和城鄉(xiāng)建設、交通運輸、數(shù)據(jù)資源管理等眾多領域的業(yè)務數(shù)據(jù);
- 其他數(shù)據(jù),如與政務大數(shù)據(jù)相關的互聯(lián)網(wǎng)、工業(yè)、商業(yè)等數(shù)據(jù)。
五、常見的數(shù)據(jù)質量稽核規(guī)則示例
- 數(shù)據(jù)完整性:確保數(shù)據(jù)的所有字段都有值,且符合業(yè)務規(guī)定
- 數(shù)據(jù)準確性:確保數(shù)據(jù)的值與實際情況一致,無錯誤或誤差
- 數(shù)據(jù)一致性:確保不同源的數(shù)據(jù)在各個系統(tǒng)中相互一致
- 數(shù)據(jù)及時性:確保數(shù)據(jù)及時采集、更新和傳輸,以滿足業(yè)務需求
- 數(shù)據(jù)可靠性:確保數(shù)據(jù)的來源可靠,數(shù)據(jù)的存儲和傳輸過程安全可靠
- 數(shù)據(jù)有效性:確保數(shù)據(jù)滿足使用者的需求和標準,不包含無效或重復數(shù)據(jù)
- 數(shù)據(jù)唯一性:確保數(shù)據(jù)的主鍵或索引字段唯一,避免重復錄入和重復使用
OK,今日就講到這里,這么多內容相信都夠各位小伙伴消化一輪了,收藏起來慢慢看,總的來說,小編認為,互聯(lián)網(wǎng)產(chǎn)品經(jīng)理在AI的迅速崛起的背景下,數(shù)據(jù)產(chǎn)品經(jīng)理是除AI產(chǎn)品經(jīng)理外能夠存活且有一定價值的崗位。
本文由@樂少有話說 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!