數(shù)據(jù)產(chǎn)品經(jīng)理必須掌握的知識其實只是在大佬眼中的常識

0 評論 1303 瀏覽 1 收藏 30 分鐘

眾所周知數(shù)據(jù)產(chǎn)品經(jīng)理是一個集數(shù)據(jù)分析、產(chǎn)品設(shè)計與業(yè)務(wù)理解于一體的綜合性崗位,其所需掌握的技能、崗位職責(zé)以及核心價值對于企業(yè)和產(chǎn)品的發(fā)展至關(guān)重要。小編最近在設(shè)計一個數(shù)字資產(chǎn)平臺的時候,深有體會,一個數(shù)據(jù)產(chǎn)品經(jīng)理是最有可能幫助公司找到技術(shù)壁壘的存在,因此,今日小編將會分以下幾點,和大家剖析數(shù)據(jù)產(chǎn)品經(jīng)理的Common Sense

一、所需掌握的技能

1. 數(shù)據(jù)分析技能

  • SQL及數(shù)據(jù)庫知識:熟練掌握SQL語言,能夠高效地進行數(shù)據(jù)查詢、處理和分析。
  • 統(tǒng)計與數(shù)據(jù)分析工具:熟悉使用Excel、Python(Pandas、NumPy等庫)、R等數(shù)據(jù)分析工具,能夠進行復(fù)雜的數(shù)據(jù)處理和分析。
  • 數(shù)據(jù)可視化:掌握至少一種數(shù)據(jù)可視化工具(如Tableau、Power BI等),能夠?qū)?fù)雜的數(shù)據(jù)轉(zhuǎn)化為直觀的圖表,幫助業(yè)務(wù)團隊更好地理解數(shù)據(jù)。

2. 產(chǎn)品設(shè)計與項目管理技能

  • 產(chǎn)品設(shè)計能力:具備用戶需求分析、產(chǎn)品原型設(shè)計、PRD文檔編寫等能力,能夠獨立完成產(chǎn)品的規(guī)劃和設(shè)計。
  • 項目管理能力:能夠協(xié)調(diào)跨部門資源,推動項目按計劃進行,確保產(chǎn)品按時上線并持續(xù)優(yōu)化。

3. 業(yè)務(wù)理解與洞察能力

  • 行業(yè)知識:對所在行業(yè)有深入的了解,能夠洞察行業(yè)趨勢和市場需求。
  • 業(yè)務(wù)邏輯理解:深入理解企業(yè)業(yè)務(wù)邏輯和流程,能夠?qū)I(yè)務(wù)需求轉(zhuǎn)化為產(chǎn)品功能。

4. 技術(shù)理解能力

  • 大數(shù)據(jù)與AI技術(shù):了解大數(shù)據(jù)平臺、機器學(xué)習(xí)等前沿技術(shù),能夠?qū)⑵鋺?yīng)用于產(chǎn)品設(shè)計中以提升產(chǎn)品競爭力。
  • 數(shù)據(jù)治理與安全:了解數(shù)據(jù)治理的基本概念和方法,確保數(shù)據(jù)的質(zhì)量和安全。

二、核心價值

數(shù)據(jù)產(chǎn)品經(jīng)理的核心價值主要體現(xiàn)在以下幾個方面:

  1. 提升決策效率與質(zhì)量:通過數(shù)據(jù)分析為業(yè)務(wù)團隊提供準確、及時的數(shù)據(jù)支持,幫助團隊做出更加科學(xué)、合理的決策。
  2. 優(yōu)化產(chǎn)品功能與用戶體驗:基于用戶需求和業(yè)務(wù)場景進行產(chǎn)品設(shè)計與優(yōu)化,提升產(chǎn)品的易用性和滿意度。
  3. 推動業(yè)務(wù)增長與創(chuàng)新:通過數(shù)據(jù)洞察發(fā)現(xiàn)新的業(yè)務(wù)機會和創(chuàng)新點,推動業(yè)務(wù)的持續(xù)增長和創(chuàng)新發(fā)展。
  4. 促進數(shù)據(jù)資產(chǎn)的價值最大化:通過數(shù)據(jù)治理和數(shù)據(jù)分析等手段提升數(shù)據(jù)資產(chǎn)的質(zhì)量和價值,為企業(yè)創(chuàng)造更大的商業(yè)價值。

三、術(shù)語解釋

1. 數(shù)據(jù)元

數(shù)據(jù)元是數(shù)據(jù)的最小單元,它是對特定信息內(nèi)容的標準化表示。它通常代表一個單一的事實、屬性或特征,如姓名、日期或金額等。數(shù)據(jù)元具有明確的定義、數(shù)據(jù)類型、值域和表示方法,它是構(gòu)成數(shù)據(jù)集的基本單元。

2. 元數(shù)據(jù)

元數(shù)據(jù)是描述關(guān)于數(shù)據(jù)的數(shù)據(jù),它提供了關(guān)于數(shù)據(jù)元的相關(guān)信息,如數(shù)據(jù)的來源、格式、位置、名稱、大小等以及如何訪問和處理這些數(shù)據(jù)。有助于數(shù)據(jù)的識別、管理和使用。

元數(shù)據(jù)打通了源數(shù)據(jù)、數(shù)據(jù)倉庫、數(shù)據(jù)應(yīng)用,記錄了數(shù)據(jù)從產(chǎn)生到消費的全過程。元數(shù)據(jù)主要記錄數(shù)據(jù)倉庫中模型的定義、各層級間的映射關(guān)系、監(jiān)控數(shù)據(jù)倉庫的數(shù)據(jù)狀態(tài)及ETL的任務(wù)運行狀態(tài)。

元數(shù)據(jù)按類型劃分:

  • 業(yè)務(wù)元數(shù)據(jù):例如;用戶范圍、業(yè)務(wù)規(guī)則、邏輯規(guī)則等等;
  • 技術(shù)元數(shù)據(jù):例如:在數(shù)據(jù)庫中的表名、字段名、字段類型、字段長度等等;
  • 管理/操作元數(shù)據(jù):例如:管理元數(shù)據(jù)的加工、存檔、結(jié)構(gòu)、存取、版本控制權(quán)等等的問題;

3. 主數(shù)據(jù)

企業(yè)中多個信息系統(tǒng)共享和使用的數(shù)據(jù),主數(shù)據(jù)不僅僅是清洗過的標準數(shù)據(jù),它還包括了數(shù)據(jù)的整合、豐富和維護等一系列管理活動,以確保數(shù)據(jù)的質(zhì)量和應(yīng)用的一致性。

4. 數(shù)據(jù)源

數(shù)據(jù)源則是指數(shù)據(jù)的產(chǎn)生地或存儲地,它可以是數(shù)據(jù)庫、文件、API接口等。數(shù)據(jù)源包含了一系列的數(shù)據(jù)元素,它們是數(shù)據(jù)流的起點,可以被提取、轉(zhuǎn)換并用于不同的應(yīng)用場景。數(shù)據(jù)元:是實際的數(shù)據(jù)內(nèi)容,是構(gòu)成數(shù)據(jù)的基本單位,關(guān)注于數(shù)據(jù)的定義和標準化;

  • 元數(shù)據(jù):是對數(shù)據(jù)元的描述和說明。數(shù)據(jù)元與元數(shù)據(jù)兩者相輔相成,共同構(gòu)成了完整的數(shù)據(jù)管理體系;
  • 主數(shù)據(jù):是企業(yè)核心業(yè)務(wù)實體的集合,關(guān)注于跨系統(tǒng)的數(shù)據(jù)一致性和準確性;
  • 數(shù)據(jù)源:則是這些數(shù)據(jù)元的原始出處。

5. 數(shù)據(jù)質(zhì)量規(guī)則體系

數(shù)據(jù)質(zhì)量管理(Data Quality Management),是指對數(shù)據(jù)從計劃、獲取、存儲、共享、維護、應(yīng)用、消亡生命周期的每個階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進行識別、度量、監(jiān)控、預(yù)警等一系列管理活動,并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進一步提高。

完整性、唯一性、有效性(合規(guī)性)、一致性、準確性、及時性,六個維度進行單列、跨列、跨行和跨表的分析

  1. 準確性: 描述數(shù)據(jù)是否與其對應(yīng)的客觀實體的特征相一致。
  2. 完整性: 描述數(shù)據(jù)是否存在缺失記錄或缺失字段。
  3. 一致性: 描述同一實體的同一屬性的值在不同的系統(tǒng)是否一致。
  4. 有效性: 描述數(shù)據(jù)是否滿足用戶定義的條件或在一定的域值范圍內(nèi)。
  5. 唯一性: 描述數(shù)據(jù)是否存在重復(fù)記錄。
  6. 及時性: 描述數(shù)據(jù)的產(chǎn)生和供應(yīng)是否及時。
  7. 穩(wěn)定性: 描述數(shù)據(jù)的波動是否是穩(wěn)定的,是否在其有效范圍內(nèi)。

6. 數(shù)據(jù)安全管理

旨在確保數(shù)據(jù)在整個生命周期內(nèi)的保密性、完整性和可用性,同時也包括確保數(shù)據(jù)的合法合規(guī)使用。

7. ETL數(shù)據(jù)

指通過提?。‥xtract)、轉(zhuǎn)換(Transform)和加載(Load)的流程處理的數(shù)據(jù)

8. 數(shù)據(jù)湖

是一個大規(guī)模的存儲系統(tǒng),用于存儲原始數(shù)據(jù)和未經(jīng)處理的數(shù)據(jù)。

數(shù)據(jù)湖中的數(shù)據(jù)可能是半結(jié)構(gòu)化或非結(jié)構(gòu)化的,例如文本文件、電子郵件、社交媒體帖子等。數(shù)據(jù)湖的目的是保留數(shù)據(jù)的原始狀態(tài),直到需要時再進行處理和分析。

9. 數(shù)據(jù)倉庫

數(shù)據(jù)倉庫側(cè)重于結(jié)構(gòu)化數(shù)據(jù)的集成和分析。是一個面向主題、集成的、相對穩(wěn)定的環(huán)境,用于支持決策制定過程。它通常包含經(jīng)過清理和集成的歷史數(shù)據(jù),這些數(shù)據(jù)不再被修改,而是用于查詢和分析。數(shù)據(jù)倉庫的數(shù)據(jù)是結(jié)構(gòu)化的,適合進行復(fù)雜的查詢和報告生成,以支持商業(yè)智能(BI)和在線分析處理(OLAP)應(yīng)用。

10. 數(shù)據(jù)集市

可以被視為數(shù)據(jù)倉庫的子集,它服務(wù)于特定的業(yè)務(wù)領(lǐng)域或部門。數(shù)據(jù)集市包含特定主題的數(shù)據(jù),通常更加專注于滿足某個特定業(yè)務(wù)需求的數(shù)據(jù)分析。

11. 數(shù)據(jù)標簽

用戶對資產(chǎn)進行分類和描述,以便于檢索。可以從業(yè)務(wù)角度定義標簽,并與技術(shù)資產(chǎn)關(guān)聯(lián)數(shù)據(jù)指標

12. Broker

通常指的是消息代理服務(wù)器

13. ODS

數(shù)據(jù)倉庫中的ODS(Operational Data Store),ODS是指操作型數(shù)據(jù)存儲,它是一種用于整合和管理多個數(shù)據(jù)源的數(shù)據(jù)存儲方式。它的主要作用是提供統(tǒng)一的數(shù)據(jù)平臺,讓業(yè)務(wù)用戶能夠在同一個平臺上訪問、管理和分析多個數(shù)據(jù)源的數(shù)據(jù)。ODS中的數(shù)據(jù)則是按照業(yè)務(wù)實時的需要進行組織,通常包括原始數(shù)據(jù)和運算數(shù)據(jù)兩種。

1)數(shù)據(jù)倉庫與ODS的區(qū)別

(1)數(shù)據(jù)結(jié)構(gòu)不同

數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題進行組織的,通常采用三層架構(gòu):底層是數(shù)據(jù)明細層,中層是聚合層,頂層是匯總層。而ODS中的數(shù)據(jù)則是按照業(yè)務(wù)實時的需要進行組織,通常包括原始數(shù)據(jù)和運算數(shù)據(jù)兩種。

(2)數(shù)據(jù)處理方式不同

數(shù)據(jù)倉庫中的數(shù)據(jù)處理以分析為主,注重數(shù)據(jù)的全面性和綜合性,數(shù)據(jù)多為靜態(tài),數(shù)據(jù)處理操作較少。而ODS中的數(shù)據(jù)處理以操作為主,注重數(shù)據(jù)的準確性和實時性,數(shù)據(jù)多為動態(tài),數(shù)據(jù)處理操作頻繁。

(3)數(shù)據(jù)來源不同

數(shù)據(jù)倉庫中的數(shù)據(jù)通常來自于多個異構(gòu)數(shù)據(jù)源,需要進行數(shù)據(jù)清洗、整合等操作才能進入數(shù)據(jù)倉庫。而ODS中的數(shù)據(jù)則來自于生產(chǎn)系統(tǒng)的數(shù)據(jù)庫,可以直接進行操作。

2)數(shù)據(jù)質(zhì)量關(guān)注點

  • 一致性:值數(shù)內(nèi)容在系統(tǒng)內(nèi),系統(tǒng)間是否保持一致。如指標是否同名同義,存儲,精確度,加工邏輯等是否一致。
  • 完整性:指數(shù)據(jù)的完整,完備性與及時性,是否存在數(shù)據(jù)遺漏,缺失及補充等。每日提供的數(shù)據(jù)應(yīng)該是完整的,無論在量上還是在特定的數(shù)據(jù)上,高質(zhì)量的數(shù)據(jù)是通過完整的數(shù)據(jù)統(tǒng)計出來的。
  • 可靠性:指數(shù)據(jù)的穩(wěn)定性和準確性等,數(shù)據(jù)提供過程中,數(shù)據(jù)產(chǎn)生依賴于系統(tǒng)間的性能,生產(chǎn)數(shù)據(jù)和加工數(shù)據(jù)的過程,都會影響數(shù)據(jù)的可靠性。
  • 準確性:數(shù)據(jù)域源頭的精確性,以及數(shù)據(jù)處理過程中是否存在算法和數(shù)據(jù)沖突等。數(shù)據(jù)的準確性可能存在于個別記錄,也可能存在于整個數(shù)據(jù)集,只有準確更高的數(shù)據(jù)才能提供高效、高優(yōu)的決策。
  • 可理解性:數(shù)據(jù)的可讀性和可分析性,是否滿足業(yè)務(wù)需求,以及數(shù)據(jù)間是否存在相互關(guān)系,用戶拿到數(shù)據(jù)是可理解,可用,可決策的。
  • 有效性:指數(shù)據(jù)是否有效可用,以及數(shù)據(jù)數(shù)據(jù)的訪問域安全性等。數(shù)據(jù)安全是數(shù)據(jù)質(zhì)量的一項重點管理方面,數(shù)據(jù)安全對于數(shù)據(jù)人來說是一條不可觸摸的紅線。

14. oracle表分區(qū)

1)分區(qū)表的概念:

當表中的數(shù)據(jù)量不斷增大,查詢數(shù)據(jù)的速度就會變慢,應(yīng)用程序的性能就會下降,這時就應(yīng)該考慮對表進行分區(qū)。表進行分區(qū)后,邏輯上表仍然是一張完整的表,只是將表中的數(shù)據(jù)在物理上存放到多個表空間(物理文件上),這樣查詢數(shù)據(jù)時,不至于每次都掃描整張表。

2)分區(qū)表的優(yōu)點:

  • 改善查詢性能:對分區(qū)對象的查詢可以僅搜索自己關(guān)心的分區(qū),提高檢索速度。
  • 增強可用性:如果表的某個分區(qū)出現(xiàn)故障,表在其他分區(qū)的數(shù)據(jù)仍然可用;
  • 維護方便:如果表的某個分區(qū)出現(xiàn)故障,需要修復(fù)數(shù)據(jù),只修復(fù)該分區(qū)即可;
  • 均衡I/O:可以把不同的分區(qū)映射到磁盤以平衡I/O,改善整個系統(tǒng)性能。

3)分區(qū)表的種類:

(1)范圍分區(qū)

概念: 范圍分區(qū)將數(shù)據(jù)基于范圍映射到每一個分區(qū),這個范圍是你在創(chuàng)建分區(qū)時指定的分區(qū)鍵決定的。這種分區(qū)方式是最為常用的,并且分區(qū)鍵經(jīng)常采用日期。

(2)Hash分區(qū)

概念:

對于那些無法有效劃分范圍的表,可以使用hash分區(qū),這樣對于提高性能還是會有一定的幫助。hash分區(qū)會將表中的數(shù)據(jù)平均分配到你指定的幾個分區(qū)中,列所在分區(qū)是依據(jù)分區(qū)列的hash值自動分配,因此你并不能控制也不知道哪條記錄會被放到哪個分區(qū)中,hash分區(qū)也可以支持多個依賴列。

(3)List分區(qū)

List分區(qū)也需要指定列的值,其分區(qū)值必須明確指定,該分區(qū)列只能有一個,不能像range或者hash分區(qū)那樣同時指定多個列做為分區(qū)依賴列,但它的單個分區(qū)對應(yīng)值可以是多個。

(4)組合分區(qū)

批處理和流處理區(qū)別:批處理和流處理的主要區(qū)別在于數(shù)據(jù)處理的時間、存儲方式、應(yīng)用領(lǐng)域以及數(shù)據(jù)處理方式。

  1. 處理時間:批處理通常在固定時間間隔內(nèi)一次性處理大量數(shù)據(jù),處理過程可能涉及讀取數(shù)據(jù)、數(shù)據(jù)轉(zhuǎn)換和寫入結(jié)果等階段,而流處理是連續(xù)不斷地處理數(shù)據(jù),每當有新的數(shù)據(jù)產(chǎn)生時,系統(tǒng)會立即對其進行處理并將結(jié)果實時輸出。
  2. 存儲方式:批處理通常涉及將數(shù)據(jù)存儲在臨時數(shù)據(jù)庫或文件系統(tǒng)中,以便進行集中處理,而流處理需要在內(nèi)存中存儲一部分數(shù)據(jù),以便進行實時計算和分析。
  3. 應(yīng)用領(lǐng)域:批處理適用于需要處理大量數(shù)據(jù)的場景,如大數(shù)據(jù)分析、數(shù)據(jù)挖掘、生成報表等。流處理則適用于需要實時處理數(shù)據(jù)并快速生成結(jié)果的場景,如實時監(jiān)控、金融風(fēng)險控制、用戶行為分析等。
  4. 數(shù)據(jù)處理方式:批處理的數(shù)據(jù)被視為一批靜態(tài)的記錄集合,處理過程通常是一次性的,處理完整個數(shù)據(jù)集后,任務(wù)結(jié)束。流處理中,數(shù)據(jù)被視為不斷流動的數(shù)據(jù)流,系統(tǒng)持續(xù)不斷地處理這些數(shù)據(jù)流。

綜上所述,批處理和流處理各有其適用的場景和優(yōu)勢。批處理適合于不需要即時響應(yīng)的場景,如日志分析、大規(guī)模數(shù)據(jù)集的ETL操作、復(fù)雜的數(shù)據(jù)轉(zhuǎn)換和計算等,而流處理則適合于需要實時或近實時響應(yīng)的場景,如實時監(jiān)控、實時分析、在線推薦系統(tǒng)、實時欺詐檢測等。

流處理系統(tǒng)對低延遲的要求和批處理系統(tǒng)對高吞吐量的要求

四、數(shù)據(jù)采集

1. 數(shù)據(jù)質(zhì)量核查與異常處理

  • 數(shù)據(jù)質(zhì)量核查對采集的數(shù)據(jù)總量進行比對, 生成數(shù)據(jù)對比報告,并對采集數(shù)據(jù)內(nèi)容進行質(zhì)量核 查,保證獲取數(shù)據(jù)與原始數(shù)據(jù)數(shù)量、數(shù)據(jù)內(nèi)容一致。
  • 若經(jīng)數(shù)據(jù)核查存在數(shù)據(jù)差異,啟動異常處理流程,將發(fā)現(xiàn)的異常數(shù)據(jù)反饋給數(shù)據(jù)提供方,待其 將異常數(shù)據(jù)核對修改后重新進行采集。

2. 數(shù)據(jù)類型

按結(jié)構(gòu)化特征、業(yè)務(wù)歸屬和產(chǎn)生來源等維度對政務(wù)大數(shù)據(jù)進行分類,具體如下:

1)結(jié)構(gòu)化數(shù)據(jù)

對于結(jié)構(gòu)化數(shù)據(jù),按業(yè)務(wù)歸屬分為:

  • 主數(shù)據(jù), 用來描述核心業(yè)務(wù)實體的數(shù)據(jù), 是核心業(yè)務(wù)對象、交易業(yè)務(wù)的執(zhí)行主體, 為應(yīng)用 軟件提供一個統(tǒng)一、一致的參考數(shù)據(jù)映像,如人口、法人、車輛、房屋、事項等數(shù)據(jù);
  • 基礎(chǔ)數(shù)據(jù),描述核心業(yè)務(wù)對象、交易業(yè)務(wù)的基礎(chǔ)信息數(shù)據(jù),通常是靜態(tài)的(如事項類型、 證件類型), 一般在業(yè)務(wù)事件發(fā)生之前就已經(jīng)預(yù)先定義,其變化很少或者變化很慢,可選值 數(shù)量有限的,如行政區(qū)劃、組織劃分、經(jīng)濟分類等數(shù)據(jù);
  • 事務(wù)數(shù)據(jù), 在業(yè)務(wù)和流程中產(chǎn)生并記錄業(yè)務(wù)事件的數(shù)據(jù), 具有較強時效性的一次性業(yè)務(wù)事 件, 通常在事件結(jié)束后不再更新,事務(wù)數(shù)據(jù)會調(diào)用主數(shù)據(jù)和基礎(chǔ)數(shù)據(jù),如執(zhí)法監(jiān)管、行政審 批等數(shù)據(jù);
  • 觀測數(shù)據(jù),對人、事、 物、環(huán)境等觀測對象,通過觀測工具獲取的數(shù)據(jù), 一般數(shù)據(jù)量較 大且是過程性的,主要用作監(jiān)控分析,如氣象觀測、水文監(jiān)測、環(huán)境監(jiān)測等數(shù)據(jù);
  • 規(guī)則數(shù)據(jù), 結(jié)構(gòu)化描述業(yè)務(wù)規(guī)則變量的數(shù)據(jù), 一般為決策表、關(guān)聯(lián)關(guān)系表等形式, 是實現(xiàn) 業(yè)務(wù)規(guī)則的核心,如事項審批規(guī)則、執(zhí)法規(guī)則等數(shù)據(jù);
  • 統(tǒng)計數(shù)據(jù), 對數(shù)據(jù)按照統(tǒng)計學(xué)方法進行處理加工后, 用作業(yè)務(wù)決策依據(jù)的次級數(shù)據(jù), 一般 用于支持報告和報表的生成,如GDP指標、財政收入指標等數(shù)據(jù)。

2)半結(jié)構(gòu)化數(shù)據(jù)

對于半結(jié)構(gòu)化數(shù)據(jù),按產(chǎn)生來源分為:

  • XML文檔;
  • JSON文檔;
  • 日志文件;
  • HTML文檔;
  • Email。

3)非結(jié)構(gòu)化數(shù)據(jù)

對于非結(jié)構(gòu)化數(shù)據(jù),按產(chǎn)生來源分為:

  • 文本數(shù)據(jù);
  • 多媒體數(shù)據(jù);
  • 空間數(shù)據(jù)。

注: 針對事務(wù)數(shù)據(jù), 按產(chǎn)生頻率分類, 分為實時數(shù)據(jù)和非實時數(shù)據(jù); 針對文本數(shù)據(jù), 按業(yè)務(wù)歸屬分類, 分為法律數(shù) 據(jù)、規(guī)章數(shù)據(jù)、辦公數(shù)據(jù)、事務(wù)數(shù)據(jù); 針對多媒體數(shù)據(jù), 按產(chǎn)生來源分類, 分為音頻數(shù)據(jù)、視頻數(shù)據(jù)和圖像數(shù) 據(jù);針對空間數(shù)據(jù),按產(chǎn)生來源分類,分為矢量數(shù)據(jù)、柵格數(shù)據(jù)和實景三維數(shù)據(jù)。

3. 數(shù)據(jù)采集方式

根據(jù)需要采集數(shù)據(jù)的范圍、類型以及數(shù)據(jù)的質(zhì)量和安全要求, 綜合考慮數(shù)據(jù)源網(wǎng)絡(luò)環(huán)境、數(shù)據(jù)采集 工具技術(shù)路線選型、現(xiàn)有數(shù)據(jù)采集通道建設(shè)情況,從而確定數(shù)據(jù)采集方式。

1)終端采集:通過硬件終端、軟件終端、網(wǎng)絡(luò)爬蟲等方式對物聯(lián)網(wǎng)傳感器數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等 進行數(shù)據(jù)采集;

2)人工采集:通過在線填報、離線拷貝和導(dǎo)入等人工轉(zhuǎn)化方式進行數(shù)據(jù)采集和導(dǎo)入,如問卷調(diào)查、實地調(diào)研、資料分析等產(chǎn)生的數(shù)據(jù),以及通過移動介質(zhì)拷貝的數(shù)據(jù),包括常用的文件交 換類型和數(shù)據(jù)庫導(dǎo)出文件;

3)軟件系統(tǒng)數(shù)據(jù)匯聚:

  • 數(shù)據(jù)庫表交換: 以數(shù)據(jù)庫表作為數(shù)據(jù)資源進行匯聚, 通過在數(shù)據(jù)交換兩端部署數(shù)據(jù)交換組件及交換庫;源端數(shù)據(jù)發(fā)生更新后實時通過交換組件推送至源端交換庫,由兩端交換組件協(xié)調(diào)雙方交換庫的同步,目標端通過交換組件從交換庫提取數(shù)據(jù)。
  • 數(shù)據(jù)接口: 以數(shù)據(jù)接口服務(wù)作為數(shù)據(jù)資源進行匯集,常用的接口方式有WebService、 Restful,并以XML、JSON等格式進行服務(wù)。數(shù)據(jù)資源提供方調(diào)取業(yè)務(wù)應(yīng)用系統(tǒng)或數(shù)據(jù)庫中的 數(shù)據(jù),并封裝提供數(shù)據(jù)接口服務(wù),數(shù)據(jù)需求方通過數(shù)據(jù)接口調(diào)用獲取數(shù)據(jù),并把數(shù)據(jù)采集至 前置庫中,目標端通過交換組件從前置庫提取數(shù)據(jù);
  • 文件交換:以電子文件作為數(shù)據(jù)資源進行匯聚,常用的電子文件類型有wps、xml、txt、 doc、docx、html、csv、xls、xlsx等。通過前置機的共享目錄或FTP服務(wù),實現(xiàn)共享文件數(shù)據(jù)組裝、數(shù)據(jù)傳輸、數(shù)據(jù)解析和數(shù)據(jù)使用,達到數(shù)據(jù)交換的目的;
  • 消息隊列: 以消息發(fā)布-訂閱方式進行數(shù)據(jù)匯聚, 可實現(xiàn)消息的異步發(fā)送接收, 發(fā)布訂閱, 使得兩端的應(yīng)用解耦(減少或解除應(yīng)用程序之間的耦合度)和網(wǎng)絡(luò)傳輸斷點續(xù)傳,支持分布 式消息隊列。

4. 實施數(shù)據(jù)采集

1)根據(jù)數(shù)據(jù)采集探查的結(jié)果, 針對不同的數(shù)據(jù)源類型, 推薦采用以下數(shù)據(jù)采集方案實施數(shù)據(jù)采集:

  • 針對結(jié)構(gòu)單一、數(shù)據(jù)量相對較小的結(jié)構(gòu)化數(shù)據(jù),可通過數(shù)據(jù)庫交換、文件交換、數(shù)據(jù)接口、 消息隊列等方式進行數(shù)據(jù)采集;
  • 針對傳感器、智能手機、網(wǎng)絡(luò)等渠道產(chǎn)生的類型豐富、數(shù)據(jù)量較大的數(shù)據(jù),可通過分布式數(shù) 據(jù)接口、分布式流數(shù)據(jù)收集、網(wǎng)絡(luò)爬蟲等方式進行數(shù)據(jù)采集;
  • 針對由麥克風(fēng)、攝像頭等設(shè)備產(chǎn)生的海量音視頻數(shù)據(jù),可通過硬件終端的語音圖像識別、編解碼等技術(shù)轉(zhuǎn)化后進行數(shù)據(jù)采集;
  • 針對問卷調(diào)查、實地調(diào)研、資料分析等產(chǎn)生的數(shù)據(jù),可通過在線填報、離線導(dǎo)人等人工轉(zhuǎn)化 方式進行數(shù)據(jù)采集。

2)不應(yīng)在待采集數(shù)據(jù)的源系統(tǒng)業(yè)務(wù)繁忙時進行,避免讀取動作影響源系統(tǒng)正常運行。

3)宜使用源系統(tǒng)的備份庫作為采集對象,使用備份庫時應(yīng)保證數(shù)據(jù)一致性和可用性。

4)對于數(shù)據(jù)量較大、單批量采集可能會造成系統(tǒng)故障的,應(yīng)支持分批或增量讀取, 并采用分布式 方式對數(shù)據(jù)源進行讀取。

5. 原始數(shù)據(jù)入庫

  • 將不進行處理的原始數(shù)據(jù)采集后存放在政務(wù)大數(shù)據(jù)的原始庫中。
  • 原始數(shù)據(jù)存儲應(yīng)按照規(guī)定, 根據(jù)源數(shù)據(jù)選擇合適的數(shù)據(jù)存儲方式對數(shù)據(jù)進行存儲。

6. 數(shù)據(jù)規(guī)整

數(shù)據(jù)規(guī)整通過數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分析等操作, 對采集的原始數(shù)據(jù)進行標準化規(guī)整處理, 確保數(shù)據(jù)的完整性、準確性和時效性。

數(shù)據(jù)規(guī)整過程管理應(yīng)包括但不限于:

  • 數(shù)據(jù)分析:應(yīng)對數(shù)據(jù)源進行分析,及時發(fā)現(xiàn)數(shù)據(jù)源存在的質(zhì)量問題;
  • 定義清洗規(guī)則:包括空值的檢查和處理、非法值的檢測和處理、不一致數(shù)據(jù)的檢測和處理、 相似重復(fù)記錄的檢測和處理等;
  • 執(zhí)行數(shù)據(jù)清洗規(guī)則: 依據(jù)定義的清洗規(guī)則,補足殘缺/空值、糾正不一致、完成數(shù)據(jù)拆分、數(shù)據(jù)合并或去重、數(shù)據(jù)脫敏、數(shù)據(jù)除噪等;
  • 清洗結(jié)果驗證:數(shù)據(jù)清洗方應(yīng)對定義的清洗方法的正確性和效率進行驗證與評估,對不滿足 清洗要求的清洗方法進行調(diào)整和改進。數(shù)據(jù)清洗過程宜多次迭代并進行分析、設(shè)計和驗證。

應(yīng)對數(shù)據(jù)的標準代碼、格式、類型等內(nèi)容,按照政務(wù)大數(shù)據(jù)轉(zhuǎn)換規(guī)則進行轉(zhuǎn)換。

應(yīng)通過數(shù)據(jù)聚合、數(shù)據(jù)歸類、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)血緣等方法,分析采集的數(shù)據(jù),形成上下文完整 有效的數(shù)據(jù)。

7. 規(guī)整數(shù)據(jù)入庫

對原始庫中的數(shù)據(jù)進行規(guī)整,使其滿足政務(wù)數(shù)據(jù)使用的標準化質(zhì)量要求,規(guī)整后的數(shù)據(jù)存放在 政務(wù)大數(shù)據(jù)規(guī)整庫中。

規(guī)整庫數(shù)據(jù)存儲應(yīng)根據(jù)源數(shù)據(jù)選擇合適的數(shù)據(jù)存儲方式,存儲應(yīng)符合規(guī)定。 處理后的數(shù)據(jù)存儲應(yīng)滿足海量、安全、高性能、高可靠、易管理。

8. 數(shù)據(jù)更新

原始數(shù)據(jù)發(fā)生更新時,應(yīng)依照上述要求的數(shù)據(jù)采集流程中的步驟對原始庫和規(guī)整庫中的需更新數(shù)據(jù)進行更新采集, 并根據(jù)數(shù)據(jù)更新快慢和實時性要求制定不同的采集策略。原始庫中更新后的歷史數(shù) 據(jù)存放在政務(wù)大數(shù)據(jù)中的歷史庫中。

1)應(yīng)支持全量更新和增量更新的數(shù)據(jù)更新方法:

  • 對存在更新標識的數(shù)據(jù)應(yīng)支持增量更新;
  • 對不存在更新標識的數(shù)據(jù)應(yīng)支持全量更新。

2)應(yīng)支持定時更新、事件觸發(fā)更新和手動更新的數(shù)據(jù)更新策略:

  • 對產(chǎn)生呈現(xiàn)周期性規(guī)律的數(shù)據(jù)應(yīng)支持定時更新策略;
  • 對產(chǎn)生由特定事件觸發(fā)的數(shù)據(jù)應(yīng)支持事件觸發(fā)更新策略;
  • 對產(chǎn)生無特定規(guī)律的數(shù)據(jù)應(yīng)支持手動更新策略。

3)支持實時、定時的數(shù)據(jù)更新頻率,并根據(jù)數(shù)據(jù)變化情況,進行及時和持續(xù)更新:

  • 實時產(chǎn)生且實時性要求高的數(shù)據(jù)應(yīng)進行實時更新;
  • 實時產(chǎn)生且實時性要求低的數(shù)據(jù)宜采用定時更新

9. 數(shù)據(jù)范圍

政務(wù)大數(shù)據(jù)采集范圍包括但不限于基礎(chǔ)數(shù)據(jù)、專題數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)和其他數(shù)據(jù)四大類:

  1. 基礎(chǔ)數(shù)據(jù),如人口、法人單位、自然資源、地理空間、宏觀經(jīng)濟、電子證照等數(shù)據(jù);
  2. 專題數(shù)據(jù),如房屋、城市部件、網(wǎng)格等與數(shù)字政府、數(shù)字社會、數(shù)字經(jīng)濟、數(shù)字文化、數(shù)字 生態(tài)相關(guān)的數(shù)據(jù);
  3. 業(yè)務(wù)數(shù)據(jù),如涉及公安、衛(wèi)生健康、教育、民政、交通、水利、人力資源和社會保障、市場 監(jiān)管、應(yīng)急管理、司法、住房和城鄉(xiāng)建設(shè)、交通運輸、數(shù)據(jù)資源管理等眾多領(lǐng)域的業(yè)務(wù)數(shù)據(jù);
  4. 其他數(shù)據(jù),如與政務(wù)大數(shù)據(jù)相關(guān)的互聯(lián)網(wǎng)、工業(yè)、商業(yè)等數(shù)據(jù)。

五、常見的數(shù)據(jù)質(zhì)量稽核規(guī)則示例

  • 數(shù)據(jù)完整性:確保數(shù)據(jù)的所有字段都有值,且符合業(yè)務(wù)規(guī)定
  • 數(shù)據(jù)準確性:確保數(shù)據(jù)的值與實際情況一致,無錯誤或誤差
  • 數(shù)據(jù)一致性:確保不同源的數(shù)據(jù)在各個系統(tǒng)中相互一致
  • 數(shù)據(jù)及時性:確保數(shù)據(jù)及時采集、更新和傳輸,以滿足業(yè)務(wù)需求
  • 數(shù)據(jù)可靠性:確保數(shù)據(jù)的來源可靠,數(shù)據(jù)的存儲和傳輸過程安全可靠
  • 數(shù)據(jù)有效性:確保數(shù)據(jù)滿足使用者的需求和標準,不包含無效或重復(fù)數(shù)據(jù)
  • 數(shù)據(jù)唯一性:確保數(shù)據(jù)的主鍵或索引字段唯一,避免重復(fù)錄入和重復(fù)使用

OK,今日就講到這里,這么多內(nèi)容相信都夠各位小伙伴消化一輪了,收藏起來慢慢看,總的來說,小編認為,互聯(lián)網(wǎng)產(chǎn)品經(jīng)理在AI的迅速崛起的背景下,數(shù)據(jù)產(chǎn)品經(jīng)理是除AI產(chǎn)品經(jīng)理外能夠存活且有一定價值的崗位。

本文由@樂少有話說 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!