關(guān)于數(shù)據(jù)采集:你需要了解這些

8 評(píng)論 10970 瀏覽 27 收藏 15 分鐘

導(dǎo)讀:通過(guò)上一系列《10分鐘帶你了解數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、數(shù)據(jù)中臺(tái)的區(qū)別與聯(lián)系》,我們了解了目前較為流行的幾種發(fā)生在企業(yè)業(yè)務(wù)活動(dòng)中數(shù)據(jù)存儲(chǔ)方式的區(qū)別與聯(lián)系。有了“鍋碗瓢盆”,想要做出色香味俱全的“大餐”,食材也是不可或缺的,所以我們就需要進(jìn)行數(shù)據(jù)采集。

一、數(shù)據(jù)采集的必要性

數(shù)據(jù)采集是數(shù)據(jù)分析挖掘的根基:

數(shù)據(jù)分析與挖掘過(guò)程中比較基礎(chǔ)且重要的一個(gè)環(huán)節(jié)是數(shù)據(jù)采集,再好的特征選取,建模算法,沒(méi)有了優(yōu)質(zhì)的元數(shù)據(jù),也會(huì)“巧婦難為無(wú)米之炊”。

采集的數(shù)據(jù)決定了數(shù)據(jù)分析挖掘的上限:

經(jīng)驗(yàn)告訴我們?cè)鯓訌臍v史數(shù)據(jù)的展現(xiàn)和分析過(guò)程中得到有用知識(shí),不管你是通過(guò)報(bào)表或多維分析得到企業(yè)各領(lǐng)域指標(biāo)相關(guān)性,還是通過(guò)挖掘模型的實(shí)施來(lái)根據(jù)歷史數(shù)據(jù)預(yù)測(cè)企業(yè)未來(lái)發(fā)展,這一切都是基于企業(yè)歷史數(shù)據(jù)的。沒(méi)有數(shù)據(jù)質(zhì)量基礎(chǔ)的保證,展現(xiàn)得多華麗的走勢(shì)圖表都是垃圾。

如下圖所示,garbage in , garbage out(垃圾進(jìn),垃圾出),指如果將錯(cuò)誤的、無(wú)意義的數(shù)據(jù)輸入計(jì)算機(jī)系統(tǒng),計(jì)算機(jī)自然也一定會(huì)輸出錯(cuò)誤、無(wú)意義的結(jié)果。(該諺語(yǔ)在數(shù)據(jù)分析領(lǐng)域也同樣適用)

garbage in garbage out(垃圾進(jìn)垃圾出)

二、數(shù)據(jù)采集方式

數(shù)據(jù)采集方式按照線(xiàn)上采集,線(xiàn)下采集兩大類(lèi)進(jìn)行分類(lèi),下面對(duì)于每種采集方式及相關(guān)技術(shù)進(jìn)行簡(jiǎn)單的介紹。

1. 線(xiàn)上采集

1)開(kāi)放數(shù)據(jù)

開(kāi)放數(shù)據(jù)指的是互聯(lián)網(wǎng)中面向所有人公開(kāi)的數(shù)據(jù),其中包括面向特定行業(yè)公開(kāi)的數(shù)據(jù),各級(jí)政府公開(kāi)的數(shù)據(jù)以及網(wǎng)頁(yè)中相關(guān)的內(nèi)容數(shù)據(jù),例如下圖所示為北京市公共數(shù)據(jù)開(kāi)放平臺(tái)。

獲取開(kāi)放類(lèi)數(shù)據(jù),我們可以使用爬蟲(chóng)技術(shù),這里簡(jiǎn)單介紹一下爬蟲(chóng)技術(shù)。

爬蟲(chóng)技術(shù)是一種可以使開(kāi)發(fā)人員自動(dòng)化,系統(tǒng)化收集互聯(lián)網(wǎng)上相關(guān)數(shù)據(jù)的技術(shù),爬蟲(chóng)不是內(nèi)容的生產(chǎn)者,而是內(nèi)容的搬運(yùn)者。關(guān)于爬蟲(chóng)技術(shù)的各類(lèi)學(xué)習(xí)資料在網(wǎng)上可以說(shuō)是“汗牛充棟”,筆者在這里就不展開(kāi)說(shuō)了,但是這里關(guān)于爬蟲(chóng)要講的就是爬蟲(chóng)的安全問(wèn)題,一定要遵守相關(guān)法律,切記不要觸碰紅線(xiàn)。

a. 個(gè)人信息,商業(yè)秘密與國(guó)家秘密是數(shù)據(jù)爬取的紅線(xiàn)。

b. 遵守職業(yè)道德,控制爬蟲(chóng)訪(fǎng)問(wèn)頻次,不要干擾被爬方的正常業(yè)務(wù)活動(dòng)。

c. 遵守robots協(xié)議,做到什么能爬,什么不能爬。

2)第三方平臺(tái)數(shù)據(jù)

比如說(shuō)開(kāi)發(fā)者想獲取相關(guān)各類(lèi)金融數(shù)據(jù),除了可以利用爬蟲(chóng)技術(shù)外,我們可以通過(guò)某第三方平臺(tái)提供的API接口來(lái)調(diào)取相關(guān)數(shù)據(jù),例如下圖所示為T(mén)oshare大數(shù)據(jù)開(kāi)放平臺(tái),開(kāi)發(fā)者可以獲取各類(lèi)金融數(shù)據(jù)。

筆者曾接到過(guò)這樣一個(gè)任務(wù),獲取某市所有的禁止機(jī)動(dòng)車(chē)左轉(zhuǎn),禁止機(jī)動(dòng)車(chē)右轉(zhuǎn),禁止機(jī)動(dòng)車(chē)掉頭的路段,在沒(méi)有條件獲取準(zhǔn)確的數(shù)據(jù)時(shí),我們可以通過(guò)高德或百度的地圖開(kāi)放平臺(tái)的API接口,分別在路口處設(shè)置起訖點(diǎn),通過(guò)對(duì)比機(jī)動(dòng)車(chē)與步行的路徑規(guī)劃距離來(lái)分析該路口是否禁左,禁右,禁掉頭,如下圖所示為百度開(kāi)放平臺(tái),我們可以在這里通過(guò)API接口,完成各類(lèi)數(shù)據(jù)采集。

對(duì)應(yīng)的功能有相應(yīng)的服務(wù)文檔講解如何使用,大家有興趣可以打開(kāi)網(wǎng)址進(jìn)行嘗試。

3)物理數(shù)據(jù)

物理數(shù)據(jù)指的是用戶(hù)在物理世界產(chǎn)生的數(shù)據(jù),例如用戶(hù)使用手機(jī)時(shí)手機(jī)的各類(lèi)傳感器(指紋傳感器:記錄用戶(hù)指紋用于解鎖手機(jī)或支付等行為,陀螺儀:通過(guò)角動(dòng)量守恒原理記錄角速度用于手機(jī)導(dǎo)航等行為)

相較于日常應(yīng)用,物理數(shù)據(jù)大量存在于傳統(tǒng)制造業(yè)中,一般有如下幾類(lèi)數(shù)據(jù)采集方式:

各類(lèi)傳感器:

正如上面提到的手機(jī)中各類(lèi)傳感器,傳統(tǒng)制造業(yè)中的傳感器品類(lèi)繁多,涵蓋光敏,氣敏,力敏,磁敏,聲敏等不同類(lèi)別的工業(yè)傳感器,這部分的數(shù)據(jù)盡管單條數(shù)據(jù)內(nèi)容很少,但是頻率非常高。

RFID技術(shù):

RFID(Radio Frequency Identification,射頻識(shí)別)技術(shù)是一種非接觸式的自動(dòng)識(shí)別技術(shù),通過(guò)射頻信號(hào)自動(dòng)識(shí)別目標(biāo)對(duì)象并獲取相關(guān)的數(shù)據(jù)信息。利用射頻方式進(jìn)行非接觸雙向通信,達(dá)到識(shí)別目的并交換數(shù)據(jù)。

RFID技術(shù)可識(shí)別高速運(yùn)動(dòng)物體并可同時(shí)識(shí)別多個(gè)標(biāo)簽,操作快捷方便。如下圖所示,我們用手機(jī)的NFC讀取的電子標(biāo)簽數(shù)據(jù),可以看到ISO/IEC 14443-3(Type A),這個(gè)是當(dāng)前電子標(biāo)簽的協(xié)議,目前大部分公交卡,一卡通,門(mén)禁卡等都是基于ISO 14443 Type A協(xié)議的,下方則是該電子標(biāo)簽的詳細(xì)信息,如果配合專(zhuān)業(yè)的讀寫(xiě)器及特定的軟件可讀性會(huì)更好,在這里只是為大家展示一下。

由于各類(lèi)設(shè)備品牌類(lèi)型繁多,廠(chǎng)家和數(shù)據(jù)接口各異,有可能一套生產(chǎn)線(xiàn)的設(shè)備來(lái)自于好幾個(gè)國(guó)家,數(shù)據(jù)采集一直是傳統(tǒng)制造業(yè)的痛點(diǎn)。

4)APP數(shù)據(jù)

我們?nèi)粘I钪校诟黝?lèi)App,Web端應(yīng)用,小程序上的操作行為稱(chēng)為事件,例如打開(kāi)某個(gè)電商App→瀏覽某個(gè)商品→查看商品信息,評(píng)論→放入購(gòu)物車(chē)→下單→支付→查看物流信息→確認(rèn)收貨→對(duì)商品進(jìn)行評(píng)價(jià)。當(dāng)事件被觸發(fā)時(shí),我們想進(jìn)行監(jiān)控,那么只需要研發(fā)為事件植入監(jiān)控代碼,這樣每當(dāng)事件觸發(fā)時(shí),后臺(tái)就可以采集該事件的相關(guān)信息,上傳到服務(wù)器。

關(guān)于數(shù)據(jù)埋點(diǎn),是互聯(lián)網(wǎng)業(yè)務(wù)中比較重要的一部分,由于篇幅所限,這里簡(jiǎn)單的介紹一下,這里筆者現(xiàn)挖個(gè)坑,后續(xù)會(huì)專(zhuān)門(mén)出一個(gè)系列,詳細(xì)與讀者對(duì)數(shù)據(jù)埋點(diǎn)進(jìn)行探討與交流。一般來(lái)說(shuō),埋點(diǎn)類(lèi)型分為Web埋點(diǎn)和App埋點(diǎn),其中主要的埋點(diǎn)技術(shù)又分為有埋點(diǎn)技術(shù),無(wú)埋點(diǎn)技術(shù),可視化埋點(diǎn)等。

  • 有埋點(diǎn)技術(shù):開(kāi)發(fā)手動(dòng)在程序中寫(xiě)代碼實(shí)現(xiàn)埋點(diǎn),通過(guò)用戶(hù)觸發(fā)某個(gè)行為后,程序自動(dòng)發(fā)送數(shù)據(jù);
  • 無(wú)埋點(diǎn)技術(shù):前端自動(dòng)采集全部事件,當(dāng)事件觸發(fā)時(shí)就會(huì)調(diào)用相關(guān)接口上報(bào)數(shù)據(jù),流量與采集數(shù)量教育龐大。
  • 可視化埋點(diǎn):近年主流的埋點(diǎn)趨勢(shì),以前端可視化的方式,通過(guò)可視化的界面拖拽配置實(shí)現(xiàn),由于活動(dòng)控件元素都帶有唯一標(biāo)識(shí)。通過(guò)埋點(diǎn)配置后臺(tái),將元素與要采集事件關(guān)聯(lián)起來(lái),可以自動(dòng)生成埋點(diǎn)代碼嵌入到頁(yè)面中。

2. 線(xiàn)下采集

關(guān)于線(xiàn)下采集數(shù)據(jù),筆者認(rèn)為更傾向于主觀(guān)性數(shù)據(jù)的采集,因?yàn)槎?,客觀(guān)的數(shù)據(jù)公共場(chǎng)所面對(duì)面的線(xiàn)下采集,易使被采集者產(chǎn)生戒備感,非常容易造成數(shù)據(jù)采集準(zhǔn)確程度非常差,影響數(shù)據(jù)質(zhì)量,比如:筆者讀書(shū)時(shí)參與過(guò)線(xiàn)下的數(shù)據(jù)采集,某市交通規(guī)劃部門(mén)在火車(chē)站,地鐵換乘站等交通樞紐隨訪(fǎng)乘客去填寫(xiě)出行調(diào)查問(wèn)卷,盡管問(wèn)卷設(shè)計(jì)的如何規(guī)范與精良,在填寫(xiě)完成后進(jìn)行獎(jiǎng)勵(lì)等方法,乘客填寫(xiě)接受程度依舊很低。

所以后期此種采集方式也在調(diào)整改革,例如:定量,客觀(guān)數(shù)據(jù)采用線(xiàn)上收集,通過(guò)與三大運(yùn)營(yíng)商合作,利用手機(jī)信令與基站的關(guān)系精確獲得乘客們的出行記錄。

另外,同學(xué)們經(jīng)常在商場(chǎng),超市看到各類(lèi)銀行宣傳辦信用卡的活動(dòng)點(diǎn),在現(xiàn)場(chǎng)填寫(xiě)資料,辦理信用卡都可以獲得禮品獎(jiǎng)勵(lì),但是盡管如此通過(guò)觀(guān)察行人接受程度較差,筆者的學(xué)校/公司食堂也舉辦過(guò)類(lèi)似的活動(dòng),但對(duì)比之下填寫(xiě)調(diào)查問(wèn)卷的意愿更為強(qiáng)烈。

線(xiàn)下采集數(shù)據(jù)的方式有很多種,例如:問(wèn)卷調(diào)查,用戶(hù)訪(fǎng)談,實(shí)地調(diào)研,焦點(diǎn)小組,用戶(hù)反饋等等,接下來(lái)選取幾個(gè)常用的方式進(jìn)行介紹。

1)問(wèn)卷調(diào)查

問(wèn)卷調(diào)查是目前廣泛采用的調(diào)查形式,根據(jù)調(diào)研目的設(shè)計(jì)問(wèn)卷,并采用抽樣方式確定調(diào)查樣本,完成調(diào)查。問(wèn)卷調(diào)查的步驟一般為:確定用戶(hù)及樣本量(根據(jù)調(diào)查目標(biāo)選擇符合特征的用戶(hù),盡可能多的涵蓋符合目標(biāo)的各類(lèi)人群)——設(shè)計(jì)調(diào)查問(wèn)卷框架——發(fā)放問(wèn)卷(試調(diào)研/正式調(diào)研)——匯總數(shù)據(jù),撰寫(xiě)報(bào)告

2)用戶(hù)訪(fǎng)談

用戶(hù)訪(fǎng)談是用戶(hù)研究中非常常用的一種方式,運(yùn)用有目的,有計(jì)劃,有方法的口頭交談向用戶(hù)了解事實(shí)的方法。一般用戶(hù)訪(fǎng)談的步驟為:確定調(diào)研的目標(biāo)與內(nèi)容——確定用戶(hù)和樣本——確定訪(fǎng)談與提綱——進(jìn)行訪(fǎng)談——匯總報(bào)告

三、采集數(shù)據(jù)類(lèi)別

當(dāng)我們通過(guò)上述方式采集數(shù)據(jù)后,獲取的數(shù)據(jù)一般有三種類(lèi)型,即結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)。關(guān)于結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),我們?cè)谏衔摹?0分鐘帶你了解數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、數(shù)據(jù)中臺(tái)的區(qū)別與聯(lián)系(二)》提過(guò),大家有興趣可以點(diǎn)擊查看。

那么何為半結(jié)構(gòu)化數(shù)據(jù)呢?

半結(jié)構(gòu)化數(shù)據(jù),顧名思義就是介于結(jié)構(gòu)化數(shù)據(jù)(關(guān)系型數(shù)據(jù)庫(kù))和非結(jié)構(gòu)化數(shù)據(jù)(聲音,視頻)之間的數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種形式,它并不符合關(guān)系型數(shù)據(jù)庫(kù)或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來(lái)的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來(lái)分隔語(yǔ)義元素以及對(duì)記錄和字段進(jìn)行分層。下圖所示就是JSON簡(jiǎn)單實(shí)例,我們可以觀(guān)察發(fā)現(xiàn)其存儲(chǔ)這某些書(shū)籍信息,一般日志文件,XML文檔,JSON文檔等就是半結(jié)構(gòu)化數(shù)據(jù)。

四、小結(jié)

本文帶領(lǐng)大家快速了解各類(lèi)數(shù)據(jù)采集方式,各類(lèi)采集技術(shù)固然重要,但要結(jié)合所在行業(yè),所在企業(yè)規(guī)模情況進(jìn)行選取,減少“殺雞焉用牛刀”的情況出現(xiàn)。

隨著國(guó)家安全重要性及居民個(gè)人隱私觀(guān)念的提升,在保證數(shù)據(jù)采集的精確性的同時(shí),更應(yīng)注意數(shù)據(jù)采集中如何保護(hù)用戶(hù)隱私問(wèn)題的情況以及涉及到國(guó)家關(guān)鍵基礎(chǔ)設(shè)施相關(guān)數(shù)據(jù)的安全性。

筆者在寫(xiě)這篇文章時(shí),朋友正好像我推送微信公眾號(hào)的一片關(guān)于Flightradar24涉及信息安全違規(guī)下架的文章,筆者與朋友對(duì)無(wú)線(xiàn)電以及AIS系統(tǒng)較為感興趣,深知此類(lèi)數(shù)據(jù)的重要性。

本篇文章就寫(xiě)到這里,關(guān)于數(shù)據(jù)分析,數(shù)據(jù)產(chǎn)品相關(guān)的知識(shí)筆者會(huì)繼續(xù)與大家分享交流,文中不準(zhǔn)確的地方歡迎并希望大家批評(píng)指正。

 

本文由 @快樂(lè)的給予 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自 Pexels,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. IOTOS通采引擎(PBOX)是一款物聯(lián)網(wǎng)邊緣計(jì)算智能硬件,側(cè)重子系統(tǒng)接口協(xié)議轉(zhuǎn)換,可用于工業(yè)或信息化系統(tǒng)集成項(xiàng)目中,向下打通多設(shè)備系統(tǒng)、向上提供標(biāo)準(zhǔn)數(shù)據(jù)接口。內(nèi)置多種接口協(xié)議驅(qū)動(dòng),支持即插即用、一鍵適配。結(jié)合特有的生態(tài)化驅(qū)動(dòng)開(kāi)發(fā)技術(shù)服務(wù),可實(shí)現(xiàn)高效率、低成本、低門(mén)檻解決物聯(lián)網(wǎng)多源異構(gòu)數(shù)據(jù)接入繁瑣的問(wèn)題,為上層系統(tǒng)提供統(tǒng)一支撐。

    來(lái)自湖北 回復(fù)
  2. 期待埋點(diǎn)的文章 關(guān)注你了哈哈哈

    來(lái)自浙江 回復(fù)
  3. 隨著國(guó)家安全重要性及居民個(gè)人隱私觀(guān)念的提升,在保證數(shù)據(jù)采集的精確性的同時(shí),更應(yīng)注意數(shù)據(jù)采集中如何保護(hù)用戶(hù)隱私問(wèn)題的情況以及涉及到國(guó)家關(guān)鍵基礎(chǔ)設(shè)施相關(guān)數(shù)據(jù)的安全性。

    來(lái)自湖北 回復(fù)
  4. 數(shù)據(jù)分析如果用的不好,會(huì)有大亂子的,我們要注意使用。

    來(lái)自云南 回復(fù)
  5. 雖然爬蟲(chóng)技術(shù)十分方便好用,但是運(yùn)用時(shí)一定要遵守法律法規(guī),不能做觸犯法律紅線(xiàn)的事情。

    來(lái)自陜西 回復(fù)
  6. 半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種形式,它并不符合關(guān)系型數(shù)據(jù)庫(kù)或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來(lái)的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來(lái)分隔語(yǔ)義元素以及對(duì)記錄和字段進(jìn)行分層。

    來(lái)自廣東 回復(fù)
  7. ”采集的數(shù)據(jù)決定了數(shù)據(jù)分析挖掘的上限“這句話(huà)說(shuō)的好,任何的結(jié)論都需要堅(jiān)實(shí)的論據(jù)支撐

    來(lái)自江西 回復(fù)
  8. 爬蟲(chóng)一定不能觸及法律紅線(xiàn),爬蟲(chóng)技術(shù)雖然便捷,但是也有很大的隱患

    來(lái)自江西 回復(fù)
专题
39713人已学习11篇文章
你说你会SEO/SEM,我信!但是肯定做的不够好,不服看看别人的。
专题
33755人已学习16篇文章
信息流背后有着怎样的逻辑和策略?
专题
20113人已学习16篇文章
一个清晰的入口引导能够让用户提高点击的欲望,从而实现操作全流程。本专题的文章提供了有效的页面引导设计指南。
专题
36865人已学习17篇文章
如果你们有志于在运营路上深耕,并实现快速成长,你需要知道以下这些!
专题
11865人已学习12篇文章
很多公司都在谈论数字化转型,而数字化的基础即是大量的、繁杂的、高度业务关联的基础数据。数字化运营是其中的一个分支。本专题的文章分享了如何做好数字化运营。