萬字詳解數(shù)據(jù)中臺
數(shù)據(jù)中臺的概念已經(jīng)出現(xiàn)了好幾年,而到目前,互聯(lián)網(wǎng)企業(yè)、IT軟件企業(yè)等企業(yè)都推出了自己的產(chǎn)品與戰(zhàn)略,進(jìn)軍數(shù)據(jù)中臺領(lǐng)域。怎么理解數(shù)據(jù)中臺及其產(chǎn)品形態(tài)呢?這篇文章里,作者結(jié)合具體產(chǎn)品做了一定梳理和分析,一起來看。
一、歷史
1. 從世界大數(shù)據(jù)的角度去看
1991年,Bill Inmon出版了《建立數(shù)據(jù)倉庫》。也就是目前我們還是一直在使用的數(shù)據(jù)倉庫的概念。在落地方面,沒有準(zhǔn)確的消息當(dāng)時的技術(shù)是如何將大批量的數(shù)據(jù)入倉庫的,但是因為其非實時性質(zhì),應(yīng)該不是問題,數(shù)據(jù)進(jìn)倉之后再花一些時間去完成匯總層的計算。
2003年,Google公布了其內(nèi)部處理海量數(shù)據(jù)的技術(shù)——分布式文件系統(tǒng)GFS、并行處理框架——MapReduce、高效數(shù)據(jù)存儲模型BigTable等等。這些促成了Hadoop的誕生,再后面是Hadoop的完善、更多的大數(shù)據(jù)相關(guān)開源項目的誕生,以致于每個場景都有了框架去使用,例如:Flink、Impala、Kudu、Kafka等等。
2008年~2011年,這期間是學(xué)術(shù)界對于大數(shù)據(jù)討論的繁榮時期,Nature、EMC世界大會、麥肯錫全球研究院、Gartner都在發(fā)表自己對于大數(shù)據(jù)的看法。大數(shù)據(jù)開始成為人們熱議的話題。
2011年以及之后,世界多國都將大數(shù)據(jù)作為戰(zhàn)略,更是推動了大數(shù)據(jù)的發(fā)展。
2. 從國家大數(shù)據(jù)角度去看
2014年開始探索大數(shù)據(jù),并持續(xù)地去運用大數(shù)據(jù),將大數(shù)據(jù)作為戰(zhàn)略,可見大數(shù)據(jù)的重要性。我想比較明顯的感受是一些政務(wù)可以在網(wǎng)上處理了,不一定要本人到現(xiàn)場辦理。
3. 從數(shù)據(jù)產(chǎn)品的角度去看
數(shù)據(jù)使用需要一種方式。
在久遠(yuǎn)的年代或者是落后的企業(yè)環(huán)境里,我們還不會使用數(shù)據(jù)倉庫,只是使用數(shù)據(jù)庫去存我們的所有數(shù)據(jù),但是這讓我們大量的數(shù)據(jù)難以完成計算,時效低。
到了數(shù)據(jù)倉庫的時代,開始使用數(shù)據(jù)倉庫去存和使用數(shù)據(jù),使用效率開始有了較大的提升。
同樣是數(shù)據(jù)倉庫的形式,到了企業(yè)里面之后,隨著對于數(shù)據(jù)的管理實踐,漸漸總結(jié)出了數(shù)據(jù)平臺這個東西,可能是基于組織架構(gòu)。
到現(xiàn)在,我們主要還是為了提升使用數(shù)據(jù)的效率,因而產(chǎn)生了數(shù)據(jù)中臺,這種高復(fù)用的使用和管理數(shù)據(jù)的方式。
4. 從數(shù)據(jù)中臺的角度去看
數(shù)據(jù)中臺的概念最早起源于2015年。
2015年,馬云在拜訪參觀芬蘭游戲公司Supercell時注意到該公司擁有一個強大的技術(shù)平臺來支持公司內(nèi)部小團(tuán)隊的游戲開發(fā),從而各團(tuán)隊可以專注創(chuàng)新,基礎(chǔ)且同質(zhì)化的技術(shù)內(nèi)容已實現(xiàn)共享支持。如果將這種思維轉(zhuǎn)化到企業(yè)治理中,則需要構(gòu)建一個資源整合和能力沉淀的平臺,達(dá)到對不同部門進(jìn)行總協(xié)調(diào)和支持的目的,數(shù)據(jù)中臺的概念由此誕生。
2016 年,阿里巴巴開始實施數(shù)據(jù)中臺戰(zhàn)略,通過構(gòu)建創(chuàng)新靈活的“大中臺”、“小前臺”的組織機(jī)制和業(yè)務(wù)機(jī)制,實現(xiàn)管理模式的創(chuàng)新。
2017年,滴滴出行跟進(jìn)了數(shù)據(jù)中臺戰(zhàn)略,并于同年12月分享了《如何構(gòu)建滴滴出行業(yè)務(wù)中臺》的企業(yè)戰(zhàn)略。
2018 年,京東于12月宣布采用前臺、中臺與后臺的組織架構(gòu)。
2019年,數(shù)據(jù)中臺建設(shè)規(guī)模開始迅速增長,傳統(tǒng)企業(yè)與創(chuàng)新企業(yè)均積極參與建設(shè),同時,行業(yè)中涌現(xiàn)了一批以建設(shè)數(shù)據(jù)中臺為核心業(yè)務(wù)的創(chuàng)新業(yè)務(wù)服務(wù)商。
截至目前,互聯(lián)網(wǎng)企業(yè)、IT軟件企業(yè)、移動運營商及IT解決方案提供商均推出自己的產(chǎn)品與戰(zhàn)略,進(jìn)軍數(shù)據(jù)中臺領(lǐng)域。
二、數(shù)據(jù)中臺的形態(tài)總結(jié)
1. 核心能力
我認(rèn)為是強大的服務(wù)能力,能夠快速響應(yīng)業(yè)務(wù)的需求。一般企業(yè)內(nèi)的數(shù)據(jù)中臺并沒有數(shù)據(jù)業(yè)務(wù)化,也就是說數(shù)據(jù)中臺是不賺錢的,此時數(shù)據(jù)中臺扮演的角色是輔助業(yè)務(wù)決策。
而扮好這個角色就是業(yè)務(wù)有很多需求,數(shù)據(jù)中臺都能夠及時地消化,這是很難的,相信一定會有出現(xiàn)一個需求兩個月才完成的情況出來,從需求提出到產(chǎn)品梳理到技術(shù)開發(fā)到測試到驗收到上線,這是一個漫長的過程。
如果任何一個需求都是這樣去開發(fā)地話,完成業(yè)務(wù)的需求需要大量的人力,但這是難以做到的,企業(yè)需要考慮用人成本,而現(xiàn)在的技術(shù)成本是相當(dāng)高的。那么數(shù)據(jù)中臺此時就是為提升服務(wù)業(yè)務(wù)的能力而生。
2. 架構(gòu)
onedata和oneentity的理論的理論來自于阿里。經(jīng)過我的其他一些認(rèn)知結(jié)合,我對這2個方法論的認(rèn)知如下。oneentity是數(shù)據(jù)的底層根基,作用在于打通數(shù)據(jù)。常見的數(shù)據(jù)打通是人的數(shù)據(jù)的打通,但實際上oneentity不僅僅指的是人,物也是需要打通的,也就是說需要對人或者物進(jìn)行唯一標(biāo)識。
通常一個人即是唯一的,此時常用的方法論是ID-Mapping。物的話,一個物可以是唯一的,但是如果是批量的商品,那么往往還會有唯一的型號,用以標(biāo)識都是同一類型的商品。這樣后續(xù)需要統(tǒng)計商品的銷售情況時,可打通全域的數(shù)據(jù)進(jìn)行全面的統(tǒng)計。
onedata指的是數(shù)據(jù)只存一份,口徑統(tǒng)一。所有的數(shù)據(jù)匯集到數(shù)據(jù)中臺,各個計算好的指標(biāo)或者維度都是統(tǒng)一的,企業(yè)內(nèi)的任何地方需要統(tǒng)計數(shù)據(jù)都是從這一份數(shù)據(jù)拿數(shù)據(jù)進(jìn)行統(tǒng)計。
乍一聽感覺是比較簡單的一個方法論,但是在實踐的過程中不好將所有的口徑進(jìn)行統(tǒng)一,因為各個業(yè)務(wù)線對于口徑都有自己的看法。然而,我認(rèn)為盡管如此,我們還是可以制定出公認(rèn)的標(biāo)準(zhǔn)的口徑,這樣的話高層在看數(shù)據(jù)的時候就不至于因為多口徑而誤解了數(shù)據(jù),至于那些個性化的口徑可以使用某個規(guī)則將盡可能多的個性化口徑覆蓋,還有部分個性口徑實在沒有辦法覆蓋則為之創(chuàng)建特定的表去計算。
3. 核心邏輯
1)關(guān)于oneentity
關(guān)于人,我曾寫過一個相對詳盡的ID-Mapping的方案,在此不再贅述,邏輯比較復(fù)雜。
關(guān)于物,這個的邏輯比較簡單,主要就是物都經(jīng)過中臺,帶有唯一標(biāo)識,所帶的標(biāo)識將會去到訂單、行為日志等等數(shù)據(jù)里,這樣的話,便可基于唯一標(biāo)識去打通全域的物體。而這個事情通常是由業(yè)務(wù)中臺去做,數(shù)據(jù)中臺再基于業(yè)務(wù)中臺的數(shù)據(jù)去統(tǒng)計。
2)關(guān)于onedata
在過去我們建設(shè)數(shù)據(jù)倉庫總是先有數(shù)據(jù)分析需求,然后才是ETL工程師去設(shè)計數(shù)據(jù)倉庫并進(jìn)行開發(fā)。我認(rèn)為了解業(yè)務(wù),從業(yè)務(wù)的角度去建設(shè)數(shù)據(jù)倉庫會是更好的做法。
兩種做法得到的結(jié)果的區(qū)別在于業(yè)務(wù)的附加程度是不一樣的,前者可以說基本就是基于技術(shù)的角度去設(shè)計數(shù)據(jù)倉庫的,可能會造成之后的修改或者不斷的新增更多相似的表,單點的開發(fā)并不會考慮更多的事情,基于需求能夠完成需求即可。后者則是在充分了解業(yè)務(wù)的情況下,以俯視的視角去進(jìn)行設(shè)計,考慮到業(yè)務(wù)的情況,之后有更多的其他的數(shù)據(jù)時,不需要頻繁新增表或者改表,而是在良好的表基礎(chǔ)上進(jìn)行擴(kuò)展——簡單理解就是加字段。
這樣的設(shè)計背后的邏輯常常是基于主流程主數(shù)據(jù)考慮的。我們會梳理出主流程,并在主流程中找到我們認(rèn)為重要的主數(shù)據(jù),然后基于主數(shù)據(jù)進(jìn)行標(biāo)簽或者指標(biāo)的設(shè)計。
而這些標(biāo)簽/指標(biāo)將依附在我們的表中。每一張表其實代表的是主數(shù)據(jù)的一個分類,而主數(shù)據(jù)是這個分類的根節(jié)點。如下例子所示,用戶是主數(shù)據(jù),是根節(jié)點,注冊信息是分類或者可以叫它子節(jié)點(對應(yīng)的是我們的表),而首次注冊的APP、首次注冊的渠道則是樹節(jié)點(對應(yīng)的是我們表中的字段)。當(dāng)然這個樹結(jié)構(gòu)可能沒有這么簡單,根據(jù)企業(yè)的實際情況建立樹結(jié)構(gòu)。
4. 落地
- 標(biāo)簽體系設(shè)計:主要是產(chǎn)品或者是資產(chǎn)設(shè)計師建立標(biāo)簽體系,相當(dāng)于給技術(shù)提需求。這里的標(biāo)簽可能是指標(biāo)也可能是標(biāo)簽。
- 標(biāo)簽同步與加工:需求到了技術(shù)時,當(dāng)技術(shù)完成開發(fā)后,需要將相關(guān)的元數(shù)據(jù)同步回到系統(tǒng)。
- 標(biāo)簽管理:產(chǎn)品/資產(chǎn)設(shè)計師對于標(biāo)簽的管理,從標(biāo)簽的上架到下架。
- 標(biāo)簽門戶:標(biāo)簽的展示,相當(dāng)于標(biāo)簽超市。
- 標(biāo)簽應(yīng)用:各種服務(wù)組件,也就是各種各樣的功能。
因為我曾寫過一篇比較詳盡的文章描述這個落地方法,在這里就不再贅述了。
5. 行業(yè)情況
2019年被稱為數(shù)據(jù)中臺元年。單從數(shù)據(jù)來看,目前,我國數(shù)據(jù)中臺行業(yè)已經(jīng)從萌芽發(fā)展階段轉(zhuǎn)換到高速發(fā)展階段。根據(jù)艾瑞咨詢數(shù)據(jù),數(shù)據(jù)中臺市場已從2018年的17億元增長至2020年的68億元,三年CAGR為100%, 到2023年,數(shù)據(jù)中心市場規(guī)模有望達(dá)到183億元,五年CAGR可達(dá)到48.1%。
雖然數(shù)據(jù)看起來不錯,但是置身于這個行業(yè)會發(fā)現(xiàn)很少真的將中臺的所有能力都標(biāo)準(zhǔn)化出來的軟件服務(wù)商,大多應(yīng)該都還是提供咨詢服務(wù),走的是項目制。
這里的數(shù)據(jù)中臺其實應(yīng)該更多指的是數(shù)據(jù)產(chǎn)品,并不是企業(yè)自建的那種厚重的中臺,很少聽說企業(yè)會將自己的所有數(shù)據(jù)都放在一個外部的平臺上,大多數(shù)時候都是某個產(chǎn)品使用某個數(shù)據(jù)平臺。而且由于中臺的復(fù)雜性,標(biāo)準(zhǔn)的組件一般難以滿足需求。
那到底復(fù)雜在哪里?或者說并不是復(fù)雜,而是企業(yè)的所有數(shù)據(jù)不會都交由第三方處理,所以現(xiàn)在的數(shù)據(jù)平臺一般都是提供比較簡單的標(biāo)準(zhǔn)化的功能,像用戶行為分析、用戶畫像、智能推薦等等。
從大數(shù)據(jù)企業(yè)的排行榜來說,深耕這個行業(yè)的SaaS公司似乎比大廠更有競爭力,在前30的榜單上沒有看到大廠的身影。
另外,在數(shù)據(jù)行業(yè),不管什么公司,大多產(chǎn)品都以服務(wù)業(yè)務(wù)為導(dǎo)向,以業(yè)務(wù)價值為導(dǎo)向,不再片面地追求厚重的中臺,更加聚合的理想的中臺,反而順應(yīng)企業(yè)的發(fā)展情況,一般而言中小公司都是不太注重建設(shè)厚重的中臺,反而希望能夠更輕量地實現(xiàn)需求,可能實現(xiàn)地沒有那么完美,但是應(yīng)該是低成本的不需要影響到公司級別的員工去配合。
我也在這段時間里從希望能夠比較理想地建設(shè)中臺到更加希望服務(wù)業(yè)務(wù)為主,至于是否非常規(guī)則高級地實現(xiàn)是次要的。至于如何輕量地實現(xiàn),按我的理解是不去大改目前的情況,以間接地小改去實現(xiàn)需求。
三、行業(yè)產(chǎn)品分析
1. 分析的目的
我們僅是從產(chǎn)品的角度去分析各個廠商做出來的產(chǎn)品是什么樣的,有什么可借鑒可學(xué)習(xí)的地方。
2. 競品的選擇
神策、巨量引擎、友盟。神策是我比較關(guān)注和常用的數(shù)據(jù)產(chǎn)品,在業(yè)界比較出色。巨量引擎是今年接觸到的字節(jié)產(chǎn)品,是一個比較新的產(chǎn)品,我比較喜歡它的架構(gòu)。友盟則是老牌大廠的一個產(chǎn)品,用以對比。
3. 架構(gòu)
神策:
火山引擎:
友盟:
總結(jié):
總的來說,這樣的架構(gòu)是符合典型的業(yè)務(wù)流程的。
- 先通過廣告進(jìn)行引流。
- 當(dāng)流量來了之后,對其進(jìn)行行為分析、畫像分析。不知不覺中進(jìn)行智能推薦,千人千面地進(jìn)行觸達(dá)。
- 每次觸達(dá)都需要使用內(nèi)容,因而也就有了內(nèi)容管理,追蹤轉(zhuǎn)化的內(nèi)容歸因。
- 當(dāng)客戶有了潛力之后可能就進(jìn)入客戶管理系統(tǒng)中。
- 涉及到比較復(fù)雜的情況時,就需要進(jìn)行A/B測試。
實際上這樣的架構(gòu)還不是一定的,只能說比較相似,神策與巨量引擎的比較相似,友盟咋一眼看上去不相同,但實際是相似的,只是功能的結(jié)構(gòu)不一樣。友盟相比其他的,多了很多分析的模型,在很多的分析模型上加上一些常規(guī)功能,例如畫像、用戶行為分析,最后組成了一整套的解決方案。
四、我的認(rèn)識
1. 中小企業(yè)表面臨的一些困境
企業(yè)數(shù)據(jù)氛圍不夠:大多數(shù)企業(yè)已經(jīng)在倡導(dǎo)數(shù)據(jù)說話,但是對于數(shù)據(jù)的認(rèn)識不夠,就像一個初級的數(shù)據(jù)使用者,對于數(shù)據(jù)的理解停留在比較表層,拋出幾個簡單的數(shù)據(jù),然后就草草完成結(jié)論。這是司空見慣的。這樣的情況,導(dǎo)致這些數(shù)據(jù)本就是比較基礎(chǔ)的,業(yè)務(wù)自己就可以完成數(shù)據(jù)統(tǒng)計,根本就用不上大數(shù)據(jù),大數(shù)據(jù)被晾在了一邊。
業(yè)務(wù)疲于完成kpi:如果大數(shù)據(jù)試圖去引導(dǎo)業(yè)務(wù)去使用更細(xì)致的數(shù)據(jù),此時在糾纏下可能輸出了一個方案,但最后很可能效果并不好,業(yè)務(wù)可能看了幾次就放棄了這個功能。有人可能會懟說,這應(yīng)該是你們產(chǎn)品的責(zé)任,需求都沒確認(rèn)好??墒钱a(chǎn)品確實是與業(yè)務(wù)確認(rèn)過了才開發(fā)的。責(zé)任問題有點難以判定得很清楚,但是我分析一個比較重要的點是因為業(yè)務(wù)不太在意這個事情,可能是被推著去做的這么一件事情,口里雖認(rèn)同,心里則不然。另外,業(yè)務(wù)更在意完成kpi,因此可能對你的方案并不太上心,不想花太多的時間去處理。
功能影響范圍大:如果每一個功能的影響范圍都覆蓋全公司,那么大數(shù)據(jù)系統(tǒng)可能很難以迭代起來,推動的成本會很高。此時更優(yōu)的方案是,先做出一個功能盡管只有一個部門使用,但其實這個功能是通用的,未來其他部門要是合適用也可以用。
人才缺失:大數(shù)據(jù)的人才也是數(shù)據(jù)平臺建設(shè)的關(guān)鍵一環(huán)。其是否有寬闊的眼界,能否搭建一套良好的產(chǎn)品架構(gòu),滿足未來的需求,是影響一個系統(tǒng)能否走向更好的關(guān)鍵因素。此時更建議大數(shù)據(jù)人才能夠了解行業(yè)的各種做法,取長補短,吸收行業(yè)的先進(jìn)思想應(yīng)用起來。
一般而言,高層對于數(shù)據(jù)的理解是比較透徹的,只是一線員工不是都能到達(dá)這個層面。如果有一些不好推動的事情,可以找高層推,這個基本是最優(yōu)的方法。
2. 關(guān)于產(chǎn)品架構(gòu)
其實產(chǎn)品架構(gòu)不是固定的。我們可以參考現(xiàn)在的經(jīng)典的架構(gòu)就是如上所述。但就企業(yè)內(nèi)部而言,我覺得可以是這樣的。
標(biāo)簽平臺:對于標(biāo)簽的管理,也是數(shù)據(jù)資產(chǎn)的管理,可以讓數(shù)據(jù)像商品一樣上架到超市供業(yè)務(wù)取用。
指標(biāo)平臺:統(tǒng)一的一套指標(biāo)體系,在此標(biāo)簽體系上進(jìn)行擴(kuò)展。
用戶行為分析:常規(guī)。
用戶畫像:常規(guī),但我們要思考得更加深入,不能只做靜態(tài)的標(biāo)簽,也要做動態(tài)的,而且要充分利用模型,盡量不要買了什么商品就一直打上這個商品的標(biāo)簽,其實這樣的做法是比較粗暴的。
舉個例子說,今天我買了一個籃球就表示我喜歡籃球嗎,不是的,可能我只是給弟弟買,或者班級買等等,我們要充分考慮各種情況再給用戶打標(biāo)簽,再深入思考一層,用戶的興趣也是有可能減退的,可能今年我喜歡打籃球但是明年就不一定了。
廣告分析:常規(guī)。
內(nèi)容管理:在這個內(nèi)容為王的年代,只要你的內(nèi)容能夠吸引流量,那就有很大的機(jī)會轉(zhuǎn)化。因此對于內(nèi)容的管理能夠識別出最優(yōu)的內(nèi)容,幫助企業(yè)做出更好的選擇。
智能推薦:千人千面的,無時無刻不在創(chuàng)造客戶轉(zhuǎn)化的機(jī)會。
觸達(dá):這個非常重要,可以是運營人工設(shè)置一次觸發(fā),也可以是一個流程畫布,根據(jù)用戶的行為路徑進(jìn)行一系列的觸達(dá)。
看板:常規(guī)。
總而言之,還是要多思考深入一點,這樣才能挖掘到更多的轉(zhuǎn)化機(jī)會。不局限于一般的營銷手段,可以大膽地采用算法模型給業(yè)務(wù)賦能,不局限自己的想法,多參考業(yè)內(nèi)先進(jìn)的思想。
3. 參考資料
- 《阿里巴巴云上數(shù)據(jù)中臺之道》
- 中國信息通信研究院
- 國泰君安證券研究
- 華泰研究
- 《標(biāo)簽類目體系》
- 艾瑞咨詢
- 德本咨詢
- 火山引擎
- 神策
- 友盟
本文由@Bruce 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
感覺到很有收獲,辛苦作者分享