每日優(yōu)鮮如何搭建數(shù)據(jù)倉(cāng)庫(kù)?
編輯導(dǎo)讀:生鮮配送已經(jīng)不是一件新鮮事,只要在手機(jī)上下單就能享受到送貨到家的服務(wù)。這背后不僅要依靠強(qiáng)大的物流,還需要搭建數(shù)據(jù)倉(cāng)庫(kù),以便決策。本文將以每日優(yōu)鮮為例,分析它是如何搭建數(shù)據(jù)倉(cāng)庫(kù)的,與你分享。
一、為什么要做數(shù)據(jù)倉(cāng)庫(kù)&數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)
1. 市場(chǎng)
國(guó)內(nèi)生鮮銷(xiāo)售渠道中農(nóng)貿(mào)市場(chǎng)占73%,而超市渠道滲透率僅為22%,相比與發(fā)達(dá)國(guó)家70%以上的水平,仍有較大差距。
隨著新零售的風(fēng)口刮到了社區(qū)生鮮領(lǐng)域,社區(qū)生鮮近年來(lái)仍密集開(kāi)店,一是行業(yè)巨頭降維打擊,布局“社區(qū)生鮮”市場(chǎng),二是生鮮傳奇、錢(qián)大媽之類(lèi)的小品牌井噴式爆發(fā)。
PEST分析:
國(guó)家政策:
國(guó)家大力發(fā)展在線農(nóng)產(chǎn)品交易,對(duì)農(nóng)產(chǎn)品超市進(jìn)行補(bǔ)貼。并于2017年出臺(tái)的《商務(wù)部 中國(guó)農(nóng)業(yè)發(fā)展銀行關(guān)于共同推進(jìn)農(nóng)產(chǎn)品和農(nóng)村市場(chǎng)體系建設(shè)的通知》,其中主要支持方向?yàn)椋?/p>
- 農(nóng)產(chǎn)品市場(chǎng)及倉(cāng)儲(chǔ)物流設(shè)施建設(shè)。支持新建、改造各類(lèi)農(nóng)產(chǎn)品批發(fā)市場(chǎng)、綜合加工配送中心、產(chǎn)地集配中心,完善預(yù)選分級(jí)、包裝、倉(cāng)儲(chǔ)、物流等設(shè)施。
- 公益性農(nóng)產(chǎn)品市場(chǎng)體系建設(shè)。支持公益性農(nóng)產(chǎn)品批發(fā)市場(chǎng)建設(shè)公共加工配送中心、公共信息服務(wù)平臺(tái)、檢驗(yàn)檢測(cè)中心、消防安全監(jiān)控中心、廢棄物處理設(shè)施等公益性流通基礎(chǔ)設(shè)施。支持建設(shè)公益性菜市場(chǎng)、平價(jià)菜店等公益性農(nóng)產(chǎn)品零售網(wǎng)點(diǎn)。
- 農(nóng)產(chǎn)品冷鏈物流體系建設(shè)。支持建設(shè)、改造標(biāo)準(zhǔn)化冷庫(kù)和冷鏈物流集散中心,提高農(nóng)產(chǎn)品產(chǎn)地預(yù)冷、低溫加工、冷鏈倉(cāng)儲(chǔ)配送能力。推動(dòng)封閉式交接貨通道、月臺(tái)、貨架等設(shè)施標(biāo)準(zhǔn)化改造,加快綠色環(huán)保冷藏冷凍設(shè)施設(shè)備與技術(shù)應(yīng)用。
因此為在線生鮮的發(fā)展打開(kāi)了政策渠道。
經(jīng)濟(jì)發(fā)展:
我國(guó)今年來(lái)經(jīng)濟(jì)快速發(fā)展,經(jīng)濟(jì)發(fā)展帶動(dòng)了人民的消費(fèi)欲望,在線生鮮電商打開(kāi)了網(wǎng)上生鮮買(mǎi)賣(mài)的渠道。
社會(huì)現(xiàn)狀:
目前人們的消費(fèi)水品提高,人們?cè)絹?lái)越關(guān)注農(nóng)產(chǎn)品的安全問(wèn)題,因此人們很多希望能夠直接從農(nóng)產(chǎn)品生產(chǎn)地直接拿貨,既保證了食品安全,又對(duì)價(jià)格滿意;并且隨著人們網(wǎng)上購(gòu)物的習(xí)慣養(yǎng)成和物流運(yùn)輸水平的發(fā)展,人們網(wǎng)上采購(gòu)生鮮類(lèi)產(chǎn)品的意愿也在加強(qiáng)。
技術(shù)現(xiàn)狀:
隨著AI大數(shù)據(jù)以及物聯(lián)網(wǎng)等新技術(shù)的誕生,保質(zhì)期短的生鮮產(chǎn)品能夠在特定的時(shí)間及時(shí)送到用戶(hù)手中,并對(duì)用戶(hù)反饋的數(shù)據(jù)進(jìn)行追蹤,既提高了用戶(hù)的滿意度,同時(shí)也能夠保證食品的安全和新鮮。
綜上所述,生鮮網(wǎng)上發(fā)展正處于快速成長(zhǎng)期,市場(chǎng)份額將越來(lái)越大。
二、每日優(yōu)鮮產(chǎn)品概況
每日優(yōu)鮮成立于2014年,2018年已完成水果、蔬菜、乳品、零食、酒飲、肉蛋、水產(chǎn)、熟食、輕食、速食、糧油、日百等全品類(lèi)精選生鮮布局,因此SKU非常豐富,作為配送類(lèi)產(chǎn)品,每日產(chǎn)生巨大的數(shù)據(jù)量。
每日優(yōu)鮮能夠做了更多精準(zhǔn)的觸達(dá)。媒體環(huán)境變得越來(lái)越精準(zhǔn)了,這要求我們作為一個(gè)零售商或者廣告主,也會(huì)在算法上越來(lái)越精準(zhǔn)。因此我們猜測(cè)每日優(yōu)鮮具有自己的OLTP。
伴隨著新零售到來(lái)的步伐以及社區(qū)團(tuán)購(gòu)迎來(lái)的新風(fēng)口,電商巨頭們亦紛紛布局生鮮電商。阿里有盒馬鮮生,京東有7Fresh,蘇寧有蘇鮮生,步步高有鮮食演義,同一賽道角逐的還有美團(tuán)的小象生鮮、易果生鮮、天天果園、大潤(rùn)發(fā)優(yōu)鮮等,生鮮電商的搶灘戰(zhàn)未來(lái)將更加激烈。
因此,根據(jù)以上產(chǎn)品分析,每日優(yōu)鮮需要搭建自己的數(shù)據(jù)倉(cāng)庫(kù),用于公司決策,精細(xì)化運(yùn)營(yíng)。
三、數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)
1. 事實(shí)與維度
每日優(yōu)鮮維度分析:
數(shù)據(jù)集市矩陣表:
2. 數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源
數(shù)據(jù)源分為三種:
- 結(jié)構(gòu)化數(shù)據(jù):一般是業(yè)務(wù)數(shù)據(jù)庫(kù)或日志數(shù)據(jù)庫(kù)中直接產(chǎn)生的數(shù)據(jù),存于關(guān)系數(shù)據(jù)庫(kù)中,常用的數(shù)據(jù)庫(kù)有,MYSQL,ORCAL,SQL SERVER,POSTGRESQL等數(shù)據(jù)庫(kù)中,主要以表的形式呈現(xiàn)。
- 半結(jié)構(gòu)化數(shù)據(jù):一般我們會(huì)將半結(jié)構(gòu)化的數(shù)據(jù)經(jīng)過(guò)XML轉(zhuǎn)化存于CLOB中,即存在XML的節(jié)點(diǎn)中,因此可以對(duì)數(shù)據(jù)進(jìn)行有效擴(kuò)展,半結(jié)構(gòu)化數(shù)據(jù)一般后期會(huì)存入結(jié)構(gòu)化數(shù)據(jù)庫(kù)中進(jìn)行調(diào)用。
- 非結(jié)構(gòu)化數(shù)據(jù):一般是圖片,文字,語(yǔ)言類(lèi)型通常會(huì)使用到NLP,圖像處理,語(yǔ)音識(shí)別等技術(shù)手段進(jìn)行處理之后存在nosql數(shù)據(jù)庫(kù)中,常用的有mongo DB 和HBASE或者基于內(nèi)存運(yùn)算的列式存儲(chǔ)Redis數(shù)據(jù)庫(kù),將數(shù)據(jù)存在數(shù)據(jù)庫(kù)的節(jié)點(diǎn)中,優(yōu)點(diǎn)在于能夠有效擴(kuò)展。
3. 數(shù)據(jù)倉(cāng)庫(kù)的物理生產(chǎn)環(huán)境和ETL
在服務(wù)器集群規(guī)模選擇上如下分析(舉例):
- 日活100w,每人平均產(chǎn)生100條日志,那么每天總?cè)罩究梢允?00w*100=1億條;
- 每條日志一般情況5~2k,按照1k進(jìn)行計(jì)算,約需要100萬(wàn)存儲(chǔ)空間;
- 如果服務(wù)器半年內(nèi)不盡興擴(kuò)容,那么需要的空間就是100萬(wàn)*180天約為18T;
- 保存3套數(shù)據(jù)副本,為54T;
- 一般情況下還要預(yù)留20%~30%的空間,那么需要77T;
- 按照一個(gè)磁盤(pán)10T的容量,那么我們就可以得出需要10個(gè)硬盤(pán)的服務(wù)器。
數(shù)據(jù)倉(cāng)庫(kù)的物理生產(chǎn)環(huán)境一般是在LINUX平臺(tái)下運(yùn)行,因?yàn)榇髷?shù)據(jù)生態(tài)體系下的編譯好的很多并包都是在LINUX系統(tǒng)中進(jìn)行編譯,因此從技術(shù)開(kāi)發(fā)層次在LINUX下開(kāi)發(fā)。
一般服務(wù)器可以部署Apache開(kāi)源的服務(wù),當(dāng)然在選擇框架的過(guò)程中需要考慮企業(yè)數(shù)據(jù)的規(guī)模,一般情況下大企業(yè)使用Apache框架,而對(duì)于中小企業(yè)可以選擇CDH框架。可以使用使用Mysql或其他類(lèi)型的數(shù)據(jù)庫(kù)(根據(jù)需求)。使用PHP或者Python、JavaScript進(jìn)行寫(xiě)入。
ETL可選擇Informatica、Beeload、Kettle(開(kāi)源,有數(shù)據(jù)安全風(fēng)險(xiǎn))。
在進(jìn)行服務(wù)器集群管理時(shí),可選擇軟件Claudira Manager(只支持CDH框架下軟件安裝)簡(jiǎn)化框架安裝和集群管理。
4. 半結(jié)構(gòu)化數(shù)據(jù)的預(yù)處理
通常會(huì)使用XML或JOSN進(jìn)行半結(jié)構(gòu)化數(shù)據(jù)的處理存儲(chǔ)。
5. 物理化實(shí)現(xiàn)數(shù)據(jù)庫(kù)物理表
這一步就是設(shè)計(jì)數(shù)據(jù)庫(kù)的表結(jié)構(gòu),依據(jù)上一部中的分析維度和事實(shí)情況進(jìn)行數(shù)據(jù)庫(kù)表的設(shè)計(jì)。常用的維度建模模型有星型模型(結(jié)構(gòu)清晰)和星座模型。根據(jù)維度模型建立數(shù)據(jù)倉(cāng)庫(kù)表。
6. ETL
數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)完成,再對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行抽取轉(zhuǎn)換加載步驟。進(jìn)行數(shù)據(jù)處理。將數(shù)據(jù)在各個(gè)框架中傳遞。
7. 加載事實(shí)表和維度表
對(duì)已經(jīng)制作完成的表結(jié)構(gòu)加載,得出我們希望看到的數(shù)據(jù)的事實(shí)表。
8. OLAP分析
將數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通過(guò)報(bào)表的形式和dashboard形式呈現(xiàn)出來(lái)。在此常用的工具有:
選擇的依據(jù)可以遵循兩個(gè)方面:
1)按照超大數(shù)據(jù)的查詢(xún)效率
Druid & Kylin & Presto & Spark SQL
2)從能夠處理的數(shù)據(jù)源多少的種類(lèi)(從多到少)
Presto & Spark SQL & Kylin& Druid
數(shù)據(jù)可視化的工具一般可選用:echarts,superset,QuickBI,DataV。后兩種可視化工具為阿里提供的付費(fèi)工具。
四、總結(jié)
數(shù)據(jù)倉(cāng)庫(kù)的搭建是企業(yè)對(duì)數(shù)據(jù)的充分重視,搭建的過(guò)程可以是高層主導(dǎo)直接全域搭建或者由業(yè)務(wù)主題開(kāi)始搭建數(shù)據(jù)集市,然后匯總成數(shù)據(jù)倉(cāng)庫(kù)。
優(yōu)點(diǎn):數(shù)據(jù)倉(cāng)庫(kù)使企業(yè)數(shù)據(jù)集成,向上能夠幫助高層決策,向下能夠滿足運(yùn)營(yíng)、財(cái)務(wù)、采購(gòu)、物流等業(yè)務(wù)部門(mén)需求;隨著企業(yè)數(shù)據(jù)量的增大,為后續(xù)數(shù)據(jù)湖和數(shù)據(jù)平臺(tái)的搭建提供底層支撐,對(duì)企業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)資產(chǎn)化和數(shù)據(jù)管理,進(jìn)一步能夠指導(dǎo)企業(yè)的業(yè)務(wù)線發(fā)展。
缺點(diǎn):數(shù)據(jù)倉(cāng)庫(kù)幫助企業(yè)數(shù)字集成的同時(shí),隨著企業(yè)發(fā)展壯大,缺少對(duì)數(shù)據(jù)的運(yùn)維,如何能夠更好服務(wù)企業(yè)發(fā)展,各部門(mén)協(xié)作,是下面需要考慮的問(wèn)題。
后期,數(shù)據(jù)倉(cāng)庫(kù)為更好的為企業(yè)節(jié)省成本,需要搭建數(shù)據(jù)平臺(tái),集成業(yè)務(wù)中臺(tái)和技術(shù)中臺(tái)。
由于本人知識(shí)結(jié)構(gòu)尚待優(yōu)化,有不足之處,請(qǐng)多多指正。感謝。
作者:汪仔2296,QQ:1083368735
本文由@汪仔2296 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash, 基于CC0協(xié)議
辛苦了
哪里辛苦,哈哈
講的太粗了,
100萬(wàn)存儲(chǔ)空間具體是怎么計(jì)算的呢?
需要10個(gè)硬盤(pán)的服務(wù)器,是怎么計(jì)算的?
太籠統(tǒng)
??隔壁啊
啥意思
之前我在每日優(yōu)鮮隔壁公司