每日優(yōu)鮮如何搭建數(shù)據(jù)倉庫?

包公PM
7 評論 21571 瀏覽 68 收藏 12 分鐘
🔗 产品经理在不同的职业阶段,需要侧重不同的方面,从基础技能、业务深度、专业领域到战略规划和管理能力。

編輯導(dǎo)讀:生鮮配送已經(jīng)不是一件新鮮事,只要在手機(jī)上下單就能享受到送貨到家的服務(wù)。這背后不僅要依靠強(qiáng)大的物流,還需要搭建數(shù)據(jù)倉庫,以便決策。本文將以每日優(yōu)鮮為例,分析它是如何搭建數(shù)據(jù)倉庫的,與你分享。

一、為什么要做數(shù)據(jù)倉庫&數(shù)據(jù)倉庫的結(jié)構(gòu)

1. 市場

國內(nèi)生鮮銷售渠道中農(nóng)貿(mào)市場占73%,而超市渠道滲透率僅為22%,相比與發(fā)達(dá)國家70%以上的水平,仍有較大差距。

隨著新零售的風(fēng)口刮到了社區(qū)生鮮領(lǐng)域,社區(qū)生鮮近年來仍密集開店,一是行業(yè)巨頭降維打擊,布局“社區(qū)生鮮”市場,二是生鮮傳奇、錢大媽之類的小品牌井噴式爆發(fā)。

PEST分析:

國家政策:

國家大力發(fā)展在線農(nóng)產(chǎn)品交易,對農(nóng)產(chǎn)品超市進(jìn)行補(bǔ)貼。并于2017年出臺的《商務(wù)部 中國農(nóng)業(yè)發(fā)展銀行關(guān)于共同推進(jìn)農(nóng)產(chǎn)品和農(nóng)村市場體系建設(shè)的通知》,其中主要支持方向?yàn)椋?/p>

  • 農(nóng)產(chǎn)品市場及倉儲物流設(shè)施建設(shè)。支持新建、改造各類農(nóng)產(chǎn)品批發(fā)市場、綜合加工配送中心、產(chǎn)地集配中心,完善預(yù)選分級、包裝、倉儲、物流等設(shè)施。
  • 公益性農(nóng)產(chǎn)品市場體系建設(shè)。支持公益性農(nóng)產(chǎn)品批發(fā)市場建設(shè)公共加工配送中心、公共信息服務(wù)平臺、檢驗(yàn)檢測中心、消防安全監(jiān)控中心、廢棄物處理設(shè)施等公益性流通基礎(chǔ)設(shè)施。支持建設(shè)公益性菜市場、平價(jià)菜店等公益性農(nóng)產(chǎn)品零售網(wǎng)點(diǎn)。
  • 農(nóng)產(chǎn)品冷鏈物流體系建設(shè)。支持建設(shè)、改造標(biāo)準(zhǔn)化冷庫和冷鏈物流集散中心,提高農(nóng)產(chǎn)品產(chǎn)地預(yù)冷、低溫加工、冷鏈倉儲配送能力。推動封閉式交接貨通道、月臺、貨架等設(shè)施標(biāo)準(zhǔn)化改造,加快綠色環(huán)保冷藏冷凍設(shè)施設(shè)備與技術(shù)應(yīng)用。

因此為在線生鮮的發(fā)展打開了政策渠道。

經(jīng)濟(jì)發(fā)展:

我國今年來經(jīng)濟(jì)快速發(fā)展,經(jīng)濟(jì)發(fā)展帶動了人民的消費(fèi)欲望,在線生鮮電商打開了網(wǎng)上生鮮買賣的渠道。

社會現(xiàn)狀:

目前人們的消費(fèi)水品提高,人們越來越關(guān)注農(nóng)產(chǎn)品的安全問題,因此人們很多希望能夠直接從農(nóng)產(chǎn)品生產(chǎn)地直接拿貨,既保證了食品安全,又對價(jià)格滿意;并且隨著人們網(wǎng)上購物的習(xí)慣養(yǎng)成和物流運(yùn)輸水平的發(fā)展,人們網(wǎng)上采購生鮮類產(chǎn)品的意愿也在加強(qiáng)。

技術(shù)現(xiàn)狀:

隨著AI大數(shù)據(jù)以及物聯(lián)網(wǎng)等新技術(shù)的誕生,保質(zhì)期短的生鮮產(chǎn)品能夠在特定的時(shí)間及時(shí)送到用戶手中,并對用戶反饋的數(shù)據(jù)進(jìn)行追蹤,既提高了用戶的滿意度,同時(shí)也能夠保證食品的安全和新鮮。

綜上所述,生鮮網(wǎng)上發(fā)展正處于快速成長期,市場份額將越來越大。

二、每日優(yōu)鮮產(chǎn)品概況

每日優(yōu)鮮成立于2014年,2018年已完成水果、蔬菜、乳品、零食、酒飲、肉蛋、水產(chǎn)、熟食、輕食、速食、糧油、日百等全品類精選生鮮布局,因此SKU非常豐富,作為配送類產(chǎn)品,每日產(chǎn)生巨大的數(shù)據(jù)量。

每日優(yōu)鮮能夠做了更多精準(zhǔn)的觸達(dá)。媒體環(huán)境變得越來越精準(zhǔn)了,這要求我們作為一個(gè)零售商或者廣告主,也會在算法上越來越精準(zhǔn)。因此我們猜測每日優(yōu)鮮具有自己的OLTP。

伴隨著新零售到來的步伐以及社區(qū)團(tuán)購迎來的新風(fēng)口,電商巨頭們亦紛紛布局生鮮電商。阿里有盒馬鮮生,京東有7Fresh,蘇寧有蘇鮮生,步步高有鮮食演義,同一賽道角逐的還有美團(tuán)的小象生鮮、易果生鮮、天天果園、大潤發(fā)優(yōu)鮮等,生鮮電商的搶灘戰(zhàn)未來將更加激烈。

因此,根據(jù)以上產(chǎn)品分析,每日優(yōu)鮮需要搭建自己的數(shù)據(jù)倉庫,用于公司決策,精細(xì)化運(yùn)營。

三、數(shù)據(jù)倉庫的結(jié)構(gòu)

1. 事實(shí)與維度

每日優(yōu)鮮維度分析:

數(shù)據(jù)集市矩陣表:

2. 數(shù)據(jù)倉庫數(shù)據(jù)源

數(shù)據(jù)源分為三種:

  1. 結(jié)構(gòu)化數(shù)據(jù):一般是業(yè)務(wù)數(shù)據(jù)庫或日志數(shù)據(jù)庫中直接產(chǎn)生的數(shù)據(jù),存于關(guān)系數(shù)據(jù)庫中,常用的數(shù)據(jù)庫有,MYSQL,ORCAL,SQL SERVER,POSTGRESQL等數(shù)據(jù)庫中,主要以表的形式呈現(xiàn)。
  2. 半結(jié)構(gòu)化數(shù)據(jù):一般我們會將半結(jié)構(gòu)化的數(shù)據(jù)經(jīng)過XML轉(zhuǎn)化存于CLOB中,即存在XML的節(jié)點(diǎn)中,因此可以對數(shù)據(jù)進(jìn)行有效擴(kuò)展,半結(jié)構(gòu)化數(shù)據(jù)一般后期會存入結(jié)構(gòu)化數(shù)據(jù)庫中進(jìn)行調(diào)用。
  3. 非結(jié)構(gòu)化數(shù)據(jù):一般是圖片,文字,語言類型通常會使用到NLP,圖像處理,語音識別等技術(shù)手段進(jìn)行處理之后存在nosql數(shù)據(jù)庫中,常用的有mongo DB 和HBASE或者基于內(nèi)存運(yùn)算的列式存儲Redis數(shù)據(jù)庫,將數(shù)據(jù)存在數(shù)據(jù)庫的節(jié)點(diǎn)中,優(yōu)點(diǎn)在于能夠有效擴(kuò)展。

3. 數(shù)據(jù)倉庫的物理生產(chǎn)環(huán)境和ETL

在服務(wù)器集群規(guī)模選擇上如下分析(舉例):

  • 日活100w,每人平均產(chǎn)生100條日志,那么每天總?cè)罩究梢允?00w*100=1億條;
  • 每條日志一般情況5~2k,按照1k進(jìn)行計(jì)算,約需要100萬存儲空間;
  • 如果服務(wù)器半年內(nèi)不盡興擴(kuò)容,那么需要的空間就是100萬*180天約為18T;
  • 保存3套數(shù)據(jù)副本,為54T;
  • 一般情況下還要預(yù)留20%~30%的空間,那么需要77T;
  • 按照一個(gè)磁盤10T的容量,那么我們就可以得出需要10個(gè)硬盤的服務(wù)器。

數(shù)據(jù)倉庫的物理生產(chǎn)環(huán)境一般是在LINUX平臺下運(yùn)行,因?yàn)榇髷?shù)據(jù)生態(tài)體系下的編譯好的很多并包都是在LINUX系統(tǒng)中進(jìn)行編譯,因此從技術(shù)開發(fā)層次在LINUX下開發(fā)。

一般服務(wù)器可以部署Apache開源的服務(wù),當(dāng)然在選擇框架的過程中需要考慮企業(yè)數(shù)據(jù)的規(guī)模,一般情況下大企業(yè)使用Apache框架,而對于中小企業(yè)可以選擇CDH框架??梢允褂檬褂肕ysql或其他類型的數(shù)據(jù)庫(根據(jù)需求)。使用PHP或者Python、JavaScript進(jìn)行寫入。

ETL可選擇Informatica、Beeload、Kettle(開源,有數(shù)據(jù)安全風(fēng)險(xiǎn))。

在進(jìn)行服務(wù)器集群管理時(shí),可選擇軟件Claudira Manager(只支持CDH框架下軟件安裝)簡化框架安裝和集群管理。

4. 半結(jié)構(gòu)化數(shù)據(jù)的預(yù)處理

通常會使用XML或JOSN進(jìn)行半結(jié)構(gòu)化數(shù)據(jù)的處理存儲。

5. 物理化實(shí)現(xiàn)數(shù)據(jù)庫物理表

這一步就是設(shè)計(jì)數(shù)據(jù)庫的表結(jié)構(gòu),依據(jù)上一部中的分析維度和事實(shí)情況進(jìn)行數(shù)據(jù)庫表的設(shè)計(jì)。常用的維度建模模型有星型模型(結(jié)構(gòu)清晰)和星座模型。根據(jù)維度模型建立數(shù)據(jù)倉庫表。

6. ETL

數(shù)據(jù)倉庫設(shè)計(jì)完成,再對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行抽取轉(zhuǎn)換加載步驟。進(jìn)行數(shù)據(jù)處理。將數(shù)據(jù)在各個(gè)框架中傳遞。

7. 加載事實(shí)表和維度表

對已經(jīng)制作完成的表結(jié)構(gòu)加載,得出我們希望看到的數(shù)據(jù)的事實(shí)表。

8. OLAP分析

將數(shù)據(jù)倉庫中的數(shù)據(jù)通過報(bào)表的形式和dashboard形式呈現(xiàn)出來。在此常用的工具有:

選擇的依據(jù)可以遵循兩個(gè)方面:

1)按照超大數(shù)據(jù)的查詢效率

Druid & Kylin & Presto & Spark SQL

2)從能夠處理的數(shù)據(jù)源多少的種類(從多到少)

Presto & Spark SQL & Kylin& Druid

數(shù)據(jù)可視化的工具一般可選用:echarts,superset,QuickBI,DataV。后兩種可視化工具為阿里提供的付費(fèi)工具。

四、總結(jié)

數(shù)據(jù)倉庫的搭建是企業(yè)對數(shù)據(jù)的充分重視,搭建的過程可以是高層主導(dǎo)直接全域搭建或者由業(yè)務(wù)主題開始搭建數(shù)據(jù)集市,然后匯總成數(shù)據(jù)倉庫。

優(yōu)點(diǎn):數(shù)據(jù)倉庫使企業(yè)數(shù)據(jù)集成,向上能夠幫助高層決策,向下能夠滿足運(yùn)營、財(cái)務(wù)、采購、物流等業(yè)務(wù)部門需求;隨著企業(yè)數(shù)據(jù)量的增大,為后續(xù)數(shù)據(jù)湖和數(shù)據(jù)平臺的搭建提供底層支撐,對企業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)資產(chǎn)化和數(shù)據(jù)管理,進(jìn)一步能夠指導(dǎo)企業(yè)的業(yè)務(wù)線發(fā)展。

缺點(diǎn):數(shù)據(jù)倉庫幫助企業(yè)數(shù)字集成的同時(shí),隨著企業(yè)發(fā)展壯大,缺少對數(shù)據(jù)的運(yùn)維,如何能夠更好服務(wù)企業(yè)發(fā)展,各部門協(xié)作,是下面需要考慮的問題。

后期,數(shù)據(jù)倉庫為更好的為企業(yè)節(jié)省成本,需要搭建數(shù)據(jù)平臺,集成業(yè)務(wù)中臺和技術(shù)中臺。

由于本人知識結(jié)構(gòu)尚待優(yōu)化,有不足之處,請多多指正。感謝。

 

作者:汪仔2296,QQ:1083368735

本文由@汪仔2296 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash, 基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 辛苦了

    回復(fù)
    1. 哪里辛苦,哈哈

      回復(fù)
  2. 講的太粗了,
    100萬存儲空間具體是怎么計(jì)算的呢?
    需要10個(gè)硬盤的服務(wù)器,是怎么計(jì)算的?

    回復(fù)
  3. 太籠統(tǒng)

    來自山東 回復(fù)
  4. ??隔壁啊

    回復(fù)
    1. 啥意思

      來自上海 回復(fù)
    2. 之前我在每日優(yōu)鮮隔壁公司

      來自北京 回復(fù)
专题
32153人已学习19篇文章
一个合格的购物车是怎么设计出来的?
专题
18863人已学习13篇文章
本专题的文章分享了社区运营的正确姿势。
专题
12924人已学习12篇文章
产品立项,对于产品来说是其生命周期中最基础的和最重要的阶段。产品立项都有哪些主要工作?本专题的文章分享了产品立项指南。
专题
55768人已学习20篇文章
产品上线后冷启动怎么做最有效?这是产品经理和运营必须要了解的。
专题
13561人已学习11篇文章
生活中,难免会接到企业的一些外呼电话,无论是人工外呼还是AI外呼,其背后的外呼业务场景是什么?外呼系统包含哪些内容?本专题的文章分享了外呼系统的设计指南。