那些行業(yè)數(shù)據(jù)是怎么求出來的?
?本文作者將從數(shù)據(jù)工具、統(tǒng)計分析、計算和估計以及結(jié)果檢驗四方面來為你解析:那些行業(yè)數(shù)據(jù)是怎么求出來的?一起來看看~
思考一下類似于這樣的問題:北京的機動車數(shù)量有多少?深圳市有多少家咖啡廳?這些問題的提出,通常與我們的工作息息相關(guān)。面對熟悉有陌生的市場,我們經(jīng)常會遇到數(shù)據(jù)收集的需求。無論是對運營還是產(chǎn)品,怎么樣對市場有一個清晰合理的認(rèn)識,可能關(guān)系到一款產(chǎn)品的市場大小,和需求的強弱。
我在兩次上線項目過程中,都需要過類似的數(shù)據(jù)需求問題。而通過對數(shù)據(jù)的推測和分析,我?guī)椭a(chǎn)品實施了準(zhǔn)確的市場策略。希望與大家分享數(shù)據(jù)推測的一點心得。
一. 數(shù)據(jù)工具
其實,在宏觀上對數(shù)據(jù)進行敏銳的統(tǒng)計,我們只有兩種方法可以選擇:第一種,直接從數(shù)據(jù)結(jié)果維度考慮,考慮一步拿到結(jié)果。比如“中國人口和世界人口數(shù)”這樣的數(shù)據(jù),完全是可以通過簡單搜索就能完成的,權(quán)威部門已經(jīng)發(fā)布過了這樣的數(shù)據(jù)結(jié)果;第二種,是在不能獲取到直接的結(jié)果數(shù)據(jù)的基礎(chǔ)上,想辦法透析數(shù)據(jù)結(jié)果的影響變量有哪些,通過分化目標(biāo),去獲取哪些影響變量的數(shù)值,就有機會推導(dǎo)計算出我們需要的結(jié)果。
但是,無論是哪一種方法,都需要了解一些常規(guī)的數(shù)據(jù)工具。數(shù)據(jù)工具是用來了解已公布已公開的信息的最好途徑,通過數(shù)據(jù)工具中已有的數(shù)據(jù),我們能解決一部分問題。比如,百度指數(shù),好搜指數(shù)、微博指數(shù)、谷歌趨勢、友盟指數(shù)、Alexa等工具,提供了我們需要的基礎(chǔ)數(shù)據(jù)和趨勢對比,能夠幫助我們建立基本的認(rèn)識判斷。
這里以“成都市有多少快遞員”為例,來看如何通過分析和推測得出我們需要的結(jié)果。
我們先通過多款搜索引擎直接搜索相關(guān)問題,看不能直接一步得到數(shù)據(jù)結(jié)果。過程不在這里贅述,通過搜索,我們應(yīng)該都能比較容易的找到這樣的結(jié)論:2012年開始,我國快遞行業(yè)從業(yè)人員數(shù)量就不再公布。這意味著我們需要尋求第二種解決辦法,分析需要的結(jié)果變量。
二. 統(tǒng)計分析
在第一步里,我們通過行業(yè)官網(wǎng)這個基礎(chǔ)數(shù)據(jù)工具找到了一些基礎(chǔ)的參考點,這些東西幫助我們能很迅速的將這個問題分解為“全國快遞人數(shù)有多少”等類似的問題。
這是因為在不能獲得直接結(jié)果時,我們可以這樣考慮這個問題:第一,成都市的快遞員工數(shù)量不好獲知,全國的快遞員工數(shù)量應(yīng)該是比較容易的;第二,快遞員工的數(shù)量是和業(yè)務(wù)量成強烈的正相關(guān)關(guān)系的,我們可以通過獲悉全國業(yè)務(wù)量的多少,再想辦法找到省市區(qū)域業(yè)務(wù)量的占比,就能大概估計出快遞員工的人數(shù)。
有了這個分析之后,我們很快就可以通過權(quán)威的行業(yè)網(wǎng)站,找到官方發(fā)布的快遞員工往年人數(shù)和年增長比率。實際上,通過搜索,我們也能發(fā)現(xiàn),中國行業(yè)信息網(wǎng)這樣的行業(yè)站點,也是按此思路,給出了2013年到2016年,快遞員工人數(shù)年增長水平,也即每年增加10萬-20萬人,據(jù)此,我們可以很快從往年已公布數(shù)據(jù),推測出2016年的快遞員工數(shù)量——150萬,到160萬之間。
那么,如果要區(qū)分開自營物流和傳統(tǒng)配送企業(yè)的員工怎么辦呢,通過搜索,我們也可以得到,四通一達的統(tǒng)計數(shù)據(jù),注意,這個數(shù)據(jù)并不能夠直接幫助我們獲得最終答案,但是能讓我們的統(tǒng)計變得更嚴(yán)謹(jǐn)和準(zhǔn)確。
三. 計算和估計
在這個基礎(chǔ)上,我們就能知道說,四通一達和百事匯通的員工總數(shù)為82萬,在全行業(yè)占比50%左右。那么,現(xiàn)在我們知道了快遞員工的全國人數(shù),要推導(dǎo)出成都的人數(shù),就需要用到計算了。
按前面已經(jīng)說過的邏輯,我們現(xiàn)在變?yōu)椴樵兯拇ㄊ≌既珖鴺I(yè)務(wù)量百分比,以及成都占全省業(yè)務(wù)量的百分比。通過百分比關(guān)系,我們把快遞人數(shù)和業(yè)務(wù)量按比例關(guān)系對應(yīng)了起來。通過搜索,我們能找到相關(guān)的新聞報道,由于帶有官方的統(tǒng)計屬性,結(jié)果還是比較可信的。通過查詢,我們知道四川省占全國業(yè)務(wù)量百分比為2.36%,成都占全省業(yè)務(wù)量百分比為78%。這就是我們需要的關(guān)鍵數(shù)據(jù)。
通過簡單相乘計算,我們就能得到想要的估計數(shù)據(jù)了,用2.36%乘上全國快遞人數(shù)或不含自營快遞的全國快遞人數(shù),就得到了四川省的快遞人員數(shù)字,再通過成都業(yè)務(wù)量與全省業(yè)務(wù)量的占比數(shù)字78%,進一步相乘,得到成都的快遞人員數(shù)。
這里需要注意,如果有時間的話,可以多想一步,思考一下誤差的可能來源,在這里,誤差來源主要是時間上的,統(tǒng)計數(shù)據(jù)不是一個時間維度,由于發(fā)展速度影響,可能會導(dǎo)致最終的比率有小范圍的波動。當(dāng)然,這個波動并不大,不會對整體結(jié)果有大幅度的影響。實際上,即便我們能準(zhǔn)確獲知統(tǒng)計數(shù)字,也存在誤差,因為人員變動是每天都在發(fā)生的,這是系統(tǒng)誤差的一部分。
四. 結(jié)果檢驗
得到了想要的結(jié)果就是這么容易。我們只是需要注意數(shù)據(jù)的來源地是否可信就行了。在這個案例中我把來源地址都進行了標(biāo)注,方便后續(xù)我對細(xì)節(jié)進行詳細(xì)的了解。
得到結(jié)果后,我們?nèi)绻梢缘脑?,可以對結(jié)果進行一個簡單的檢測。檢測的意義是看我們得到的結(jié)果可信度如何。比如,我如果得出的數(shù)據(jù)是100萬,你直觀邏輯判斷就會認(rèn)為這是錯的,這也是一種檢驗,所不同的是,這是常理檢驗,而不是數(shù)據(jù)檢驗罷了。
我們得到的結(jié)果看上去可信,但究竟數(shù)據(jù)可信度如何,我們可以通過側(cè)面估計法再來檢驗。在這個案例中,我們同樣根據(jù)產(chǎn)業(yè)信息網(wǎng)的下圖數(shù)據(jù),獲知四川省每平方公里快遞網(wǎng)點數(shù)量在0.02左右,而四川省區(qū)域面積是很好得到的,是48.6萬平方千米,換算可得,四川省綜合快遞網(wǎng)點約有9720個。
根據(jù)前文得到的業(yè)務(wù)量占比情況,我們能夠得到成都快遞網(wǎng)點數(shù),計算下來大概是7581個。假設(shè)我們的結(jié)果是正確的情況下,七千多個網(wǎng)點和一萬五到三萬的快遞人數(shù),推測出每個網(wǎng)點平均有3名左右的配送員??紤]到四川是非江浙地區(qū),這個數(shù)字和常理認(rèn)知是相符的。所以檢驗通過。
五. 總結(jié)
通過這個案例,我們分析了如何對一個不能直接獲知結(jié)果的問題,進行解剖分析。我們就能通過多項數(shù)據(jù)估測得出想要的結(jié)果。快遞人員和什么有關(guān)呢?直觀感受是快遞網(wǎng)點數(shù)和快遞業(yè)務(wù)量,所以我們可以查找這兩項數(shù)據(jù)指標(biāo)。然后盡可能去新聞媒體中找到相關(guān)的官方指標(biāo),側(cè)面求解想要的答案。
這個案例只是很多問題中的一個簡單應(yīng)用。實際上,如果我們對行業(yè)數(shù)據(jù)比較敏感的話,甚至能從其它方面來估計結(jié)果,直接心算出答案。掌握了這個方法和思路,我們就能去推導(dǎo)這些稍復(fù)雜的問題:廣州有多少面包師、中國有多少自行車工廠、甘肅每天外賣下單數(shù)有多少……
總之,將求解問題分解和轉(zhuǎn)換,對于答案的求得尤為重要。
作者:奉政坊,開發(fā)工程師轉(zhuǎn)行運營,策劃運營過多起上線項目,鈦媒體作者
本文由 @奉政坊 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
有點兒《超級思維》的意思