互聯(lián)網(wǎng)數(shù)據(jù)分析能力的養(yǎng)成,需一份七周的提綱
寫(xiě)這個(gè)系列,是希望在當(dāng)初知乎某一個(gè)回答的基礎(chǔ)上,單獨(dú)完善出針對(duì)互聯(lián)網(wǎng)產(chǎn)品和運(yùn)營(yíng)們的教程。不論對(duì)數(shù)據(jù)分析或數(shù)據(jù)運(yùn)營(yíng),我都希望它是一篇足夠好的教材。更準(zhǔn)確地說(shuō),這是一份七周的互聯(lián)網(wǎng)數(shù)據(jù)分析能力養(yǎng)成提綱。
我會(huì)按照提綱針對(duì)性的增加互聯(lián)網(wǎng)側(cè)的內(nèi)容,比如網(wǎng)站分析,用戶行為序列等。我也不想留于表面,而是系統(tǒng)性講述。比如什么是產(chǎn)品埋點(diǎn)?在獲得埋點(diǎn)數(shù)據(jù)后,怎么利用Python / Pandas的shift ( )函數(shù)將其清洗為用戶行為session,進(jìn)而計(jì)算出用戶在各頁(yè)面的停留時(shí)間,后續(xù)如何轉(zhuǎn)換成統(tǒng)計(jì)寬表,如何以此建立用戶標(biāo)簽等。
下面是各周的學(xué)習(xí)概述。
第一周:Excel學(xué)習(xí)掌握
如果Excel玩的順溜,你可以略過(guò)這一周。不過(guò)介于我入行時(shí)也不會(huì)vlookup,所以有必要講下。
重點(diǎn)是了解各種函數(shù),包括但不限于sum,count,sumif,countif,find,if,left/right,時(shí)間轉(zhuǎn)換等。
Excel函數(shù)不需要學(xué)全,重要的是學(xué)會(huì)搜索。即如何將遇到的問(wèn)題在搜索引擎上描述清楚。
我認(rèn)為掌握vlookup和數(shù)據(jù)透視表足夠,是最具性?xún)r(jià)比的兩個(gè)技巧。
學(xué)會(huì)vlookup,SQL中的join,Python中的merge很容易理解。
學(xué)會(huì)數(shù)據(jù)透視表,SQL中的group,Python中的pivot_table也是同理。
這兩個(gè)搞定,基本10萬(wàn)條以?xún)?nèi)的數(shù)據(jù)統(tǒng)計(jì)沒(méi)啥難度,80%的辦公室白領(lǐng)都能秒殺。
Excel是熟能生巧,多找練習(xí)題。還有需要養(yǎng)成好習(xí)慣,不要合并單元格,不要過(guò)于花哨。表格按照原始數(shù)據(jù)(sheet1)、加工數(shù)據(jù)(sheet2),圖表(sheet3)的類(lèi)型管理。
下面是為了以后更好的基礎(chǔ)而附加的學(xué)習(xí)任務(wù):
- 了解單元格格式,后期的數(shù)據(jù)類(lèi)型包括各類(lèi)timestamp,date,string,int,bigint,char,factor,float等。
- 了解數(shù)組,以及怎么用(excel的數(shù)組挺難用),Python和R也會(huì)涉及到 list。
- 了解函數(shù)和參數(shù),當(dāng)進(jìn)階為編程型的數(shù)據(jù)分析師時(shí),會(huì)讓你更快的掌握。
- 了解中文編碼,UTF8和ASCII,包括CSV的delimiter等,以后你會(huì)回來(lái)感謝我的。
這一周的內(nèi)容我會(huì)拆分成兩部分:函數(shù)篇和技巧篇。
這是一道練習(xí)題,我給你1000個(gè)身份證號(hào)碼,告訴我里面有多少男女,各省市人口的分布,這些人的年齡和星座。如果能完成上述過(guò)程,那么這一周就直接略過(guò)吧。(身份證號(hào)碼規(guī)律可以網(wǎng)上搜索)
第二周:數(shù)據(jù)可視化
數(shù)據(jù)分析界有一句經(jīng)典名言,字不如表,表不如圖。數(shù)據(jù)可視化是數(shù)據(jù)分析的主要方向之一。除掉數(shù)據(jù)挖掘這類(lèi)高級(jí)分析,不少數(shù)據(jù)分析就是監(jiān)控?cái)?shù)據(jù)觀察數(shù)據(jù)。
數(shù)據(jù)分析的最終都是要兜售自己的觀點(diǎn)和結(jié)論的。兜售的最好方式就是做出觀點(diǎn)清晰數(shù)據(jù)詳實(shí)的PPT給老板看。如果沒(méi)人認(rèn)同分析結(jié)果,那么分析也不會(huì)被改進(jìn)和優(yōu)化,不落地的數(shù)據(jù)分析價(jià)值又在哪里?
首先要了解常用的圖表:
Excel的圖表可以100%完成上面的圖形要求,但這只是基礎(chǔ)。后續(xù)的進(jìn)階可視化,勢(shì)必要用到編程繪制。為什么?比如常見(jiàn)的多元分析,你能用Excel很輕松的完成?但是在IPython只需要一行代碼。
其次掌握BI,下圖是微軟的BI。
BI(商業(yè)智能)和圖表的區(qū)別在于BI擅長(zhǎng)交互和報(bào)表,更擅長(zhǎng)解釋已經(jīng)發(fā)生和正在發(fā)生的數(shù)據(jù)。將要發(fā)生的數(shù)據(jù)是數(shù)據(jù)挖掘的方向。
BI的好處在于很大程度解放數(shù)據(jù)分析師的工作,推動(dòng)全部門(mén)的數(shù)據(jù)意識(shí),另外降低其他部門(mén)的數(shù)據(jù)需求(萬(wàn)惡的導(dǎo)數(shù)據(jù))。
BI市面上的產(chǎn)品很多,基本都是建立儀表盤(pán)Dashboard,通過(guò)維度的聯(lián)動(dòng)和鉆取,獲得可視化的分析。
最后需要學(xué)習(xí)可視化和信息圖的制作。
這是安(裝)身(逼)立(加)命(薪)之本。這和數(shù)據(jù)本事沒(méi)有多大關(guān)系,更看重審美、解讀、PPT、信息化的能力。但值得花一點(diǎn)時(shí)間去學(xué)習(xí)。
數(shù)據(jù)可視化的學(xué)習(xí)就是三個(gè)過(guò)程:
- 了解數(shù)據(jù)(圖表)
- 整合數(shù)據(jù)(BI)
- 展示數(shù)據(jù)(信息化)
第三周:分析思維的訓(xùn)練
這周輕松一下,學(xué)學(xué)理論知識(shí)。
好的數(shù)據(jù)分析首先要有結(jié)構(gòu)化的思維,也就是我們俗稱(chēng)的金字塔思維。思維導(dǎo)圖是必備的工具。
之后再了解SMART、5W2H、SWOT、4P理論、六頂思考帽等框架。這些框架都是大巧不工的經(jīng)典。
分析也是有框架和方法論的,主要圍繞三個(gè)要點(diǎn)展開(kāi):
- 一個(gè)業(yè)務(wù)沒(méi)有指標(biāo),則不能增長(zhǎng)和分析;
- 好的指標(biāo)應(yīng)該是比率或比例;
- 好的分析應(yīng)該對(duì)比或關(guān)聯(lián)。
舉一個(gè)例子:我告訴你一家超市今天有1000人的客流量,你會(huì)怎么分析?
- 這1000人的數(shù)量,和附近其他超市比是多是少?(對(duì)比)
- 這1000人的數(shù)量比昨天多還是少?(對(duì)比)
- 1000人有多少產(chǎn)生了實(shí)際購(gòu)買(mǎi)?(轉(zhuǎn)化比例)
- 路過(guò)超市,超市外的人流是多少?(轉(zhuǎn)化比例)
這是一個(gè)快速搭建分析框架的方法。如果只看1000人,是看不出分析不出任何結(jié)果。
優(yōu)秀的數(shù)據(jù)分析師會(huì)拷問(wèn)別人的數(shù)據(jù),而他本身的分析也是經(jīng)得起拷問(wèn),這就是分析思維能力。需要確切明白的是,一周時(shí)間鍛煉不出數(shù)據(jù)思維,只能做到了解。數(shù)據(jù)思維是不斷練習(xí)的結(jié)果,我只是盡量縮短這個(gè)過(guò)程。
第四周:數(shù)據(jù)庫(kù)學(xué)習(xí)
Excel對(duì)十萬(wàn)條以?xún)?nèi)的數(shù)據(jù)處理起來(lái)沒(méi)有問(wèn)題,但是互聯(lián)網(wǎng)行業(yè)就是不缺數(shù)據(jù)。但凡產(chǎn)品有一點(diǎn)規(guī)模,數(shù)據(jù)都是百萬(wàn)起。這時(shí)候就需要學(xué)習(xí)數(shù)據(jù)庫(kù)。
越來(lái)越多的產(chǎn)品和運(yùn)營(yíng)崗位,會(huì)在招聘條件中,將會(huì)SQL作為優(yōu)先的加分項(xiàng)。
SQL是數(shù)據(jù)分析的核心技能之一,從Excel到SQL絕對(duì)是數(shù)據(jù)處理效率的一大進(jìn)步。
學(xué)習(xí)圍繞Select展開(kāi)。增刪改、約束、索引、數(shù)據(jù)庫(kù)范式均可以跳過(guò)。
主要了解where,group by,order by,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的邏輯,時(shí)間轉(zhuǎn)換函數(shù)等。
如果想要跟進(jìn)一步,可以學(xué)習(xí)row_number,substr,convert,contact等。另外不同數(shù)據(jù)平臺(tái)的函數(shù)會(huì)有差異,例如Presto和phpMyAdmin。
再有點(diǎn)追求,就去了解Explain優(yōu)化,了解SQL的工作原理,了解數(shù)據(jù)類(lèi)型,了解IO。以后就可以和技術(shù)研發(fā)們談笑風(fēng)生,畢竟將“這里有bug”的說(shuō)話,換成“這塊的數(shù)據(jù)死鎖了”,逼格大大的不同。
SQL的學(xué)習(xí)主要是多練,網(wǎng)上尋找相關(guān)的練習(xí)題,刷一遍就差不多了。
第五周:統(tǒng)計(jì)知識(shí)學(xué)習(xí)
很遺憾,統(tǒng)計(jì)知識(shí)也是我薄弱的地方,可這是數(shù)據(jù)分析的基礎(chǔ)。
我看過(guò)很多產(chǎn)品和運(yùn)營(yíng)相關(guān)的數(shù)據(jù)分析文章,沒(méi)有多少提及統(tǒng)計(jì)知識(shí)。這是不嚴(yán)謹(jǐn)?shù)摹?/p>
比如產(chǎn)品的AB測(cè)試,如果產(chǎn)品經(jīng)理并不清楚置信度的含義和概念,那么好的效果并不意味著真正的好。尤其是5%這種非顯著的提高。
比如運(yùn)營(yíng)一次活動(dòng),運(yùn)營(yíng)若不了解檢驗(yàn)相關(guān)的概念,那么如何去判別活動(dòng)在數(shù)據(jù)上是有效果還是沒(méi)有效果?別說(shuō)平均數(shù)。
再討論一下經(jīng)典的概率問(wèn)題,如果一個(gè)人獲流感,實(shí)驗(yàn)結(jié)果為陽(yáng)性的概率為90%;如果沒(méi)有獲流感,實(shí)驗(yàn)結(jié)果為陽(yáng)性的概率為9%?,F(xiàn)在這個(gè)人檢驗(yàn)結(jié)果為陽(yáng)性,他有多少幾率是得了流感?
如果你覺(jué)得幾率有50%、60%、70%等等,那么都犯了直覺(jué)性的錯(cuò)誤。它還和得病的基礎(chǔ)概率有關(guān)。
統(tǒng)計(jì)知識(shí)會(huì)教我們以另一個(gè)角度看待數(shù)據(jù)。如果大家了解過(guò)《統(tǒng)計(jì)數(shù)據(jù)會(huì)撒謊》,那么就知道很多數(shù)據(jù)分析的決策并不牢靠。
我們需要花一周的時(shí)間掌握描述性統(tǒng)計(jì),包括均值、中位數(shù)、標(biāo)準(zhǔn)差、方差、概率、假設(shè)檢驗(yàn)、顯著性、總體和抽樣等概念。
不需要學(xué)習(xí)更高階的統(tǒng)計(jì)知識(shí),誰(shuí)讓我們是速成呢。只要做到不會(huì)被數(shù)據(jù)欺騙,不犯錯(cuò)誤就好。
以Excel的分析工具庫(kù)舉例(圖片網(wǎng)上找來(lái))。在初級(jí)的統(tǒng)計(jì)學(xué)習(xí)中,需要了解列1的各名詞含義,而不是停留在平均數(shù)這個(gè)基礎(chǔ)上。
第六周:業(yè)務(wù)知識(shí)(用戶行為、產(chǎn)品、運(yùn)營(yíng))
這一周需要了解業(yè)務(wù)。對(duì)于數(shù)據(jù)分析師來(lái)說(shuō),業(yè)務(wù)的了解比數(shù)據(jù)方法論更重要。當(dāng)然很遺憾,業(yè)務(wù)學(xué)習(xí)沒(méi)有捷徑。
我舉一個(gè)數(shù)據(jù)沙龍上的例子,一家O2O配送公司發(fā)現(xiàn)在重慶地區(qū),外賣(mài)員的送貨效率低于其他城市,導(dǎo)致用戶的好評(píng)率降低??偛康臄?shù)據(jù)分析師建立了各個(gè)指標(biāo)去分析原因,都沒(méi)有找出來(lái)問(wèn)題。后來(lái)在訪談中發(fā)覺(jué),因?yàn)橹貞c是山城,路面高低落差比較夸張,很多外賣(mài)人員的小電瓶上不了坡…所以導(dǎo)致送貨效率慢。
這個(gè)案例中,我們只知道送貨員的送貨水平距離,即POI數(shù)據(jù),根本不可能知道垂直距離的數(shù)據(jù)。這就是數(shù)據(jù)的局限,也是只會(huì)看數(shù)據(jù)的分析師和接地氣分析師的最大差異。
對(duì)業(yè)務(wù)市場(chǎng)的了解是數(shù)據(jù)分析在工作經(jīng)驗(yàn)上最大的優(yōu)勢(shì)之一。不同行業(yè)領(lǐng)域的業(yè)務(wù)知識(shí)都不一樣,我就不獻(xiàn)丑了。在互聯(lián)網(wǎng)行業(yè),有幾個(gè)寬泛的業(yè)務(wù)數(shù)據(jù)需要了解。
產(chǎn)品數(shù)據(jù)分析,以經(jīng)典的AAARR框架學(xué)習(xí),了解活躍留存的指標(biāo)和概念(這些內(nèi)容,我的歷史文章已經(jīng)涉及了部分)。
并且數(shù)據(jù)分析師需要知道如何用SQL計(jì)算。因?yàn)樵趯?shí)際的分析過(guò)程中,留存只是一個(gè)指標(biāo),通過(guò)userId 關(guān)聯(lián)和拆分才是常見(jiàn)的分析策略。
網(wǎng)站數(shù)據(jù)分析,可以抽象吃一個(gè)哲學(xué)問(wèn)題:
用戶從哪里來(lái)(SEO/SEM),用戶到哪里去(訪問(wèn)路徑),用戶是誰(shuí)(用戶畫(huà)像/用戶行為路徑)。
雖然網(wǎng)站已經(jīng)不是互聯(lián)網(wǎng)的主流,但現(xiàn)在有很多APP+Web的復(fù)合框架,朋友圈的傳播活動(dòng)肯定需要用到網(wǎng)頁(yè)的指標(biāo)去分析。
用戶數(shù)據(jù)分析,這是數(shù)據(jù)化運(yùn)營(yíng)的一種應(yīng)用。
在產(chǎn)品早期,可以通過(guò)埋點(diǎn)計(jì)算轉(zhuǎn)化率,利用AB測(cè)試達(dá)到快速迭代的目的,在積累到用戶量的后期,利用埋點(diǎn)去分析用戶行為,并且以此建立用戶分層用戶畫(huà)像等。
例如用貝葉斯算法計(jì)算用戶的性別概率,用K聚類(lèi)算法劃分用戶的群體,用行為數(shù)據(jù)作為特征建立響應(yīng)模型等。不過(guò)快速入門(mén)不需要掌握這些,只需要有一個(gè)大概的框架概念。
除了業(yè)務(wù)知識(shí),業(yè)務(wù)層面的溝通也很重要。在業(yè)務(wù)線足夠長(zhǎng)的時(shí)候,我不止一次遇到產(chǎn)品和運(yùn)營(yíng)沒(méi)有掌握所有的業(yè)務(wù)要點(diǎn),尤其涉及跨部門(mén)的分析。良好的業(yè)務(wù)溝通能力是數(shù)據(jù)分析的基礎(chǔ)能力。
第七周:Python/R 學(xué)習(xí)
終于到第七周,也是最痛苦的一周。這時(shí)應(yīng)該學(xué)習(xí)編程技巧。
是否具備編程能力,是初級(jí)數(shù)據(jù)分析和高級(jí)數(shù)據(jù)分析的風(fēng)水嶺。數(shù)據(jù)挖掘,爬蟲(chóng),可視化報(bào)表都需要用到編程能力(例如上文的多元散點(diǎn)圖)。掌握一門(mén)優(yōu)秀的編程語(yǔ)言,可以讓數(shù)據(jù)分析師事半功倍,升職加薪,迎娶白富美。
以時(shí)下最熱門(mén)的R語(yǔ)言和Python為學(xué)習(xí)支線,速成只要學(xué)習(xí)一條。
我剛好兩類(lèi)都學(xué)過(guò)。R的優(yōu)點(diǎn)是統(tǒng)計(jì)學(xué)家編寫(xiě)的,缺點(diǎn)也是統(tǒng)計(jì)學(xué)家編寫(xiě)。如果是各類(lèi)統(tǒng)計(jì)函數(shù)的調(diào)用,繪圖,分析的前驗(yàn)性論證,R無(wú)疑有優(yōu)勢(shì)。但是大數(shù)據(jù)量的處理力有不逮,學(xué)習(xí)曲線比較陡峭。Python則是萬(wàn)能的膠水語(yǔ)言,適用性強(qiáng),可以將各類(lèi)分析的過(guò)程腳本化。Pandas,SKLearn等各包也已經(jīng)追平R。
學(xué)習(xí)R,需要了解數(shù)據(jù)結(jié)構(gòu)(matrix,array,data.frame,list等)、數(shù)據(jù)讀取,圖形繪制( ggplot2)、數(shù)據(jù)操作、統(tǒng)計(jì)函數(shù)(mean,median,sd,var,scale等)。高階的統(tǒng)計(jì)暫時(shí)不用去涉及,這是后續(xù)的學(xué)習(xí)任務(wù)。
R語(yǔ)言的開(kāi)發(fā)環(huán)境建議用RStudio。
學(xué)習(xí)Python有很多分支,我們專(zhuān)注數(shù)據(jù)分析這塊。需要了解調(diào)用包、函數(shù)、數(shù)據(jù)類(lèi)型(list,tuple,dict),條件判斷,迭代等。高階的Numpy和Pandas在有精力的情況下涉及。
Python的開(kāi)發(fā)環(huán)境建議Anaconda,可以規(guī)避掉環(huán)境變量、包安裝等大部分新手問(wèn)題。Mac自帶Python2.7,但現(xiàn)在Python 3已經(jīng)比幾年前成熟,沒(méi)有編碼問(wèn)題,就不要抱成守舊了。
對(duì)于沒(méi)有技術(shù)基礎(chǔ)的運(yùn)營(yíng)和產(chǎn)品,第七周最吃力,雖然SQL+Excel足夠應(yīng)付入門(mén)級(jí)數(shù)據(jù)分析,但是涉及到循環(huán)迭代、多元圖表的分析部分,復(fù)雜度就呈幾何上升。更遑論數(shù)據(jù)挖掘這種高階玩法。
我也相信,未來(lái)了解數(shù)據(jù)挖掘的產(chǎn)品和運(yùn)營(yíng)會(huì)有極強(qiáng)的競(jìng)爭(zhēng)力。
到這里,剛剛好是七周。如果還需要第八周+,則是把上面的鞏固和融會(huì)貫通,畢竟這只是目的性極強(qiáng)的速成,是開(kāi)始,而不是數(shù)據(jù)分析的畢業(yè)典禮。
如果希望數(shù)據(jù)分析能力更近一步,或者成為優(yōu)秀的數(shù)據(jù)分析師,每一周的內(nèi)容都能繼續(xù)學(xué)習(xí)至精通。實(shí)際上,業(yè)務(wù)知識(shí)、統(tǒng)計(jì)知識(shí)僅靠?jī)芍苁欠浅2焕喂痰摹?/p>
再往后的學(xué)習(xí),會(huì)有許多分支。比如偏策劃的數(shù)據(jù)產(chǎn)品經(jīng)理,比如偏統(tǒng)計(jì)的機(jī)器學(xué)習(xí),比如偏商業(yè)的市場(chǎng)分析師,比如偏工程的大數(shù)據(jù)工程師。這是后話了。
本文由 @秦路?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
專(zhuān)業(yè)
看入迷了,坐過(guò)站了
感謝提醒。
面過(guò)四家實(shí)習(xí),提一點(diǎn),就是對(duì)于已經(jīng)入門(mén)了的求職者而言,最重要的還是統(tǒng)計(jì)知識(shí),現(xiàn)在要求更高,需要機(jī)器學(xué)習(xí)知識(shí),普通的概率統(tǒng)計(jì)已經(jīng)不夠了,多元統(tǒng)計(jì),時(shí)間序列分析等等都要學(xué)(假如你要去大廠),其次就是業(yè)務(wù)理解,sql重要但是不要把全部重心放在sql上,每天練一道題就行了,excel基本沒(méi)遇到問(wèn)過(guò)的,即使我的簡(jiǎn)歷上寫(xiě)了excel。
多謝
感恩~
“AAARR框架”,還是“AARRR”框架?
有沒(méi)有想過(guò)出網(wǎng)課,七周的指導(dǎo)性文章看起來(lái),對(duì)小白來(lái)說(shuō)不太知道從何入手,只是覺(jué)得前方的目標(biāo)非常宏偉龐大,讓自己覺(jué)得擁有了秦路的文章未來(lái)財(cái)富自由就指日可待了,但事實(shí)上一個(gè)新的運(yùn)行人成長(zhǎng)到合格的全棧運(yùn)營(yíng)7個(gè)月能做到就謝天謝地了不是嗎
我也相信,未來(lái)了解數(shù)據(jù)挖掘的產(chǎn)品和運(yùn)營(yíng)會(huì)有極強(qiáng)的競(jìng)爭(zhēng)力。
謝謝分享