這篇文章把數(shù)據(jù)講透了(四):數(shù)據(jù)挖掘
編輯導(dǎo)讀:隨著“數(shù)智化”時(shí)代的到來(lái),我們生活中的方方面面都離不開數(shù)據(jù),而你真的了解數(shù)據(jù)嗎?本文將為你重新解讀數(shù)據(jù)的概念和價(jià)值,以及數(shù)據(jù)的價(jià)值是如何在“數(shù)智化”時(shí)代下一步一步得到運(yùn)用與升華的;因內(nèi)容頗多,筆者將分幾期為大家進(jìn)行講解。
一、前言
上一期文章中,我們已經(jīng)了解到“數(shù)據(jù)”是一個(gè)龐大的體系(如下圖所示);并用了“洗菜、擇菜”的例子,為大家講解數(shù)據(jù)清洗的含義;而今天筆者主要給大家講解當(dāng)凈菜備好后,如何對(duì)凈菜進(jìn)行加工烹飪,讓它變成有價(jià)值、有意義的美味佳肴,即數(shù)據(jù)挖掘的過(guò)程。
二、數(shù)據(jù)挖掘(烹飪)
數(shù)據(jù)挖掘是對(duì)既定的“凈數(shù)據(jù)”進(jìn)行加工利用的過(guò)程,我們可以把它看作是烹飪加工的過(guò)程。
而數(shù)據(jù)挖掘是有一定規(guī)則和相應(yīng)模型的,這一點(diǎn)我們也可以通過(guò)一個(gè)類比進(jìn)行理解。
清洗后的高質(zhì)量數(shù)據(jù)就像是“凈菜”,而數(shù)據(jù)挖掘模型就像是各種“菜系”,我們知道,就算“凈菜”材料一致,但菜系(數(shù)據(jù)挖掘模型)不同,最終得到的成品也是截然不同的!
下面是數(shù)據(jù)挖掘中較為常見的幾個(gè)“菜系”(模型),下面我們配合模型對(duì)應(yīng)的使用場(chǎng)景逐一闡述
總的來(lái)說(shuō),數(shù)據(jù)挖掘模型可以通過(guò)“監(jiān)督模式”進(jìn)行大致分類,分類為監(jiān)督模型、非監(jiān)督模型:
- 監(jiān)督模型:簡(jiǎn)單的說(shuō),就是讓機(jī)器學(xué)會(huì)舉一反三,它好比學(xué)生在學(xué)習(xí)時(shí)已知題目和答案,去學(xué)習(xí)分析如何解題一樣,下次遇到一樣的或者類似的題目就會(huì)做了;監(jiān)督模型內(nèi)的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,常見模型有決策樹、LOGISTIC線性回歸等。
- 非監(jiān)督模型:簡(jiǎn)單的說(shuō),就是略去了監(jiān)督模型中”舉一反三“的過(guò)程,輸入的僅僅是一堆數(shù)據(jù),沒有標(biāo)簽,也沒有訓(xùn)練集和驗(yàn)證集之分,讓算法根據(jù)數(shù)據(jù)本身的特征去學(xué)習(xí),常見模型一般有clustering。
了解了數(shù)據(jù)挖掘的基本類別,下面我們來(lái)切入場(chǎng)景,看一看這些具體的算法模型如何幫助我們?cè)诂F(xiàn)實(shí)場(chǎng)景中進(jìn)行數(shù)據(jù)挖掘。
聚類分析——其中以K-Means算法最為典型。
原理與步驟:
- 選取K個(gè)中心點(diǎn),代表K個(gè)類別;
- 計(jì)算N個(gè)樣本點(diǎn)和K個(gè)中心點(diǎn)之間的歐氏距離;
- 將每個(gè)樣本點(diǎn)劃分到最近的(歐氏距離最小的)中心點(diǎn)類別中——迭代1;
- 計(jì)算每個(gè)類別中樣本點(diǎn)的均值,得到K個(gè)均值,將K個(gè)均值作為新的中心點(diǎn)——迭代2;
- 重復(fù)234;
- 得到收斂后的K個(gè)中心點(diǎn)(中心點(diǎn)不再變化)——迭代4;
使用場(chǎng)景:商業(yè)領(lǐng)域,聚類分析常結(jié)合(RMF模型)被用來(lái)進(jìn)行客戶細(xì)分;生科領(lǐng)域,聚類分析常被對(duì)動(dòng)植物分類和基因進(jìn)行分類,進(jìn)行種群研究。
實(shí)操案例:運(yùn)用K-Means算法對(duì)航空業(yè)客戶進(jìn)行價(jià)值衡量和細(xì)分。
1. 參考RMF模型與數(shù)據(jù)集,自定義聚類類別
得到數(shù)據(jù)集后刪除不相關(guān)、弱相關(guān)或冗余屬性,如會(huì)員卡號(hào)、性別等,可以得到與RMF模型相關(guān)的5個(gè)屬性分別是:C(平均折扣率較高、倉(cāng)位等級(jí)較高)、F(乘坐次數(shù))、M(總里程),R(最近乘坐航班)低、L(入會(huì)時(shí)長(zhǎng)),我們根據(jù)屬性更夠?qū)蛻羧哼M(jìn)行分類,鑒別出重要挽留客戶、重要保持客戶、低價(jià)值客戶等。
2. 已確定5個(gè)聚類類別,套入代碼進(jìn)行聚類即可(代碼如下)
3. 針對(duì)結(jié)果進(jìn)行可視化分析,并對(duì)每一個(gè)customer進(jìn)行標(biāo)識(shí)
回歸分析——具體分為兩大類(邏輯回歸、線性回歸)。
那么,有同學(xué)就會(huì)問(wèn)了,邏輯回歸和線性回歸究竟有什么區(qū)別呢?
其實(shí),兩者屬于同一個(gè)家族(廣義線性模型),但它們面向的因變量類型不同,邏輯回歸的因變量是分類變量(男女、職業(yè)…),線性回歸的因變量是連續(xù)型數(shù)字變量(如1000人的工資,單位元)。
實(shí)操演練:最小二乘法OLS回歸(屬于線性回歸的一種)——例如,下方,我們對(duì)工資與各項(xiàng)貸款余額的關(guān)系進(jìn)行研究。
STEP1. 導(dǎo)入數(shù)據(jù)后,畫出散點(diǎn)圖,觀察數(shù)據(jù)大致趨勢(shì),并畫擬合曲線:
- x=data[‘各項(xiàng)貸款余額’]
- y=data[‘工資’]
- z1 = np.polyfit(x, y, 1) # 1表示用1次多項(xiàng)式擬合
- p1 = np.poly1d(z1)#擬合方程
- f=p1(x)
- plt.scatter(data[‘各項(xiàng)貸款余額’],data[‘工資’])
- plot2=plt.plot(x, f, ‘r’,label=’polyfit values’)#畫擬合線
STEP2. 導(dǎo)出相關(guān)回歸數(shù)據(jù)參考指標(biāo),如擬合R方(越接近1越好,一般來(lái)說(shuō)0.7以上已經(jīng)算相關(guān)性比較強(qiáng),擬合效果較好)、P值(一般情況<0.05為理想擬合)等,對(duì)回歸方程進(jìn)行檢驗(yàn)。
綜上,我們可以得到Y(jié)(工資)=0.0379X(各項(xiàng)貸款余額)-0.8295。
三、結(jié)語(yǔ)
本期,筆者通過(guò)一個(gè)“烹飪和菜系”的例子,帶著大家了解了數(shù)據(jù)挖掘的常用模型,相信大家有所收獲!
下期,筆者將在數(shù)據(jù)挖掘的基礎(chǔ)上,講解數(shù)據(jù)可視化,看看我們?nèi)绾魏?jiǎn)單易懂的把數(shù)據(jù)故事講懂、講透!
往期文章:
這篇文章把數(shù)據(jù)講透了(一):數(shù)據(jù)來(lái)源
這篇文章把數(shù)據(jù)講透了(二):數(shù)據(jù)采集
這篇文章把數(shù)據(jù)講透了(三):數(shù)據(jù)清洗
持續(xù)更新…
本文由 @小陳同學(xué)ing. 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于CC0協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!