聚類算法簡(jiǎn)析(一):樸素貝葉斯算法的場(chǎng)景案例
本文作者通過一些場(chǎng)景案例,帶領(lǐng)大家了解一下樸素貝葉斯算法作為聚類算法中的一員,如何來區(qū)分各類數(shù)組。
通過一組參數(shù)模型來區(qū)分互斥群組中的個(gè)體十分常見,我們可以使用樸素貝葉斯分析來應(yīng)用于這種場(chǎng)景,取決于模型的相似矩陣算法常常運(yùn)用在估算決策論框架的矩陣中。
一些已經(jīng)存在的聚類分析技巧是從一些特定的有限制的場(chǎng)景中提取出來的,這些結(jié)論很好地應(yīng)用于區(qū)分兩類不同數(shù)組之間的比較關(guān)系。
本文我們通過一些場(chǎng)景案例,來了解一下樸素貝葉斯算法作為聚類算法中的一員,如何來區(qū)分各類數(shù)組。
簡(jiǎn)介
最近幾年,各種各樣的分類算法在統(tǒng)計(jì)學(xué)著作中被提出。
回溯近代理論中涉及的各類著作,1971年科馬克、1973年安德伯、1974年埃弗里特、1975年哈迪更均有涉獵。然后,大部分的算法均有限制,因?yàn)檫@些算法只能在某些特定場(chǎng)景中才能應(yīng)用。
烏爾夫(1970)提出假設(shè),觀察到密度函數(shù)中具有一個(gè)有限的參數(shù)矩陣。然而,一旦參數(shù)矩陣中的組件數(shù)量不確定,則會(huì)出現(xiàn)問題。
沃爾夫認(rèn)為這個(gè)矩陣很有可能存在一種概率,這種假說即為:當(dāng)一個(gè)組件和另外兩個(gè)組件矩陣出現(xiàn)互斥時(shí)會(huì)產(chǎn)生分離。
由此我們可以將聚類分析重新構(gòu)建一種模型,觀察對(duì)象的參數(shù)形成互斥群組,并且在樸素貝葉斯的場(chǎng)景中,我們是允許存在未定義組件的。
常用理論模型
定義X1……Xn為p維空間觀察物。
我們定義“真群組”向量,定義為:g=(g1……gn),gk=i表示系數(shù)k由系數(shù)i的群組產(chǎn)生。
這樣就會(huì)出現(xiàn)m種可能群組,并且m可能是未知數(shù),主要的問題就是定義特殊值g。
如已知m,g和一個(gè)參數(shù)向量θ,我們假定X組是獨(dú)立于密度函數(shù)Xk,設(shè)為hg(xk|θ),這里的x和θ是已知函數(shù)。這個(gè)模型在1971年由斯科特和西蒙斯提出。
我們采用先驗(yàn)密度的模型來定義未知數(shù)量:
PM,G,θ(m,g,θ)=pM(m)pG|M(g|m)pθ|G.M(θ|g,m)
模型兩選一的特性,讓我們來引入一個(gè)參數(shù)向量λ
0<λ1……λm<1,Σλi=1。在某些應(yīng)用中,針對(duì)這些參數(shù)我們需要估算g,于是演變?yōu)榉匠蹋?/p>
通過這類分析模型的演變,算法的遞推,我們采用概率論結(jié)合分布矩陣來區(qū)分?jǐn)?shù)據(jù)聚類的不同分布中心。
技術(shù)應(yīng)用
貝葉斯算法主要運(yùn)用于兩個(gè)經(jīng)典案例:由英國(guó)統(tǒng)計(jì)學(xué)家/生物學(xué)家Ronald Fisher在1936年所收集鳶尾花案例,以及鄧肯1955年提出的大麥數(shù)據(jù)。
Iris數(shù)據(jù)集是常用的分類實(shí)驗(yàn)數(shù)據(jù)集,由Fisher,1936收集整理。Iris也稱鳶尾花卉數(shù)據(jù)集,是一類多重變量分析的數(shù)據(jù)集。
數(shù)據(jù)集包含150個(gè)數(shù)據(jù)樣本,分為3類,每類50個(gè)數(shù)據(jù),每個(gè)數(shù)據(jù)包含4個(gè)屬性??赏ㄟ^花萼長(zhǎng)度,花萼寬度,花瓣長(zhǎng)度,花瓣寬度4個(gè)屬性預(yù)測(cè)鳶尾花卉屬于(Setosa,Versicolour,Virginica)三個(gè)種類中的哪一類。
數(shù)據(jù)集主要包括如下三個(gè)種類鳶尾花的數(shù)據(jù),每種50條數(shù)據(jù):
每條數(shù)據(jù)都從鳶尾花的如下四個(gè)特征進(jìn)行描述:
我們使用nij矩陣來作為實(shí)例,最小值min|W|。
當(dāng)協(xié)方差不同,協(xié)方差矩陣的斜率就不同,這樣每個(gè)相似的節(jié)點(diǎn)就會(huì)形成一個(gè)聚類。
我們采用貝葉斯聚類方法進(jìn)行繪圖:
混淆矩陣
散點(diǎn)圖
通過圖譜我們可以看出,利用樸素貝葉斯算法,可以將同類中的互斥數(shù)據(jù)分解出來,形成一種聚類,這些算法可以廣泛運(yùn)用在生活中。例如,垃圾郵件問題中,做貝葉斯公式計(jì)算過濾方法識(shí)別出類似特性郵件并歸集。
所以,了解貝葉斯算法的概念和使用貝葉斯算法正在計(jì)算機(jī)領(lǐng)域逐步推廣成為一種應(yīng)用領(lǐng)域。
本文由 @手心的太陽(yáng) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于CC0協(xié)議
這是算法內(nèi)容吧,不屬于產(chǎn)品工作范疇吧
做調(diào)研的時(shí)候提取關(guān)鍵變量的方法