聚類算法簡(jiǎn)析(一):樸素貝葉斯算法的場(chǎng)景案例

2 評(píng)論 4367 瀏覽 14 收藏 6 分鐘

本文作者通過一些場(chǎng)景案例,帶領(lǐng)大家了解一下樸素貝葉斯算法作為聚類算法中的一員,如何來區(qū)分各類數(shù)組。

通過一組參數(shù)模型來區(qū)分互斥群組中的個(gè)體十分常見,我們可以使用樸素貝葉斯分析來應(yīng)用于這種場(chǎng)景,取決于模型的相似矩陣算法常常運(yùn)用在估算決策論框架的矩陣中。

一些已經(jīng)存在的聚類分析技巧是從一些特定的有限制的場(chǎng)景中提取出來的,這些結(jié)論很好地應(yīng)用于區(qū)分兩類不同數(shù)組之間的比較關(guān)系。

本文我們通過一些場(chǎng)景案例,來了解一下樸素貝葉斯算法作為聚類算法中的一員,如何來區(qū)分各類數(shù)組。

簡(jiǎn)介

最近幾年,各種各樣的分類算法在統(tǒng)計(jì)學(xué)著作中被提出。

回溯近代理論中涉及的各類著作,1971年科馬克、1973年安德伯、1974年埃弗里特、1975年哈迪更均有涉獵。然后,大部分的算法均有限制,因?yàn)檫@些算法只能在某些特定場(chǎng)景中才能應(yīng)用。

烏爾夫(1970)提出假設(shè),觀察到密度函數(shù)中具有一個(gè)有限的參數(shù)矩陣。然而,一旦參數(shù)矩陣中的組件數(shù)量不確定,則會(huì)出現(xiàn)問題。

沃爾夫認(rèn)為這個(gè)矩陣很有可能存在一種概率,這種假說即為:當(dāng)一個(gè)組件和另外兩個(gè)組件矩陣出現(xiàn)互斥時(shí)會(huì)產(chǎn)生分離。

由此我們可以將聚類分析重新構(gòu)建一種模型,觀察對(duì)象的參數(shù)形成互斥群組,并且在樸素貝葉斯的場(chǎng)景中,我們是允許存在未定義組件的。

常用理論模型

定義X1……Xn為p維空間觀察物。

我們定義“真群組”向量,定義為:g=(g1……gn),gk=i表示系數(shù)k由系數(shù)i的群組產(chǎn)生。

這樣就會(huì)出現(xiàn)m種可能群組,并且m可能是未知數(shù),主要的問題就是定義特殊值g。

如已知m,g和一個(gè)參數(shù)向量θ,我們假定X組是獨(dú)立于密度函數(shù)Xk,設(shè)為hg(xk|θ),這里的x和θ是已知函數(shù)。這個(gè)模型在1971年由斯科特和西蒙斯提出。

我們采用先驗(yàn)密度的模型來定義未知數(shù)量:

PM,G,θ(m,g,θ)=pM(m)pG|M(g|m)pθ|G.M(θ|g,m)

模型兩選一的特性,讓我們來引入一個(gè)參數(shù)向量λ

0<λ1……λm<1,Σλi=1。在某些應(yīng)用中,針對(duì)這些參數(shù)我們需要估算g,于是演變?yōu)榉匠蹋?/p>

通過這類分析模型的演變,算法的遞推,我們采用概率論結(jié)合分布矩陣來區(qū)分?jǐn)?shù)據(jù)聚類的不同分布中心。

技術(shù)應(yīng)用

貝葉斯算法主要運(yùn)用于兩個(gè)經(jīng)典案例:由英國(guó)統(tǒng)計(jì)學(xué)家/生物學(xué)家Ronald Fisher在1936年所收集鳶尾花案例,以及鄧肯1955年提出的大麥數(shù)據(jù)。

Iris數(shù)據(jù)集是常用的分類實(shí)驗(yàn)數(shù)據(jù)集,由Fisher,1936收集整理。Iris也稱鳶尾花卉數(shù)據(jù)集,是一類多重變量分析的數(shù)據(jù)集。

數(shù)據(jù)集包含150個(gè)數(shù)據(jù)樣本,分為3類,每類50個(gè)數(shù)據(jù),每個(gè)數(shù)據(jù)包含4個(gè)屬性??赏ㄟ^花萼長(zhǎng)度,花萼寬度,花瓣長(zhǎng)度,花瓣寬度4個(gè)屬性預(yù)測(cè)鳶尾花卉屬于(Setosa,Versicolour,Virginica)三個(gè)種類中的哪一類。

數(shù)據(jù)集主要包括如下三個(gè)種類鳶尾花的數(shù)據(jù),每種50條數(shù)據(jù):

每條數(shù)據(jù)都從鳶尾花的如下四個(gè)特征進(jìn)行描述:

我們使用nij矩陣來作為實(shí)例,最小值min|W|。

當(dāng)協(xié)方差不同,協(xié)方差矩陣的斜率就不同,這樣每個(gè)相似的節(jié)點(diǎn)就會(huì)形成一個(gè)聚類。

我們采用貝葉斯聚類方法進(jìn)行繪圖:

混淆矩陣

散點(diǎn)圖

通過圖譜我們可以看出,利用樸素貝葉斯算法,可以將同類中的互斥數(shù)據(jù)分解出來,形成一種聚類,這些算法可以廣泛運(yùn)用在生活中。例如,垃圾郵件問題中,做貝葉斯公式計(jì)算過濾方法識(shí)別出類似特性郵件并歸集。

所以,了解貝葉斯算法的概念和使用貝葉斯算法正在計(jì)算機(jī)領(lǐng)域逐步推廣成為一種應(yīng)用領(lǐng)域。

 

本文由 @手心的太陽(yáng) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 這是算法內(nèi)容吧,不屬于產(chǎn)品工作范疇吧

    來自北京 回復(fù)
    1. 做調(diào)研的時(shí)候提取關(guān)鍵變量的方法

      來自湖北 回復(fù)