国产在线喷水,黄色软件导航,亚洲色图狠狠干

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

開(kāi)通會(huì)員

發(fā)布

注冊(cè) | 登錄

AI分類(lèi)模型評(píng)估指標(biāo)：混淆矩陣、KS、AUC

AI小當(dāng)家

2023-12-29

3 評(píng)論 3508 瀏覽 17 收藏

分類(lèi)模型的評(píng)估指標(biāo)有混淆矩陣、KS、AUC等指標(biāo)，而回歸模型的評(píng)估指標(biāo)又有許多。那么，怎么理解這些指標(biāo)呢？這篇文章里，作者針對(duì)相關(guān)指標(biāo)做了解析，一起來(lái)看看吧。

上文介紹了模型構(gòu)建的5個(gè)環(huán)節(jié)，在模型驗(yàn)證環(huán)節(jié)，提到了評(píng)估模型性能的指標(biāo)，其中分類(lèi)模型的評(píng)估指標(biāo)有混淆矩陣、KS、AUC等指標(biāo)，而回歸模型的評(píng)估指標(biāo)有MSE、RMSE、MAE等指標(biāo)。

今天我們就來(lái)詳細(xì)了解一下分類(lèi)模型的評(píng)估指標(biāo)。

一、混淆矩陣

混淆矩陣是分類(lèi)模型評(píng)估最基礎(chǔ)的指標(biāo)，我們可以通過(guò)混淆矩陣直觀的看出分類(lèi)模型預(yù)測(cè)準(zhǔn)確和不準(zhǔn)確的結(jié)果數(shù)量，進(jìn)而簡(jiǎn)單計(jì)算出找到了多少比例的壞人（召回率）、找到的壞人里面真正壞人的比例（精確率）、模型判斷正確的比例（準(zhǔn)確率）等，而AUC、KS等高階指標(biāo)的計(jì)算也依賴(lài)于混淆矩陣的數(shù)據(jù)。

那么到底什么是混淆矩陣呢？

還是以前文的薅羊毛項(xiàng)目為例，當(dāng)然薅羊毛項(xiàng)目是多分類(lèi)模型，我們這里簡(jiǎn)化成二分類(lèi)，便于理解。

我們選取了100名測(cè)試用戶(hù)信息，其中有30個(gè)薅羊毛用戶(hù)，我們稱(chēng)之為“壞人”，70個(gè)正常的“好人”。模型預(yù)測(cè)結(jié)果分?jǐn)?shù)的范圍是0到100分，技術(shù)同學(xué)給的參考閾值為60分，即60分以上的為“壞人”，60分以下的為“好人”。

輸入到模型后得到了100個(gè)預(yù)測(cè)結(jié)果，假設(shè)模型預(yù)測(cè)出了40個(gè)壞人，在這40個(gè)壞人中，有25個(gè)預(yù)測(cè)對(duì)了，15個(gè)預(yù)測(cè)錯(cuò)了。

接下來(lái)，我們就可以把真實(shí)值和模型預(yù)測(cè)值，通過(guò)閾值得到的分類(lèi)，填入到下表的混淆矩陣中：

混淆矩陣中，Positive表示正例，就是我們想要找出來(lái)的那個(gè)分類(lèi)，Negative表示負(fù)例。結(jié)合薅羊毛項(xiàng)目，我們要找的“壞人”就對(duì)應(yīng)了混淆矩陣的正例，“好人”對(duì)應(yīng)了負(fù)例。

上表中得到了以下4種情況：

TP（true positive）：true表示模型預(yù)測(cè)結(jié)果是正確的，positive表示模型預(yù)測(cè)結(jié)果為正例（壞人），實(shí)際也是正例（壞人），那么TP值就是預(yù)測(cè)正確的壞人數(shù)=25人
FP（false positive）：false表示模型預(yù)測(cè)結(jié)果是錯(cuò)誤的，positive表示模型預(yù)測(cè)結(jié)果為正例（壞人），實(shí)際上是負(fù)例（好人），那么FP值就是被誤判為壞人的好人數(shù)=15人（被誤傷、被誤判）
FN（false negative）：false表示模型預(yù)測(cè)結(jié)果是錯(cuò)誤的，negative表示模型預(yù)測(cè)結(jié)果為負(fù)例（好人），實(shí)際上是正例（壞人），那么FN值就是被誤判為好人的壞人數(shù)=總壞人數(shù)30-預(yù)測(cè)正確壞人數(shù)25=5人（漏網(wǎng)之魚(yú)）
TN（true negative）：true表示模型預(yù)測(cè)結(jié)果是正確的，negative表示模型預(yù)測(cè)結(jié)果為負(fù)例（好人），實(shí)際也是負(fù)例（好人），那么TN值就是預(yù)測(cè)正確的好人數(shù)=總好人數(shù)70-被誤傷的好人數(shù)15=55人

所以，T和F代表模型預(yù)測(cè)結(jié)果的對(duì)錯(cuò)，P和N代表模型預(yù)測(cè)結(jié)果是正例還是負(fù)例。

什么是B端产品经理？和C端产品经理有什么区别？

B端产品经理中的B是Business，商业的意思，B端产品经理首先就要理解这个职位的重要性，要设计出更适合这个项目需求的产品方案，B最终产品经理在日常工作中...

查看详情 >

理論上，我們期望模型的TP值盡可能大，同時(shí)FP值盡可能小，就是盡可能多的找出真壞人，同時(shí)盡可能少的誤傷好人。

以上就是混淆矩陣的簡(jiǎn)單介紹，我們會(huì)發(fā)現(xiàn)混淆矩陣中都是具體的數(shù)值，而數(shù)值是無(wú)法直接評(píng)估模型的好壞的，所以我們會(huì)在此基礎(chǔ)上，延伸出以比率來(lái)形容模型好壞的多項(xiàng)指標(biāo)。

二、混淆矩陣的評(píng)估指標(biāo)：準(zhǔn)確率、精確率、召回率、F1

為了更直觀的評(píng)估模型，我們基于混淆矩陣延伸出了以下指標(biāo)：
準(zhǔn)確率（Accuracy）：表示從全局的角度，模型分類(lèi)正確的比率。模型正確分類(lèi)人員（TP+TN）占全部人員（TP+TN+FP+FN）的比例，準(zhǔn)確率=（25+55）/（25+55+15+5）=80%
精確率（Precision）：表示模型預(yù)測(cè)精度的指標(biāo)。模型找出的總壞人數(shù)（TP+FP）中，真壞人數(shù)（TP）所占的比例，精確率=25/（25+15）=62.5%
召回率（Recall）：也叫查全率，是判斷模型預(yù)測(cè)廣度的指標(biāo)。模型找出的真壞人數(shù)（TP）占實(shí)際總壞人數(shù)（TP+FN）的比例，召回率=25/（25+5）=83.33%

準(zhǔn)確率可以從全局的角度描述模型正確分類(lèi)的能力，但在樣本數(shù)據(jù)不均衡的情況下，無(wú)法區(qū)分TP和TN的實(shí)際貢獻(xiàn)分別是多少，全局的準(zhǔn)確率并沒(méi)有很強(qiáng)的“說(shuō)服力”。

精確率用來(lái)描述模型識(shí)別的精確度，在掃臉、指紋識(shí)別等確定性要求較高的場(chǎng)景下，“寧缺毋濫”，可以側(cè)重考慮精確率的指標(biāo)。

召回率用來(lái)描述模型識(shí)別的廣度，在薅羊毛項(xiàng)目的場(chǎng)景下，我們就要求“寧可錯(cuò)殺一千，不可放過(guò)一個(gè)”，追求“除惡務(wù)盡”。

需要注意的是，精確率和召回率大概率是成反比的，想提升精確率，那么召回率就可能受影響，反之亦然。所以我們要結(jié)合具體的業(yè)務(wù)場(chǎng)景，找到兩個(gè)指標(biāo)的平衡點(diǎn)。

而F1值就是用來(lái)綜合反映精確率和召回率的指標(biāo)，F(xiàn)1=（2 x 精確率 x 召回率）/ （精確率 + 召回率），該值越大，說(shuō)明精確率和召回率的綜合表現(xiàn)越好。

三、構(gòu)建KS和AUC的基礎(chǔ)指標(biāo)：TPR、FPR

KS和AUC是分類(lèi)模型中常用的兩個(gè)綜合性指標(biāo)，計(jì)算它們依然需要依賴(lài)混淆矩陣的基礎(chǔ)指標(biāo)：TPR和FPR。

TPR（True Positive Rate）：也叫真正率、真陽(yáng)率、靈敏度（Sensitivity），用來(lái)評(píng)估模型正確預(yù)測(cè)的能力。也就是模型找到真壞人（TP）占實(shí)際總壞人數(shù)（TP+FN）的比例，即 TP/（TP+FN），細(xì)心的朋友可能會(huì)注意到，這個(gè)公式就是召回率的公式，所以TPR也可以叫做召回率。
FPR（False Positive Rate）：也叫假正率、假陽(yáng)率，用來(lái)評(píng)估模型誤傷好人的比率。也就是被模型誤傷的好人（FP）占實(shí)際總好人數(shù)（FP+TN）的比例，即FP/（FP+TN），也可以叫做誤傷率，更好理解一些。

四、繪制ROC曲線&計(jì)算AUC指標(biāo)

構(gòu)建模型的目的，肯定是期望盡可能多的找出真壞人，同時(shí)盡可能少的誤傷好人，也就是TPR越高越好、FPR越低越好。

ROC曲線就是用來(lái)表達(dá)TPR和FPR之間關(guān)系的曲線，接下來(lái)我們來(lái)看一下ROC曲線的繪制過(guò)程。

剛才得到混淆矩陣數(shù)據(jù)的時(shí)候，技術(shù)同學(xué)給了一個(gè)參考的閾值60分，我們根據(jù)閾值計(jì)算出了混淆矩陣的各項(xiàng)指標(biāo)。

假設(shè)我們沒(méi)有確定的閾值，我們可以每10分進(jìn)行分段（0、10、20、…100），逐一作為閾值，來(lái)分別計(jì)算TPR和FPR。那么情況大概有以下三類(lèi)

閾值為0分時(shí)，即所有人的分?jǐn)?shù)都超過(guò)閾值，所有人都被判斷為好人，此時(shí)沒(méi)有找到任何壞人，即TPR為0；沒(méi)有任何好人被誤判為壞人，所以FPR為0
閾值為100分時(shí)，所有人都被判斷為壞人，此時(shí)所有壞人全部落網(wǎng)，即TPR=1；所有好人全部被誤判為壞人，即FPR=1
閾值為0到100分之間的分?jǐn)?shù)時(shí)，每一個(gè)閾值都會(huì)得到對(duì)應(yīng)的TPR和FPR值，比如TPR=0.7，F(xiàn)PR=0.4

我們依次把閾值依次定位0、10、20，一直到100，就會(huì)得到一串TPR和FPR數(shù)據(jù)的集合，然后我們把FPR作為橫軸，TPR作為縱軸，把這些點(diǎn)在坐標(biāo)系中連起來(lái)，就可以得到一條ROC曲線：

圖中藍(lán)色的曲線就是ROC曲線，圖中的虛線是隨機(jī)線，隨機(jī)線上每個(gè)點(diǎn)TPR和FPR的值都是一樣的，和瞎猜的效果差不多，所以我們以隨機(jī)線為基準(zhǔn)，ROC曲線越貼近于隨機(jī)線說(shuō)明效果越差，越貼近于左上方，說(shuō)明效果越好，因?yàn)檫@意味著TPR更大，F(xiàn)PR更小。

我們可以把兩個(gè)ROC曲線放在一個(gè)坐標(biāo)系內(nèi)做比較，確實(shí)可以看出來(lái)哪個(gè)模型更好，但是圖像化的比較方式依然不夠直觀，所以我們需要想辦法將ROC曲線轉(zhuǎn)化成一個(gè)數(shù)字，方便溝通和比較。

這個(gè)值就是AUC指標(biāo)，AUC指標(biāo)其實(shí)就是ROC曲線右下方和橫坐標(biāo)軸閉合起來(lái)的面積大小，這個(gè)面積越大，意味著越靠近左上方，召回率越大且誤傷率越小，效果也越好。

五、KS指標(biāo)

KS曲線與ROC曲線非常相像，二者區(qū)別如下：

ROC曲線的橫軸與縱軸分別是混淆矩陣中的FPR與TPR。而線上的每一個(gè)點(diǎn)，都是在不同閾值下得到的FPR與TPR的集合
KS曲線就是把ROC曲線由原先的一條曲線拆解成了兩條曲線，原先ROC的橫軸（FPR）與縱軸（TPR）都在KS中變成了縱軸，而橫軸變成了不同的閾值

這樣我們就可以得到如下的KS曲線：

我們簡(jiǎn)單了解一下縱軸的兩個(gè)指標(biāo)：

靈敏度（Sensitivity），前面提到過(guò)，也就是TPR，對(duì)應(yīng)圖中的黃色曲線
特異性（Specificity），也稱(chēng)為真反例率(True Negative Rate,TNR)，是真反例占所有實(shí)際為反例的比例，其計(jì)算公式為: Specificity = TN / (TN + FP)，而FPR=FP/（FP+TN），所以FPR=1-Specificity，對(duì)應(yīng)圖中的藍(lán)色曲線

總的來(lái)說(shuō)，KS曲線是兩條線，其橫軸是閾值，縱軸是TPR與FPR。兩條曲線之間之間相距最遠(yuǎn)的地方對(duì)應(yīng)的閾值，就是最能劃分模型的閾值。

而KS值是MAX(TPR – FPR），即兩曲線相距最遠(yuǎn)的距離。

不同的產(chǎn)品，合適的KS值范圍都不一樣，需要結(jié)合實(shí)際情況去摸索。

一旦確定合適的KS值范圍之后，如果模型的KS值過(guò)低，說(shuō)明模型欠擬合，基本不可用，但KS值非常高也不一定是好事情，我們可能需要分析原因，判斷是否是因?yàn)閿?shù)據(jù)問(wèn)題導(dǎo)致的異常情況。

總結(jié)

本文介紹了分類(lèi)模型常用的評(píng)估指標(biāo)，讓大家對(duì)模型評(píng)估有了一個(gè)初步的概念。

下篇文章，我會(huì)詳細(xì)介紹回歸模型的評(píng)估指標(biāo)，敬請(qǐng)期待。

本文由 @AI小當(dāng)家原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載

題圖來(lái)自 Unsplash，基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

AI小當(dāng)家

學(xué)習(xí)和分享AI知識(shí)，目前專(zhuān)注于大模型領(lǐng)域，期待AGI的到來(lái)~

23篇作品 104608總閱讀量

如何系統(tǒng)思考，縱觀全局？

06-014701 瀏覽

讓消費(fèi)者選擇上癮的密碼？

12-073000 瀏覽

破解产品面试高频问题：一套破题思路助你一臂之力！

刚刚

我們用文心一言，做了張單曲

04-122793 瀏覽

國(guó)慶長(zhǎng)假返鄉(xiāng)，我發(fā)現(xiàn)了獨(dú)居老人直播間的“秘密”

10-072169 瀏覽

IPD（產(chǎn)品集成開(kāi)發(fā)）跟敏捷、DevOps一樣嗎？有什么區(qū)別？

10-111319 瀏覽

評(píng)論

啊慢

有一點(diǎn)沒(méi)懂，如何確定閾值？

最近來(lái)自遼寧回復(fù)
1. Σ(?產(chǎn)品科學(xué) 回復(fù)啊慢
  
  閾值是自己根據(jù)業(yè)務(wù)情況定的，比如你們可以自己定50分，那么模型預(yù)測(cè)結(jié)果為55分時(shí)，判斷為positive，但是如果你們定的60分為閾值，那同樣的預(yù)測(cè)結(jié)果就判斷為negative了。閾值到底定多少應(yīng)該可以通過(guò)計(jì)算不同閾值對(duì)模型結(jié)果準(zhǔn)確度的影響來(lái)反推出最合理的閾值。應(yīng)該是這個(gè)意思。
  
  最近來(lái)自浙江回復(fù)
2. Flew 回復(fù)啊慢
  
  現(xiàn)實(shí)中你可以直接知道這個(gè)人是好人還是壞人，但是在系統(tǒng)中系統(tǒng)不知道，系統(tǒng)只會(huì)判斷。
  根據(jù)算法對(duì)一個(gè)人的特征打分，0-100分，此時(shí)你要告訴系統(tǒng)究竟多少分是好人和壞人的分界線，但是你也不知道，你需要一套判斷依據(jù)定一個(gè)最優(yōu)解。
  判斷依據(jù)就是召回率（準(zhǔn)確率）盡量高并且誤殺率盡量小，這就是AUC（算法沒(méi)看懂）。
  你先拿0進(jìn)去試（高于0分就是壞人），計(jì)算AUC1；再拿0.1去試，計(jì)算AUC1；再拿0.2去試，計(jì)算AUC3……..找出一個(gè)最大的AUC，對(duì)應(yīng)的投入的值就是閾值。
  
  最近來(lái)自上海回復(fù)