AI產(chǎn)品經(jīng)理常用的模型評估指標介紹

0 評論 1741 瀏覽 8 收藏 26 分鐘

傳統(tǒng)的互聯(lián)網(wǎng)產(chǎn)品都已經(jīng)有很成熟的評估指標進行分析,但面對大模型此類新產(chǎn)品,我們如何評價一款產(chǎn)品的好壞?這篇文章,我們就來補充一下這些評估指標的基礎知識。

一、常用的模型評估指標類型

在評估模型時,我們一般會用到模型的性能指標、模型的穩(wěn)定性指標、業(yè)務相關指標。另外根據(jù)模型應用的不同場景,我們可能還會用到可解釋性指標、時效性指標、公平性指標、資源利用指標、魯棒性指標等。本文將重點介紹模型的性能指標、模型的穩(wěn)定性指標,其它類型指標感興趣的可自行深入了解。

1. 性能指標

對于分類問題 ,常用的模型評估性能指標:準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1 值、AUC值、KS值。

對于回歸問題,常用的模型評估性能指標:均方誤差(Mean Squared Error,MSE)、均方根誤差(Root Mean Squared Error,RMSE)、MAE(平均絕對誤差)、R2 系數(shù)。

2. 穩(wěn)定性指標

模型的穩(wěn)定性是指模型在不同的數(shù)據(jù)集(如訓練集、驗證集、測試集)、不同的環(huán)境條件(如不同的硬件、軟件平臺)或者隨著時間的推移,其性能表現(xiàn)保持相對一致的特性。常用的穩(wěn)定性指標有PSI指標。

3. 業(yè)務指標

業(yè)務指標根據(jù)模型解決不同的業(yè)務問題而不同,比如在人工智能客服中,常用到的業(yè)務指標有智能客服的獨立接待率(沒有轉人工情況下)。

4. 可解釋性指標

衡量模型的可解釋程度,即能夠讓用戶理解模型是如何做出決策的能力。例如,在一些對決策過程透明度要求較高的領域,如醫(yī)療診斷、金融風險評估等,模型的可解釋性至關重要。常用的可解釋性指標有特征重要性、部分依賴圖等。

5. 時效性指標

評估模型的響應速度和更新頻率是否滿足實際應用的時間要求。在一些實時監(jiān)控、在線交易等場景中,模型需要快速做出反應并且及時更新以適應數(shù)據(jù)的變化。常用的指標如推理時間(指模型從輸入數(shù)據(jù)到輸出預測結果所花費的時間)。

6. 公平性指標

用于評估模型在不同群體(如不同性別、種族、年齡等)之間是否存在偏差。確保模型不會對某些群體產(chǎn)生不公平的對待,尤其是在涉及到招聘、司法、信貸分配等敏感領域。常用的指標如統(tǒng)計均等差異(計算不同群體(如男性和女性)獲得正類預測結果的概率差異)。

7. 資源利用指標

考慮模型在運行過程中對硬件資源(如 CPU、GPU、內存等)的消耗情況。在大規(guī)模部署模型或者資源受限的環(huán)境中,資源利用效率是一個重要的評估因素。常見的指標如內存占用。

8. 魯棒性指標

魯棒性是指模型在面對數(shù)據(jù)的微小擾動、噪聲干擾、對抗攻擊或者分布變化等異常情況時,仍然能夠保持良好性能的能力。一個魯棒性強的模型在各種復雜和不確定的實際應用場景中更可靠。常用的指標如對抗攻擊的魯棒性、數(shù)據(jù)噪聲下的魯棒性。

二、模型評估指標的用法、應用場景、優(yōu)缺點

1. 準確率(Accuracy)

a. 用法

  • 準確率是分類問題中最常用的指標之一,它表示被正確分類的樣本數(shù)占總樣本數(shù)的比例。
  • 計算公式為:準確率 = (正確分類的樣本數(shù) / 總樣本數(shù))× 100%。

b. 合理值區(qū)間

準確率的取值范圍在 0% 到 100% 之間。通常來說,準確率越高越好,但具體的合理值取決于問題的難度和應用場景。

c. 應用場景

適用于各類分類問題,尤其是在類別分布比較均衡的情況下。例如,在識別手寫數(shù)字的任務中,可以使用準確率來評估模型的性能。

d. 優(yōu)缺點

  • 優(yōu)點:直觀易懂,計算簡單。
  • 缺點:在類別不平衡的情況下,準確率可能會產(chǎn)生誤導。例如,如果一個數(shù)據(jù)集中 99% 的樣本屬于一個類別,那么一個總是預測這個多數(shù)類別的模型也能獲得 99% 的準確率,但實際上這個模型可能沒有任何實際價值。

2. 精確率(Precision)和召回率(Recall)

a. 用法

  • 精確率也稱為查準率,它表示在所有被預測為正類的樣本中,真正的正類樣本所占的比例。
  • 召回率也稱為查全率,它表示在所有實際的正類樣本中,被正確預測為正類的樣本所占的比例。計算公式為:精確率 = 預測中真正的正類樣本數(shù) / 預測為正類樣本數(shù)
  • 召回率 = 預測中真正的正類樣本數(shù) / 樣本中的正類樣本數(shù)

b. 合理值區(qū)間

精確率和召回率的取值范圍也在 0% 到 100% 之間。一般來說,需要根據(jù)具體問題來權衡精確率和召回率的重要性,沒有固定的合理值區(qū)間。

c. 應用場景

在信息檢索、疾病診斷等場景中非常重要。例如,在垃圾郵件過濾中,需要在保證較高精確率的同時,盡可能提高召回率,以確保不會錯過重要的郵件。這里需要注意要分清業(yè)務目標是偏向于召回率還是精確率。因為實際場景中兩者的高取值往往不可兼得。

d. 優(yōu)缺點

  • 優(yōu)點:能夠更細致地評估模型在不同方面的性能,特別是在處理類別不平衡問題時比準確率更有價值。
  • 缺點:單獨使用精確率或召回率可能會忽略另一方面的性能,需要結合起來綜合考慮。

3. F1 值

a. 用法

  • F1 值是精確率和召回率的調和平均數(shù),它綜合考慮了精確率和召回率的平衡。
  • 計算公式為:F1 = 2 × 精確率 × 召回率 / (精確率 + 召回率)。

b. 合理值區(qū)間

同精確率和召回率一樣,F(xiàn)1 值的取值范圍在 0% 到 100% 之間。一般來說,F(xiàn)1 值越高越好。

c. 應用場景

常用于需要同時考慮精確率和召回率的場景,作為一個綜合指標來評估模型性能。

d. 優(yōu)缺點

  • 優(yōu)點:平衡了精確率和召回率,能夠更全面地反映模型的性能。
  • 缺點:仍然不能完全涵蓋所有的性能方面,可能在某些特殊情況下不夠準確。

4. AUC值

a. 定義及計算方法

定義:AUC 值衡量的是分類器區(qū)分正例和負例的能力。它通過繪制不同閾值下的真正例率(True Positive Rate,TPR)與假正例率(False Positive Rate,F(xiàn)PR)的關系曲線,計算曲線下的面積得到。

計算公式:AUC 的計算通常使用積分的方法,由于 ROC 曲線通常是階梯狀的,實際計算中可以通過近似求和的方式進行。對于一系列不同閾值下的 TPR 和 FPR 值,可以通過梯形法則近似計算 AUC 值。

b. 用法

  • 評估分類器性能:AUC 值越大,說明分類器在不同閾值下區(qū)分正例和負例的能力越強。一般來說,AUC 值在 0.5 到 1 之間,隨機猜測的分類器的 AUC 值為 0.5,完美分類器的 AUC 值為 1。
  • 比較不同分類器:可以通過比較不同分類器的 AUC 值來選擇性能更好的模型。在實際應用中,常常會嘗試多種不同的分類算法或調整模型參數(shù),然后比較它們的 AUC 值來確定最佳的模型。
  • 確定最佳閾值:通過觀察 ROC 曲線和 AUC 值,可以幫助確定分類器的最佳閾值。在不同的應用場景中,可能需要根據(jù)具體的業(yè)務需求來平衡真正例率和假正例率,AUC 值可以為選擇合適的閾值提供參考。

c. 合理值區(qū)間

AUC 值的合理值區(qū)間為 0.5 到 1。越接近 1 表示分類器性能越好,0.5 表示分類器性能與隨機猜測相當。一般來說,AUC 值大于 0.7 被認為是一個較好的分類器性能,具體的合理值還需要根據(jù)具體問題和應用場景來確定。

d. 應用場景

  • 醫(yī)學診斷:在疾病診斷中,評估不同的診斷方法或生物標志物的分類性能。例如,通過比較不同的血液檢測指標對某種疾病的診斷能力,選擇 AUC 值較高的指標用于臨床診斷。
  • 金融風險評估:用于評估信用風險模型、欺詐檢測模型等的性能。例如,在信用評分中,通過 AUC 值來衡量模型區(qū)分違約客戶和正常客戶的能力,以降低信用風險。
  • 圖像識別:在圖像分類任務中,比較不同的深度學習模型或算法的性能。AUC 值可以作為一個客觀的指標來評估模型對不同類別的區(qū)分能力,幫助選擇最佳的模型架構和參數(shù)。

e. 優(yōu)缺點

優(yōu)點:

  • 不受類別不平衡的影響:與準確率等指標不同,AUC 值對正負例樣本比例的變化不敏感,特別適用于類別不平衡的問題。
  • 綜合衡量分類性能:AUC 值考慮了不同閾值下的分類性能,能夠綜合反映分類器在各種情況下區(qū)分正例和負例的能力。
  • 直觀易懂:AUC 值的含義比較直觀,容易理解和解釋,便于與業(yè)務人員溝通和決策。

缺點:

  • 計算相對復雜:AUC 值的計算需要繪制 ROC 曲線,對于大規(guī)模數(shù)據(jù)集或復雜模型,計算可能比較耗時。
  • 不能直接反映具體的錯誤率:AUC 值只能反映分類器的整體性能,不能直接給出具體的錯誤率或準確率等指標,在某些情況下可能需要結合其他指標進行綜合評估。

5. KS值

a. 用法

計算 KS 值通常需要將樣本按照預測為正例的概率從高到低排序,然后分別計算每個概率分位點上的累計正例占比和累計負例占比,兩者之差的最大值即為 KS 值。

KS 值反映了模型對正例和負例的區(qū)分程度,值越大表示模型的區(qū)分能力越強。

b. 合理值區(qū)間

一般來說,KS 值在 0.2 以下表示模型區(qū)分能力較弱;0.2 – 0.4 之間表示模型有一定區(qū)分能力;0.4 以上表示模型區(qū)分能力較強。但具體的合理值區(qū)間會因不同的業(yè)務場景和數(shù)據(jù)特點而有所差異。

c. 應用場景

  • 信用評分:在金融領域,用于評估信用風險模型對違約客戶和正??蛻舻膮^(qū)分能力。通過 KS 值可以確定模型在不同風險等級上的區(qū)分效果,幫助金融機構制定合理的信貸政策。
  • 欺詐檢測:在保險、電商等行業(yè),用于檢測欺詐行為。KS 值可以衡量模型對欺詐交易和正常交易的區(qū)分程度,提高欺詐檢測的準確性。
  • 營銷響應預測:在市場營銷中,預測客戶對營銷活動的響應概率。KS 值可以評估模型對響應客戶和非響應客戶的區(qū)分能力,優(yōu)化營銷資源的分配。

d. 優(yōu)缺點

優(yōu)點:

  • 直觀反映模型區(qū)分能力:KS 值能夠直觀地顯示模型對正例和負例的區(qū)分程度,易于理解和解釋。
  • 不受樣本比例影響:與準確率等指標不同,KS 值不受正負例樣本比例的影響,適用于不平衡數(shù)據(jù)集。
  • 可用于選擇最優(yōu)模型:通過比較不同模型的 KS 值,可以選擇區(qū)分能力最強的模型。

缺點:

  • 不能全面評估模型性能:KS 值只關注模型的區(qū)分能力,不能反映模型的準確性、穩(wěn)定性等其他方面的性能。
  • 對閾值敏感:KS 值的計算依賴于閾值的選擇,不同的閾值可能會導致不同的 KS 值,需要謹慎選擇閾值。
  • 不能直接用于決策:KS 值只是一個評估指標,不能直接用于業(yè)務決策,需要結合實際業(yè)務情況進行綜合考慮。

6. 均方誤差(Mean Squared Error,MSE)和均方根誤差(Root Mean Squared Error,RMSE)

a. 用法

這兩個指標主要用于回歸問題,衡量模型預測值與真實值之間的差異。

MSE 是預測值與真實值之差的平方的平均值。RMSE 是 MSE 的平方根。

計算公式為:MSE = Σ(預測值 – 真實值)^2 / 樣本數(shù);RMSE = √MSE。

b. 合理值區(qū)間

MSE 和 RMSE 的值越小越好,沒有固定的合理值區(qū)間,具體取決于問題的規(guī)模和數(shù)據(jù)的特性。

c. 應用場景

在房價預測、銷售預測等回歸問題中廣泛使用。

d. 優(yōu)缺點

優(yōu)點:能夠直觀地反映預測值與真實值之間的差異程度。

缺點:對異常值比較敏感,可能會因為少數(shù)異常值而導致指標值大幅上升。

7. 平均絕對誤差(Mean Absolute Error,MAE)

a. 用法

MAE 也是用于回歸問題的指標,它計算預測值與真實值之差的絕對值的平均值。

計算公式為:MAE = Σ| 預測值 – 真實值 | / 樣本數(shù)。

b. 合理值區(qū)間

同 MSE 和 RMSE 一樣,MAE 的值越小越好,具體合理值取決于問題的具體情況。

c. 應用場景

常用于回歸問題,與 MSE 和 RMSE 一起作為評估模型性能的指標。

d. 優(yōu)缺點

優(yōu)點:對異常值相對不那么敏感,能夠更穩(wěn)健地反映模型的平均誤差。

缺點:可能不如 MSE 和 RMSE 那樣能突出較大的誤差。

8. R2 系數(shù)(Coefficient of Determination)

a. 用法

R2 系數(shù)用于衡量回歸模型對數(shù)據(jù)的擬合程度。它表示模型解釋的方差占總方差的比例。

計算公式為:R2 = 1 – Σ(真實值 – 預測值)^2 / Σ(真實值 – 平均值)^2。

b. 合理值區(qū)間

R2 的取值范圍在 0% 到 100% 之間,越接近 100% 表示模型擬合越好。

c. 應用場景

在回歸分析中,用于評估模型的整體性能和解釋能力。

d. 優(yōu)缺點

優(yōu)點:能夠直觀地反映模型對數(shù)據(jù)的擬合程度,解釋性較強。

缺點:可能會受到數(shù)據(jù)量和特征選擇的影響,在某些情況下可能會出現(xiàn)過擬合導致 R2 值過高的情況。

9. PSI指標

a. 用法

首先將數(shù)據(jù)分為兩組,通常是訓練集和驗證集(或不同時間段的數(shù)據(jù))。

對于每個分箱區(qū)間(可以根據(jù)特征值進行等頻分箱等),計算該區(qū)間內訓練集樣本的占比和驗證集樣本的占比。

然后計算每個分箱區(qū)間的 PSI 值,公式為:PSI = sum ((實際占比 – 預期占比) * ln (實際占比 / 預期占比))。

最后將各個分箱區(qū)間的 PSI 值相加得到總體的 PSI 值。

PSI 值反映了兩個數(shù)據(jù)集在各個分箱區(qū)間上的分布差異程度。如果 PSI 值接近 0,說明兩個數(shù)據(jù)集的分布相似,模型比較穩(wěn)定;如果 PSI 值較大,則說明兩個數(shù)據(jù)集的分布有較大差異,模型可能不穩(wěn)定。

b. 合理值區(qū)間

一般認為 PSI 值在 0.1 以下表示模型穩(wěn)定性很高;0.1 – 0.25 表示模型有一定程度的變化,但仍相對穩(wěn)定;超過 0.25 則表示模型穩(wěn)定性較差,需要進一步分析和調整。

c. 應用場景

模型監(jiān)控

在模型上線后,持續(xù)監(jiān)控模型的穩(wěn)定性。通過比較不同時間段的數(shù)據(jù)在模型上的表現(xiàn),計算 PSI 值來判斷模型是否隨著時間發(fā)生了較大變化。如果 PSI 值超出合理范圍,可能需要重新評估和調整模型。

例如,在金融領域的信用評分模型中,每月對新數(shù)據(jù)和歷史數(shù)據(jù)進行 PSI 計算,以確保模型在不同月份的穩(wěn)定性。

變量篩選

在特征工程中,可以計算每個特征的 PSI 值,來判斷該特征在不同數(shù)據(jù)集上的穩(wěn)定性。如果某個特征的 PSI 值較大,說明該特征的分布不穩(wěn)定,可能不適合作為模型的輸入變量。

例如,在電商銷售預測模型中,對不同商品屬性特征進行 PSI 計算,篩選出穩(wěn)定性較高的特征用于建模。

數(shù)據(jù)漂移檢測

檢測數(shù)據(jù)是否發(fā)生了漂移,即數(shù)據(jù)的分布是否發(fā)生了變化。如果數(shù)據(jù)發(fā)生了漂移,可能會影響模型的性能。通過計算 PSI 值可以及時發(fā)現(xiàn)數(shù)據(jù)漂移現(xiàn)象,采取相應的措施,如重新訓練模型或調整數(shù)據(jù)預處理方法。

例如,在工業(yè)生產(chǎn)過程中,對傳感器數(shù)據(jù)進行 PSI 計算,檢測生產(chǎn)過程是否發(fā)生了變化,以便及時調整生產(chǎn)參數(shù)。

d. 優(yōu)缺點

優(yōu)點:

  • 直觀反映模型或數(shù)據(jù)的穩(wěn)定性:PSI 值能夠清晰地量化兩個數(shù)據(jù)集之間的分布差異,幫助用戶快速判斷模型或數(shù)據(jù)的穩(wěn)定性。
  • 易于計算和解釋:PSI 的計算方法相對簡單,結果易于理解,不需要復雜的統(tǒng)計知識。
  • 可用于不同類型的數(shù)據(jù):適用于各種類型的數(shù)據(jù),包括連續(xù)變量和離散變量。

缺點:

  • 對分箱敏感:PSI 值的計算結果受到分箱方法和分箱數(shù)量的影響。不同的分箱方式可能會導致不同的 PSI 值,需要謹慎選擇分箱方法。
  • 不能完全反映模型性能:PSI 值主要關注數(shù)據(jù)分布的變化,不能全面反映模型的準確性、召回率等性能指標。在某些情況下,即使 PSI 值較低,模型的性能也可能不理想。
  • 不能定位問題根源:當 PSI 值較大時,只能表明模型或數(shù)據(jù)存在問題,但不能直接指出問題的具體原因。需要進一步分析數(shù)據(jù)和模型,才能確定問題的根源。

10. IV指標

IV(Information Value)即信息價值,是在信用評分、風險評估等領域常用的評估指標。

a. 定義及計算方法

IV 值衡量了某個特征對目標變量的預測能力。其計算公式如下:

b. 用法

特征篩選:IV 值可以幫助確定哪些特征對目標變量有較強的預測能力。通常,IV 值大于一定閾值(如 0.02 或 0.1,具體根據(jù)實際情況確定)的特征被認為是有價值的,可以保留用于建模;IV 值較低的特征可能對模型的貢獻較小,可以考慮刪除。

比較不同特征的重要性:通過比較各個特征的 IV 值,可以判斷哪些特征在預測目標變量時更為重要。IV 值越高,說明該特征與目標變量的關聯(lián)越強。

c. 合理值區(qū)間

一般來說,IV 值的范圍在 0 到無窮大之間。

當 IV 值接近 0 時,表示該特征幾乎沒有預測能力。

當 IV 值在 0.02 到 0.1 之間時,特征具有一定的預測能力。

當 IV 值大于 0.3 時,特征通常具有很強的預測能力,但也可能存在過擬合的風險。

d. 應用場景

  • 信用評分模型:在構建信用評分模型時,用于篩選對客戶信用風險有顯著影響的特征,如收入、負債比、信用歷史等。通過計算這些特征的 IV 值,可以確定哪些特征對客戶違約風險的預測能力最強,從而提高模型的準確性。
  • 營銷響應模型:在營銷活動中,預測客戶對營銷活動的響應概率。例如,通過分析客戶的年齡、性別、消費習慣等特征的 IV 值,可以確定哪些客戶特征與營銷響應有較強的關聯(lián),從而有針對性地進行營銷活動,提高營銷效果。
  • 風險評估:在金融、保險等領域,用于評估客戶的風險水平。例如,在保險業(yè)務中,通過分析客戶的職業(yè)、健康狀況、駕駛記錄等特征的 IV 值,可以確定哪些因素對客戶的理賠風險有較大影響,從而制定合理的保險費率。

e. 優(yōu)缺點

優(yōu)點:

  • 能夠有效地衡量特征的預測能力,為特征篩選和模型構建提供重要依據(jù)。
  • 計算相對簡單,易于理解和應用。
  • 可以比較不同特征之間的重要性,幫助建模者聚焦于關鍵特征。

缺點:

  • IV 值的計算依賴于數(shù)據(jù)的分組,不同的分組方式可能會導致不同的 IV 值。
  • 對于極端值或異常值較為敏感,可能會影響 IV 值的準確性。
  • IV 值只能衡量單個特征與目標變量的關聯(lián),不能考慮特征之間的交互作用。

11. 指標總結

以上模型介紹的指標總結如下:

作者:厚謙,公眾號:小王子與月季

本文由@厚謙 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!