AI模型穩(wěn)定性評估指標(biāo):PSI的原理和計算

2 評論 4306 瀏覽 13 收藏 6 分鐘
🔗 技术知识、行业知识、业务知识等,都是B端产品经理需要了解和掌握的领域相关的知识,有助于进行产品方案设计和评估

在構(gòu)建AI模型的過程中,需要處理很多模型和算法。之前我們介紹了如何評估分類模型和回歸模型的性能,這篇文章,我們介紹一下常用的模型穩(wěn)定性指標(biāo)———客群穩(wěn)定性指標(biāo)(PSI)。

前面兩篇文章分別介紹了如何評估分類模型和回歸模型的性能。

模型上線前的評估,除了前文提到的模型性能之外,還需要考慮模型的穩(wěn)定性,只有穩(wěn)定性足夠好的模型才能達(dá)到上線的標(biāo)準(zhǔn)。

本文就來介紹一下常用的模型穩(wěn)定性指標(biāo)———客群穩(wěn)定性指標(biāo)(PSI)。

一、什么是PSI?

模型構(gòu)建時,我們以歷史數(shù)據(jù)作為樣本,以歷史數(shù)據(jù)的表現(xiàn)作為模型評估的依據(jù)。

但實際上,由于客群變化(不同時間段給到模型的樣本數(shù)據(jù)會有變化)或數(shù)據(jù)源采集變化等因素影響,實際樣本分布也會不可避免的發(fā)生偏移,從而導(dǎo)致模型不穩(wěn)定。

如果模型不穩(wěn)定,那么我們根據(jù)歷史數(shù)據(jù)樣本得到的“合適”閾值,去給實際數(shù)據(jù)樣本做評判,就會直接影響模型結(jié)果的合理性。

所謂PSI指標(biāo)就是客群穩(wěn)定性指標(biāo)(Population Stability Index),通過該指標(biāo),可以得到不同時間段的樣本下,模型在各分?jǐn)?shù)段分布的穩(wěn)定性。

二、如何計算PSI?

我們先來看一下PSI的計算公式:

PSI(Population Stability Index)= SUM((實際占比-預(yù)期占比) * ln(實際占比/預(yù)期占比))

從公式中可以看到,想要計算穩(wěn)定性,就需要有一個基準(zhǔn)數(shù)據(jù)(預(yù)期占比)作為參照,然后用實際數(shù)據(jù)和基準(zhǔn)數(shù)據(jù)就可以計算PSI值。

計算PSI值一般分為以下三步:

  1. 分箱:分別將模型輸出的預(yù)期分布和實際分布進(jìn)行分箱操作。有等頻分箱和等距分箱兩種方式。
  2. 計算分布:分別計算落在各區(qū)間的人數(shù)占比,分別得到每個區(qū)間的預(yù)期占比和時機(jī)占比數(shù)值。
  3. 計算PSI值:根據(jù)公式 (實際占比-預(yù)期占比) * ln(實際占比/預(yù)期占比) 計算每個區(qū)間的PSI值,再求和,就可以得到最終的PSI值。

三、判斷標(biāo)準(zhǔn)

PSI表示的是實際占比和預(yù)期占比之間的差距,所以PSI值越小,說明實際占比和預(yù)期占比的差異也比較小,代表模型越穩(wěn)定。

我們一般會這么定義模型的穩(wěn)定性:

  • 若PSI<0.1,穩(wěn)定性良好,說明樣本分布僅有微小變化,模型很穩(wěn)定;
  • 若PSI在0.1~0.25之間,穩(wěn)定性一般,說明樣本分布有變化,需要根據(jù)實際情況調(diào)整評分切點或調(diào)整模型;
  • 若PSI>0.25,穩(wěn)定性較差,說明樣本分布有顯著變化,模型不穩(wěn)定,必須調(diào)整模型。

四、局限性

但是我們也不能迷信PSI指標(biāo),PSI只是一個粗糙的指標(biāo),有它的局限性,嚴(yán)重受制于數(shù)據(jù)質(zhì)量、樣本代表性和分檔數(shù)量。

  • 數(shù)據(jù)質(zhì)量:當(dāng)PSI指標(biāo)表明模型不穩(wěn)定時,首先要確定數(shù)據(jù)是否存在問題,比如數(shù)據(jù)是否正常提供、接口是否正常工作、網(wǎng)關(guān)數(shù)據(jù)傳輸過程是否正常、加工過程是否遭到數(shù)據(jù)污染或邏輯上有疏忽遺漏等。
  • 樣本代表性:既要確保選取的樣本數(shù)量足夠反應(yīng)總體數(shù)據(jù)的信息,又要確保選取的樣本結(jié)構(gòu)和總體數(shù)據(jù)的結(jié)構(gòu)一致(分層抽樣)
  • 分檔數(shù)量和方式:不同的分組數(shù)和分組方式也會對PSI值有小幅的影響

五、總結(jié)

本文我們介紹了如何使用PSI指標(biāo)評估模型的穩(wěn)定性,模型穩(wěn)定性是判斷模型是否可用的一個非常重要的條件,雖然我們實際上不需要手動計算PSI值,但通過計算過程我們可以更深入的理解其原理。

至此,我們用三篇文章分別講述了分類模型性能評估、回歸模型性能評估和模型穩(wěn)定評估的指標(biāo)和計算方法,希望對大家有所幫助。

接下來,我們開始進(jìn)入AI算法大篇章的學(xué)習(xí),由于計劃分享的算法較多,我會在算法篇適當(dāng)增加更新的頻率,爭取在一個月內(nèi)完成算法相關(guān)的文章,敬請期待。

本文由 @AI小當(dāng)家 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. PSI適用于什么類型的模型?

    來自遼寧 回復(fù)
    1. 感覺像是銀行的風(fēng)控模型

      來自江蘇 回復(fù)
专题
14135人已学习14篇文章
在很多产品中,搜索都是其中比较基础且很重要的一个功能。搜索的设计、逻辑、交互等问题也是需要特别注意,本专题的文章分享了电商搜索功能的设计指南。
专题
34079人已学习17篇文章
让我们来扒一扒跨境电商的风险和机遇|从业者必看
专题
16189人已学习13篇文章
在互联网时代,把网站的服务封装成一系列计算机易识别的数据接口开放出去,供第三方开发者使用,这种行为就叫做Open API。 而提供开放API的平台本身就被称为开放平台。本专题的文章分享了开放平台的搭建思路。
专题
39693人已学习26篇文章
近年来“物联网”的势头正足,5G网络宣告展开,未来的浪潮中一定会有“语音交互产品”的一席之地。
专题
34957人已学习13篇文章
为了给用户提供更好的体验,你需要一套合理的推送策略。
专题
15144人已学习12篇文章
用户故事在软件开发过程中被作为描述需求的一种表达形式,本专题的文章分享了如何讲好用户故事。