數(shù)據(jù)漂移(Data Drift):AI+產(chǎn)品的隱形風(fēng)險

0 評論 1633 瀏覽 2 收藏 8 分鐘
🔗 产品经理专业技能指的是:需求分析、数据分析、竞品分析、商业分析、行业分析、产品设计、版本管理、用户调研等。

在AI+產(chǎn)品的開發(fā)中,數(shù)據(jù)漂移(Data Drift)因其隱蔽性和普遍性,成為一個繞不開的話題。這篇文章就來聊聊關(guān)于數(shù)據(jù)漂移的特點(diǎn)、影響和應(yīng)對措施。

先來看一個案例:產(chǎn)品經(jīng)理小明,被公司要求上線一個AI客服問答的功能。這是他第一次接觸AI類的產(chǎn)品開發(fā),小明根據(jù)以往產(chǎn)品開發(fā)的經(jīng)驗(yàn),設(shè)計(jì)功能、與開發(fā)團(tuán)隊(duì)對接、驗(yàn)收通過之后,成功為公司上線了能回答客戶常見問題的AI客服。

但是上線沒多久,出乎小明意料的情況發(fā)生了:越來越多的用戶開始抱怨這個AI客服的回答不準(zhǔn)確,甚至有時完全答非所問。小明非常驚訝:明明模型和產(chǎn)品設(shè)計(jì)都沒有發(fā)生變化,為什么上線前非?!奥斆鳌薄Υ鹑缌鞯拇笳Z言模型,上了線之后就變得“遲鈍”了呢?

這涉及到我們今天要討論的主題:數(shù)據(jù)漂移(Data Drift)

一、數(shù)據(jù)漂移:AI產(chǎn)品“獨(dú)一份”

什么是數(shù)據(jù)漂移(Data Drift)?

從機(jī)器學(xué)習(xí)開始,數(shù)據(jù)漂移的現(xiàn)象就為研究者發(fā)現(xiàn)。它指的是在AI模型訓(xùn)練時,(隨著時間的變化)訓(xùn)練時的數(shù)據(jù)和實(shí)際應(yīng)用場景中的新數(shù)據(jù)之間產(chǎn)生了顯著變化,而且這種變化會導(dǎo)致模型性能下降,表現(xiàn)為輸出的準(zhǔn)確性下降、相關(guān)性下降或預(yù)測效果的減弱。

數(shù)據(jù)漂移通常會表現(xiàn)為兩種形式:特征漂移和目標(biāo)漂移。

  • 特征漂移(Feature Drift)指的是模型輸入數(shù)據(jù)的統(tǒng)計(jì)特性發(fā)生變化。比如,某個字段的數(shù)值分布變了,或者輸入數(shù)據(jù)的結(jié)構(gòu)發(fā)生了變化。比如零售行業(yè)中某AI推薦系統(tǒng)在假期期間表現(xiàn)下降,原因是用戶在假日中的行為習(xí)慣(新數(shù)據(jù))和他們的日常購物習(xí)慣(訓(xùn)練數(shù)據(jù))發(fā)生了明顯變化。又比如,企業(yè)內(nèi)部RAG模型使用的知識庫沒有隨著業(yè)務(wù)更新而更新,導(dǎo)致生成的答案失去時效性和準(zhǔn)確性,等等,這種都屬于數(shù)據(jù)的特征漂移。
  • 目標(biāo)漂移(Label Drift)指的是模型預(yù)測目標(biāo)本身的定義或含義發(fā)生變化。比如某保險公司AI客服在新政策推出后無法準(zhǔn)確回答相關(guān)問題,因?yàn)橛脩舻膯栴}和政策的重點(diǎn)發(fā)生了變化。又比如,情感分析模型在社會熱點(diǎn)事件期間表現(xiàn)不佳,因?yàn)椤胺e極”或“消極”評論的語言風(fēng)格發(fā)生了變化。

數(shù)據(jù)漂移在不同的行業(yè)中表現(xiàn)不同,但它們的共同點(diǎn)都會影響產(chǎn)品的準(zhǔn)確性和用戶體驗(yàn)。

回到上面產(chǎn)品經(jīng)理小明的案例,由于小明上線前所采用的用戶提問訓(xùn)練集(訓(xùn)練數(shù)據(jù))比較老舊,并沒有覆蓋真實(shí)用戶的所有問題類型,所以才導(dǎo)致訓(xùn)練集和上線后真實(shí)用戶提問(新數(shù)據(jù))之間存在明顯的差異。這就是一個典型的由特征漂移引發(fā)的問題。

數(shù)據(jù)漂移還有以下三種特點(diǎn),讓人不得不防:

  1. 不確定:AI模型依賴數(shù)據(jù)“學(xué)習(xí)”,而數(shù)據(jù)的變化會直接改變模型的有效性。傳統(tǒng)互聯(lián)網(wǎng)產(chǎn)品中,邏輯和功能是固定的,而AI產(chǎn)品卻需要應(yīng)對變化。
  2. 隱蔽:通常需要通過一段時間監(jiān)測或用戶反饋才能間接發(fā)現(xiàn)。
  3. 普遍:幾乎所有涉及AI的應(yīng)用——從客服機(jī)器人到預(yù)測分析——都可能受到數(shù)據(jù)漂移的影響。

二、產(chǎn)品經(jīng)理能做什么?

既然數(shù)據(jù)漂移普遍又隱蔽地存在于各類AI產(chǎn)品之中。那么,產(chǎn)品經(jīng)理在面對數(shù)據(jù)漂移時,能夠做什么呢?

  1. 建立高效的用戶反饋機(jī)制:前面提到“數(shù)據(jù)漂移”的一個重要特點(diǎn)就是“隱蔽”。如果我們在產(chǎn)品上線后沒有有效的手段對用戶的使用情況進(jìn)行跟進(jìn)和反饋,就很有可能錯失調(diào)整的最佳時機(jī)。所以,想辦法及時獲取真實(shí)用戶的使用信息很重要。比如設(shè)計(jì)反饋按鈕,收集“無關(guān)”或“不準(zhǔn)確”的問題;或者設(shè)定并持續(xù)跟進(jìn)體驗(yàn)指標(biāo)(如回答準(zhǔn)確率、用戶滿意度等),都是不錯的方式。
  2. 建立知識更新的規(guī)則:和技術(shù)/業(yè)務(wù)團(tuán)隊(duì)規(guī)定知識庫的更新頻率和方式,確保知識庫的時效性。比如,讓技術(shù)團(tuán)隊(duì)通過一定的技術(shù)手段自動同步企業(yè)知識庫,確保RAG模型能實(shí)時檢索最新信息;或者與支持內(nèi)容的團(tuán)隊(duì)約定好更新知識庫的周期。
  3. 周期性重新訓(xùn)練模型:當(dāng)然,最直接改善數(shù)據(jù)漂移的方法自然是定期更新數(shù)據(jù)集并優(yōu)化模型。不過這通常需要公司有足夠的算法支持的資源。如果沒有的話,做到第1、2點(diǎn)也能很大程度改善數(shù)據(jù)漂移的問題。

三、反思

我們團(tuán)隊(duì)在剛剛接觸AI產(chǎn)品之初,也倍受“數(shù)據(jù)漂移”的困擾。不過研究和處理這個技術(shù)現(xiàn)象的過程,也讓我們對如何做好AI產(chǎn)品有了更多的反思,總結(jié)并分享如下:

1. 接受AI產(chǎn)品的不確定性

和傳統(tǒng)互聯(lián)網(wǎng)產(chǎn)品相比,AI產(chǎn)品的動態(tài)變化和不確定性都要高得多,往往在上線需要持續(xù)優(yōu)化并適應(yīng)動態(tài)數(shù)據(jù)環(huán)境。產(chǎn)品經(jīng)理需要學(xué)會面對和管理這種不確定性。

2. 破除“上線即完成”的行為惰性

其實(shí),無論是互聯(lián)網(wǎng)產(chǎn)品還是AI產(chǎn)品,“上線”都應(yīng)該只是起點(diǎn),而非終點(diǎn)。尤其是AI產(chǎn)品中,運(yùn)營迭代的重要性不言而喻。持續(xù)地做好用戶數(shù)據(jù)的監(jiān)測、反饋機(jī)制以及優(yōu)化要貫穿于整個產(chǎn)品的生命周期之中。

3. 產(chǎn)品經(jīng)理是一個跨職能、高延展的崗位

數(shù)據(jù)漂移的解決并不只是有技術(shù)改造一個方式,業(yè)務(wù)理解、知識團(tuán)隊(duì)的協(xié)作都可以解決這個問題。但這也要求產(chǎn)品經(jīng)理自身對業(yè)務(wù)需求、用戶反饋和技術(shù)實(shí)現(xiàn)都有充分的理解。在AI產(chǎn)品中,對產(chǎn)品經(jīng)理跨界的學(xué)習(xí)和協(xié)作能力提出了更高的要求。

本文由 @AI 實(shí)踐干貨 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!