策略產(chǎn)品經(jīng)理:模型訓練常知的六種算法
策略產(chǎn)品經(jīng)理需要了解一定的算法邏輯,以便推進工作。這篇文章里,作者介紹了六種常見算法,并探討了產(chǎn)品設計模型算法的選擇,一起來看。
一、工業(yè)界常用算法
作為與算法同學對接的策略產(chǎn)品經(jīng)理,我們必須對算法同學常用的算法邏輯有所了解,以下我將介紹相關(guān)的底層算法邏輯,以及它們所適用的任務類型。
1. 邏輯回歸(logistics regression,LR)
- 模型訓練類別:監(jiān)督學習算法。
- 適用問題任務:分類。
- 算法特色:復雜度低,可解釋性強,線上效果好。
函數(shù)公式:
y表示模型預估值,取值范圍[0,1],x表示輸入模型的特征值,可以理解為最終使用的一系列特征對應的具體數(shù)值;T表示矩陣的轉(zhuǎn)置,無實際數(shù)值意義;w表示模型為每一個特征訓練出的對應參數(shù)。以CTR預估模型為例,邏輯回歸模型輸出的預測值代表的業(yè)務意義是用戶對物料的興趣度。
另外,雖然線性回歸(linear regression)與邏輯回歸簡稱均為LR,但是線性解決回歸問題,邏輯解決分類問題,邏輯回歸模型包含線性回歸模型,便是線性回歸模型。
2. K近鄰算法(K-nearest neighbor,KNN)
- 模型訓練類別:監(jiān)督學習算法。
- 適用問題任務:分類、回歸。
- K的取值是關(guān)鍵因素,需要用交叉驗證法(測試集+訓練集)驗證。
- 注:使用KNN算法的思想是每一位策略產(chǎn)品經(jīng)理都需要了解的。
分類任務:
1.計算待分類點(黑叉)與其他已知類別點的距離。
2.按距離正排,占比最好的類別即為待分類點的類別,計算方法有①歐式距離、②曼哈頓距離。
回歸任務:
整體思路與分類任務一致,預測點的值等于離預測點最近K個點的平均值。
總結(jié):
KNN算法沒有模型訓練緩解,而是直接應用,所以KNN算法在訓練環(huán)節(jié)的時間復雜度為0,但是在應用環(huán)節(jié),隨著樣本量陡增、復雜度的增加,在對于效率要求極高的場景下無法使用KNN算法。
3. 貝葉斯模型(Bayes Model)
- 模型訓練類別:監(jiān)督學習算法。
- 適用問題任務:分類。
- 模型方向:“逆概率”問題,用于郵件分類,天氣預測。
函數(shù)公式:
4. K聚類算法(K-Means)
- 模型訓練類別:無監(jiān)督學習算法。
- 適用問題任務:聚類。
- K-Means沒有模型訓練環(huán)節(jié),利用啟發(fā)式迭代,K值的選擇由業(yè)務場景確定,如無需求,可試數(shù)。
步驟:
- 將所有樣本分成幾個簇,即設定K值。
- 模型重新計算新簇質(zhì)心,再次歸類。
- 不斷重復、優(yōu)化。
5. 決策樹(decision tree)
- 模型訓練類別:監(jiān)督學習算法。
- 適用問題任務:分類、回歸。
- 核心思想:根據(jù)有區(qū)分性的變量查分數(shù)據(jù)集。
基本框架要素:
1.根節(jié)點:包含所有原始樣本數(shù)據(jù),會被進一步分割成多個子集合。
2.決策節(jié)點和葉子節(jié)點:葉子節(jié)點“不再被分割”,但可以分,決策節(jié)點根據(jù)特征繼續(xù)分割。
3.父節(jié)點與子節(jié)點:被分割成子節(jié)點的節(jié)點被稱為子節(jié)點的父節(jié)點。
決策樹種類: ①分類樹 ②回歸樹
決策樹效果評估:選擇哪些特征組合構(gòu)建效果最好呢?
- 分類樹:基尼不純度評估,不純度越低,效果越好。
- 回歸樹:方差指標評估,方差越小模型擬合效果越好。
決策樹關(guān)鍵參數(shù):
- 節(jié)點拆分包含的最小樣本數(shù):過大欠擬合,過小過擬合,需要交叉驗證來調(diào)參。
- 葉子節(jié)點包含的最小樣本數(shù):防葉子節(jié)點太多,對于正負樣本不均的情況可以分小。
- 決策樹最大深度:交叉驗證解決。
- 總體葉子節(jié)點數(shù)量控制。
- 整體分裂中使用最多的特征數(shù):根據(jù)建模經(jīng)驗,開根號的特征數(shù)為最佳特征數(shù)。
6. 深度神經(jīng)網(wǎng)絡(deep neutral network)
網(wǎng)上有很多資料介紹,可以自己找一下。
簡單介紹,深度學習中的“深度”指的是其hidden layer,在輸出層和輸入層中,隱藏層越多深度越大。深度學習與常規(guī)神經(jīng)網(wǎng)絡算法的區(qū)別主要體現(xiàn)在訓練數(shù)據(jù)、訓練方式、層數(shù)方面。
目前在產(chǎn)品策劃領域,深度學習可以解決安防領域、零售行業(yè)的視覺識別問題,也有如ChatGPT等的自然語音識別、語言處理等應用,實體企業(yè)如智能駕駛中的地位正在提升,其最早被應用與搜光腿的算法模型中。
二、產(chǎn)品設計模型算法的選擇
對于同種業(yè)務場景可能使用多種算法,然而作為產(chǎn)品經(jīng)理,我們需要重點考核模型的兩大要點:模型預測的準確性和模型的可解釋性。
對于金融風控等受到強監(jiān)管的場景,我們更偏向于使用具有可解釋性的模型,而對于搜廣推等產(chǎn)品體驗場景,我們更看重產(chǎn)品的使用效果,以下是各類算法的使用效益分布圖:
本文由 @產(chǎn)品研習中 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!