策略產(chǎn)品經(jīng)理:模型訓練常知的六種算法

乾意
0 評論 1764 瀏覽 6 收藏 8 分鐘
B端产品经理要负责对目标行业和市场进行深入的分析和调研,了解客户的需求、痛点、期望和行为,找到产品的价值主张 🔗

策略產(chǎn)品經(jīng)理需要了解一定的算法邏輯,以便推進工作。這篇文章里,作者介紹了六種常見算法,并探討了產(chǎn)品設計模型算法的選擇,一起來看。

一、工業(yè)界常用算法

作為與算法同學對接的策略產(chǎn)品經(jīng)理,我們必須對算法同學常用的算法邏輯有所了解,以下我將介紹相關(guān)的底層算法邏輯,以及它們所適用的任務類型。

1. 邏輯回歸(logistics regression,LR)

  • 模型訓練類別:監(jiān)督學習算法。
  • 適用問題任務:分類。
  • 算法特色:復雜度低,可解釋性強,線上效果好。

函數(shù)公式:

y表示模型預估值,取值范圍[0,1],x表示輸入模型的特征值,可以理解為最終使用的一系列特征對應的具體數(shù)值;T表示矩陣的轉(zhuǎn)置,無實際數(shù)值意義;w表示模型為每一個特征訓練出的對應參數(shù)。以CTR預估模型為例,邏輯回歸模型輸出的預測值代表的業(yè)務意義是用戶對物料的興趣度。

另外,雖然線性回歸(linear regression)與邏輯回歸簡稱均為LR,但是線性解決回歸問題,邏輯解決分類問題,邏輯回歸模型包含線性回歸模型,便是線性回歸模型。

2. K近鄰算法(K-nearest neighbor,KNN)

  • 模型訓練類別:監(jiān)督學習算法。
  • 適用問題任務:分類、回歸。
  • K的取值是關(guān)鍵因素,需要用交叉驗證法(測試集+訓練集)驗證。
  • 注:使用KNN算法的思想是每一位策略產(chǎn)品經(jīng)理都需要了解的。

分類任務:

1.計算待分類點(黑叉)與其他已知類別點的距離。

2.按距離正排,占比最好的類別即為待分類點的類別,計算方法有①歐式距離、②曼哈頓距離。

回歸任務:

整體思路與分類任務一致,預測點的值等于離預測點最近K個點的平均值。

總結(jié):

KNN算法沒有模型訓練緩解,而是直接應用,所以KNN算法在訓練環(huán)節(jié)的時間復雜度為0,但是在應用環(huán)節(jié),隨著樣本量陡增、復雜度的增加,在對于效率要求極高的場景下無法使用KNN算法。

3. 貝葉斯模型(Bayes Model)

  • 模型訓練類別:監(jiān)督學習算法。
  • 適用問題任務:分類。
  • 模型方向:“逆概率”問題,用于郵件分類,天氣預測。

函數(shù)公式:

4. K聚類算法(K-Means)

  • 模型訓練類別:無監(jiān)督學習算法。
  • 適用問題任務:聚類。
  • K-Means沒有模型訓練環(huán)節(jié),利用啟發(fā)式迭代,K值的選擇由業(yè)務場景確定,如無需求,可試數(shù)。

步驟:

  1. 將所有樣本分成幾個簇,即設定K值。
  2. 模型重新計算新簇質(zhì)心,再次歸類。
  3. 不斷重復、優(yōu)化。

5. 決策樹(decision tree)

  • 模型訓練類別:監(jiān)督學習算法。
  • 適用問題任務:分類、回歸。
  • 核心思想:根據(jù)有區(qū)分性的變量查分數(shù)據(jù)集。

基本框架要素:

1.根節(jié)點:包含所有原始樣本數(shù)據(jù),會被進一步分割成多個子集合。

2.決策節(jié)點和葉子節(jié)點:葉子節(jié)點“不再被分割”,但可以分,決策節(jié)點根據(jù)特征繼續(xù)分割。

3.父節(jié)點與子節(jié)點:被分割成子節(jié)點的節(jié)點被稱為子節(jié)點的父節(jié)點。

決策樹種類: ①分類樹 ②回歸樹

決策樹效果評估:選擇哪些特征組合構(gòu)建效果最好呢?

  • 分類樹:基尼不純度評估,不純度越低,效果越好。
  • 回歸樹:方差指標評估,方差越小模型擬合效果越好。

決策樹關(guān)鍵參數(shù):

  • 節(jié)點拆分包含的最小樣本數(shù):過大欠擬合,過小過擬合,需要交叉驗證來調(diào)參。
  • 葉子節(jié)點包含的最小樣本數(shù):防葉子節(jié)點太多,對于正負樣本不均的情況可以分小。
  • 決策樹最大深度:交叉驗證解決。
  • 總體葉子節(jié)點數(shù)量控制。
  • 整體分裂中使用最多的特征數(shù):根據(jù)建模經(jīng)驗,開根號的特征數(shù)為最佳特征數(shù)。

6. 深度神經(jīng)網(wǎng)絡(deep neutral network)

網(wǎng)上有很多資料介紹,可以自己找一下。

簡單介紹,深度學習中的“深度”指的是其hidden layer,在輸出層和輸入層中,隱藏層越多深度越大。深度學習與常規(guī)神經(jīng)網(wǎng)絡算法的區(qū)別主要體現(xiàn)在訓練數(shù)據(jù)、訓練方式、層數(shù)方面。

目前在產(chǎn)品策劃領域,深度學習可以解決安防領域、零售行業(yè)的視覺識別問題,也有如ChatGPT等的自然語音識別、語言處理等應用,實體企業(yè)如智能駕駛中的地位正在提升,其最早被應用與搜光腿的算法模型中。

二、產(chǎn)品設計模型算法的選擇

對于同種業(yè)務場景可能使用多種算法,然而作為產(chǎn)品經(jīng)理,我們需要重點考核模型的兩大要點:模型預測的準確性和模型的可解釋性。

對于金融風控等受到強監(jiān)管的場景,我們更偏向于使用具有可解釋性的模型,而對于搜廣推等產(chǎn)品體驗場景,我們更看重產(chǎn)品的使用效果,以下是各類算法的使用效益分布圖:

本文由 @產(chǎn)品研習中 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
33712人已学习17篇文章
作为产品经理,你真的懂什么是敏捷开发吗?
专题
17673人已学习13篇文章
在精细化运营的过程中,为自己的产品搭建一套数据指标体系,对于促进产品和业务增长是至关重要的。本专题的文章分享了如何搭建数据指标体系。
专题
45324人已学习12篇文章
产品经理和运营都要懂一点的推荐算法基础和进阶知识
专题
14515人已学习13篇文章
价格是竞争的重要手段,所以对于一个产品来说,产品定价是非常重要的。本专题的文章分享了如何给产品定价和产品定价的策略。
专题
16483人已学习16篇文章
私域模式已完成从探索到落地的转换,许多企业也纷纷落局。而基于私域衍生出的SCRM工具,也成为私域运营必不可少的利器之一。本专题的文章分享了SCRM工具的搭建以及相关业务运用场景。
专题
11688人已学习12篇文章
对着互联网行业的不断发展,如今很多传统行业都与互联网想结合,医药行业也不例外。本文作者分享了关于互联网医疗的运营知识。