策略產(chǎn)品 ①算法邏輯

乾意
0 評(píng)論 2119 瀏覽 21 收藏 7 分鐘
B端产品经理要负责对目标行业和市场进行深入的分析和调研,了解客户的需求、痛点、期望和行为,找到产品的价值主张 🔗

機(jī)器學(xué)習(xí)是AI的關(guān)鍵技術(shù)之一,是指機(jī)器從歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律,從而提升系統(tǒng)某個(gè)性能度量的過(guò)程。這篇文章,我們?cè)谧髡叩膸ьI(lǐng)下梳理下全流程。

機(jī)器學(xué)習(xí),機(jī)器從歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律,從而提升系統(tǒng)某個(gè)性能度量的過(guò)程。在工業(yè)界中的應(yīng)用主要為:研究如何讓計(jì)算機(jī)從歷史數(shù)據(jù)中更好地學(xué)習(xí),從而產(chǎn)生一個(gè)優(yōu)秀模型以提升系統(tǒng)某項(xiàng)性能的學(xué)科。

1952年,“Machine Learning”的概念被提出。

一、機(jī)器學(xué)習(xí)與AI的關(guān)系

AI是一個(gè)領(lǐng)域,1956年8月被正式提出,主要包括三大要素:算法、算力、算據(jù)。機(jī)器學(xué)習(xí)便是其中的算法,算力指的是計(jì)算資源,最主要的是芯片。故而AI包含機(jī)器學(xué)習(xí),而機(jī)器學(xué)習(xí)這一實(shí)現(xiàn)AI的方法論包括傳統(tǒng)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)等子技術(shù)。

AI分為三個(gè)階段:弱人工智能、強(qiáng)人工智能、超人工智能。

  1. 弱人工智能:專注某方面能力,智商高,情商為0
  2. 強(qiáng)人工智能:可以批評(píng)性思考,智商情商均高
  3. 超人工智能:智商與情商全面超越人類,思維多元化。

二、機(jī)器學(xué)習(xí)全流程

1.?問(wèn)題定義

利用機(jī)器學(xué)習(xí)構(gòu)建模型需要考慮以下問(wèn)題定義,問(wèn)題定義清楚后再考慮以下3個(gè)問(wèn)題。

1)機(jī)器學(xué)習(xí)的任務(wù)類型是什么?

機(jī)器學(xué)習(xí)的任務(wù)類型可以分成兩大類:一類是預(yù)測(cè)類任務(wù),如銷量預(yù)測(cè)、推薦系統(tǒng)、人臉識(shí)別等,一類為生成類任務(wù),基于歷史數(shù)據(jù)學(xué)習(xí)后,可以從零生成任務(wù),具體細(xì)化分類如下

2)使用什么算法來(lái)構(gòu)建模型

任務(wù)類型確定后,可以結(jié)合具體場(chǎng)景確定使用什么算法。

以CTR預(yù)估模型為例,工業(yè)界搞起普遍使用LR(logistics regression,邏輯回歸)算法,現(xiàn)在多使用DNN(deep neutral network,深度神經(jīng)網(wǎng)絡(luò))算法。

3)如何評(píng)估模型的好壞

不同任務(wù)類型需要使用不同指標(biāo)來(lái)評(píng)估模型效果。對(duì)于CTR預(yù)估模型,離線訓(xùn)練時(shí)應(yīng)該使用AUC(area under curve,曲線下面積)指標(biāo)進(jìn)行評(píng)估。。

2.?數(shù)據(jù)處理

數(shù)據(jù)處理分為4步:數(shù)據(jù)收集、數(shù)據(jù)清晰、數(shù)據(jù)標(biāo)注、數(shù)據(jù)切分。

以用戶CTR為例進(jìn)行說(shuō)明:

  • 數(shù)據(jù)收集:確定需使用的數(shù)據(jù),分為正樣本(用戶點(diǎn)擊)和負(fù)樣本(用戶不點(diǎn)擊)、基本信息特征(最好近期,樣本量大時(shí)可以隨機(jī)抽樣)
  • 數(shù)據(jù)清洗:剔除臟數(shù)據(jù)、測(cè)試數(shù)據(jù)、無(wú)效數(shù)據(jù)、統(tǒng)一字段含義。
  • 數(shù)據(jù)標(biāo)注:人工達(dá)標(biāo)分類,明確樣本標(biāo)簽
  • 數(shù)據(jù)切分:訓(xùn)練集+測(cè)試集測(cè)試擬合效果,調(diào)試防過(guò)擬合/不擬合。(注:小心“數(shù)據(jù)穿越”問(wèn)題的出現(xiàn))

3.?特征工程

模型效果一部分由數(shù)據(jù)質(zhì)量決定,一部分由特征工程決定。挑選使用場(chǎng)景下最適合、最有效的特征并加入模型,這就是特征工程的工作。此時(shí)業(yè)務(wù)專家的經(jīng)驗(yàn)輸入可以幫助鎖定有效特征。

4.?模型訓(xùn)練

常見(jiàn)的模型訓(xùn)練方法有四種:監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí),主要區(qū)分點(diǎn)在于是否數(shù)據(jù)打標(biāo)、算法模式。

  1. 監(jiān)督學(xué)習(xí):打好已知訓(xùn)練數(shù)據(jù)的標(biāo)簽,目的明確的學(xué)習(xí)特征。
  2. 無(wú)監(jiān)督學(xué)習(xí):直接訓(xùn)練數(shù)據(jù)模型,原因:數(shù)據(jù)雜亂、標(biāo)注成本高、區(qū)分標(biāo)準(zhǔn)難確定,方式比如聚類
  3. 半監(jiān)督學(xué)習(xí):有的達(dá)標(biāo),有的不打
  4. 強(qiáng)化學(xué)習(xí):不需要達(dá)標(biāo),與環(huán)境互動(dòng),獎(jiǎng)勵(lì)/懲罰+反饋調(diào)整。

經(jīng)過(guò)數(shù)據(jù)+算法輸入,構(gòu)建完特征工程后即有初版模型,表現(xiàn)形式為函數(shù),如y=ax+by+cz+d,模型訓(xùn)練結(jié)果可能出現(xiàn)欠擬合、過(guò)擬合、正常三種情況。

5.?模型評(píng)估

模型評(píng)估主要指離線效果評(píng)估,不是在線上做小流量的ABTest試驗(yàn),需要在測(cè)試集上進(jìn)行驗(yàn)證,對(duì)于不同任務(wù)有不同的關(guān)注點(diǎn)。

  • 分類任務(wù):召回率、精準(zhǔn)率、AUC指標(biāo)
  • 聚類任務(wù):聚類純度、蘭德系數(shù)
  • 回歸任務(wù):MSE、RMSE、R-Squared。

6.?模型應(yīng)用

在線上真實(shí)環(huán)境進(jìn)行效果測(cè)試。用戶行為變化、數(shù)據(jù)迭代速度是影響因素,所以需要線上不斷調(diào)優(yōu)。

本文由 @產(chǎn)品研習(xí)中 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!
专题
18125人已学习14篇文章
智能客服类产品,最根本的价值在于以低成本取代人工客服工作中大量重复性的部分。本专题的文章分享了如何搭建一个智能客服。
专题
13762人已学习12篇文章
本专题的文章分享了用户运营实战经验。
专题
60844人已学习12篇文章
业务流程图是最常见的图表之一,能看懂读懂是必修课,能绘制便是非常重要的选修课。
专题
12096人已学习12篇文章
精细化运营、抓住老用户、提升用户复购,则将是品牌需要着重留意的地方。本专题的文章分享了提升复购率的N种方法。
专题
19672人已学习13篇文章
如何通过广告模式来进行商业化流量变现?本专题的文章提供了广告变现的思路。
专题
15072人已学习12篇文章
用户体验五要素包括战略层、范围层、框架层、结构层、表现层五个方面,本专题的文章分享了用户体验五要素的看法。