翁媳乱轮,99久久国产精品免费电影,欧美人与牲禽ⅩXXX伦交

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

開通會(huì)員

發(fā)布

注冊(cè) | 登錄

詳解AI產(chǎn)品經(jīng)理工作全流程

厚謙

2024-05-26

0 評(píng)論 7110 瀏覽 83 收藏

🔗 产品经理专业技能指的是：需求分析、数据分析、竞品分析、商业分析、行业分析、产品设计、版本管理、用户调研等。

自從ChatGPT之類的大模型爆火之后，AI產(chǎn)品經(jīng)理也開始水漲船高受到更多人的青睞，不少同學(xué)都想轉(zhuǎn)去做AI產(chǎn)品。那你知道其工作流程是怎樣的嗎？這篇文章，我們就來(lái)分享一下。

一、AI產(chǎn)品經(jīng)理工作全流程概覽

AI產(chǎn)品經(jīng)理工作全流程中與普通產(chǎn)品經(jīng)理的區(qū)別主要是多了算法模型部分，包括模型預(yù)研、數(shù)據(jù)準(zhǔn)備、模型構(gòu)建、模型宣講、模型驗(yàn)收，協(xié)作的對(duì)象相對(duì)普通產(chǎn)品經(jīng)理也多了算法工程師。

二、需求定義

需求定義主要要定義清楚以下幾點(diǎn)：

做什么?
為什么要做，有什么收益和價(jià)值？
業(yè)務(wù)預(yù)期目標(biāo)、上線期限？

為了方便理解，我們以開發(fā)一套篩選薅羊毛用戶的產(chǎn)品進(jìn)行舉例說(shuō)明。

1、項(xiàng)目背景

團(tuán)隊(duì)發(fā)現(xiàn)負(fù)責(zé)的項(xiàng)目數(shù)據(jù)統(tǒng)計(jì)有些異常，細(xì)查之后，發(fā)現(xiàn)存在夜間偷數(shù)據(jù)的情況，大致行為路徑如下：

淘寶上買一批手機(jī)號(hào)，注冊(cè)新賬號(hào)。
通過(guò)自動(dòng)薅羊毛的方式（新手禮包、每日簽到、周任務(wù)等），獲取免費(fèi)券等資源。
夜深人靜的時(shí)候，使用免費(fèi)券或積分批量下載數(shù)據(jù)。

亡羊補(bǔ)牢，猶未晚矣。我們決定開發(fā)一套篩選薅羊毛用戶的產(chǎn)品，徹底堵住這個(gè)缺口。

2、做什么？

開發(fā)一套篩選薅羊毛用戶的產(chǎn)品。具體設(shè)計(jì)大概思路如下：

在領(lǐng)取新手禮包或周任務(wù)獎(jiǎng)勵(lì)時(shí)，需要用戶綁定手機(jī)號(hào)（薅羊毛時(shí)簡(jiǎn)單卡一下，以免影響正常的用戶體驗(yàn)）。
在使用券進(jìn)行下載操作時(shí)，判斷是薅羊毛用戶的概率，并根據(jù)概率高低分成正常、疑似、高危三類。
針對(duì)“疑似”用戶，就觸發(fā) 極驗(yàn) 或驗(yàn)證碼校驗(yàn) 等邏輯。針對(duì)高危用戶，就鎖定賬號(hào)，并在激活時(shí)要求綁定微信，避免再出現(xiàn)大量偷數(shù)據(jù)的情況。

3、為什么要做，有什么收益和價(jià)值？

減少公司做活動(dòng)發(fā)放福利時(shí)被薅羊毛，讓福利觸達(dá)給有效的用戶。

4、業(yè)務(wù)預(yù)期目標(biāo)、上線期限？

離線/實(shí)時(shí)模式：支持實(shí)時(shí)判斷，所以應(yīng)該定義為實(shí)時(shí)模型。
覆蓋率：期望該模型的覆蓋率為100%，面向所有用戶。
傾向：盡可能找出所有羊毛黨，追求高“召回率”，可以接受一定程度的誤報(bào)。寧可錯(cuò)殺一千，不可放過(guò)一個(gè)。
上線期限：雙十一前得上線，離現(xiàn)在還有半年時(shí)間。

三、模型預(yù)研

AI產(chǎn)品經(jīng)理把需求同步給算法工程師，算法工程師需判斷目前積累的數(shù)據(jù)和沉淀的算法是否可以達(dá)到業(yè)務(wù)需求。

如果現(xiàn)有數(shù)據(jù)不滿足需求，要么增加埋點(diǎn)補(bǔ)齊數(shù)據(jù)，要么想辦法獲取目標(biāo)數(shù)據(jù)，要么替換成其他類似數(shù)據(jù)。

如果算法支持度不夠，可能需要調(diào)整需求內(nèi)容，以便達(dá)到更適配的效果。以該項(xiàng)目為例，實(shí)時(shí)模式的話，可能會(huì)對(duì)原業(yè)務(wù)的響應(yīng)速度有一定影響，所以最后調(diào)整為離線模型，每天定時(shí)處理前一天的用戶數(shù)據(jù)。

四、數(shù)據(jù)準(zhǔn)備

對(duì)于算法同學(xué)而言，他只能根據(jù)現(xiàn)有的數(shù)據(jù)分析哪些特征對(duì)于模型有用，但是，AI產(chǎn)品經(jīng)理對(duì)業(yè)務(wù)理解更深，通過(guò)判斷哪些數(shù)據(jù)、哪些特征對(duì)模型提升有幫助，把自己想到的要點(diǎn)和技術(shù)溝通，得到更完善的數(shù)據(jù)集，再動(dòng)手去獲取數(shù)據(jù)。

比如該用戶是否主要在夜間活動(dòng)？操作頻率是否過(guò)高？短時(shí)間內(nèi)同一臺(tái)終端是否登錄過(guò)多個(gè)用戶？用戶是否觸發(fā)過(guò)新手引導(dǎo)？

盡可能準(zhǔn)確的找到羊毛黨用戶的特征，對(duì)模型質(zhì)量的提升會(huì)有極大的幫助。

獲取數(shù)據(jù)時(shí)，主要分為以下三類（有時(shí)也可與其他公司聯(lián)合建模）：

1、內(nèi)部業(yè)務(wù)數(shù)據(jù)

如果以前業(yè)務(wù)有相關(guān)數(shù)據(jù)，那么我們可以從以前業(yè)務(wù)保留的數(shù)據(jù)中選取使用；如果當(dāng)前沒(méi)有相關(guān)數(shù)據(jù)，而我們有相關(guān)業(yè)務(wù)可以獲得數(shù)據(jù)，我們通過(guò)增加埋點(diǎn)的方式將數(shù)據(jù)留存。

2、跨部門數(shù)據(jù)

其他部門數(shù)據(jù)或統(tǒng)一的中臺(tái)數(shù)據(jù)，這些數(shù)據(jù)需要我們根據(jù)公司的數(shù)據(jù)管理規(guī)范流程提取，在數(shù)據(jù)提取的時(shí)候注意篩選有效數(shù)據(jù)。

3、外采數(shù)據(jù)

根據(jù)我們的需求向外部公司購(gòu)買數(shù)據(jù)。我們需要了解市場(chǎng)上不同公司都可以提供什么數(shù)據(jù)，比如：極光、友盟提供的是開發(fā)者服務(wù)，所以他們可以提供一些和App相關(guān)的用戶畫像，比如運(yùn)營(yíng)商可以提供上網(wǎng)流量、話費(fèi)等相關(guān)數(shù)據(jù)。

進(jìn)行外采數(shù)據(jù)需要注意兩點(diǎn)：外采公司的資質(zhì)審核、采集數(shù)據(jù)的合法性（需要考慮數(shù)據(jù)安全和消費(fèi)者隱私保護(hù)）。

五、模型構(gòu)建

模型構(gòu)建的具體流程如下：

1、模型設(shè)計(jì)

模型設(shè)計(jì)階段，我們需要考慮該選擇什么樣的算法，目標(biāo)變量應(yīng)該怎么設(shè)置、數(shù)據(jù)源應(yīng)該有哪些、數(shù)據(jù)樣本如何獲取，是隨機(jī)抽取還是分層抽樣。

a.算法選擇

于其需求定義，模型需要計(jì)算出用戶是薅羊毛用戶的概率，并根據(jù)概率高低分為正常、疑似、高危三類，最終技術(shù)同學(xué)決定采用邏輯回歸算法來(lái)實(shí)現(xiàn)該需求。

邏輯回歸算法具有計(jì)算速度快、可解釋性強(qiáng)的優(yōu)點(diǎn)，適用于解決需求中的多分類問(wèn)題，而且還可以對(duì)用戶“為什么封號(hào)”的質(zhì)疑，有較強(qiáng)的解釋性。

b.定義目標(biāo)變量及抽取樣本

在模型設(shè)計(jì)階段最重要的就是定義模型目標(biāo)變量，以及抽取數(shù)據(jù)樣本。

不同的目標(biāo)變量，決定了這個(gè)模型應(yīng)用的場(chǎng)景，以及能達(dá)到的業(yè)務(wù)預(yù)期。

樣本是用來(lái)做模型的基礎(chǔ)。在選取樣本的時(shí)候，你需要根據(jù)模型的目標(biāo)、業(yè)務(wù)的實(shí)際場(chǎng)景來(lái)選擇合適的樣本。必須要考慮季節(jié)性和周期性的影響。另外，還要考慮時(shí)間跨度的問(wèn)題。建議你選擇近期的數(shù)據(jù)，并結(jié)合跨時(shí)間樣本的抽取，來(lái)降低抽樣的樣本不能描述總體的這種風(fēng)險(xiǎn)。

2、特征工程

所有模型的輸入都是數(shù)量化的信息（用向量、矩陣或者張量的形式表示的信息），所以我們需要通過(guò)某種方式，把各種類型的數(shù)據(jù)轉(zhuǎn)化成數(shù)量化的信息，這個(gè)過(guò)程就是特征工程。

特征工程是模型構(gòu)建過(guò)程中最重要的部分，如果我們可以挑選到足夠優(yōu)質(zhì)的特征，不僅可以提升模型性能，還能降低模型的復(fù)雜度，（當(dāng)選擇了優(yōu)質(zhì)的特征之后，即使你的模型參數(shù)不是最優(yōu)的，也能得到不錯(cuò)的模型性能，你也就不需要花費(fèi)大量時(shí)間去尋找最優(yōu)參數(shù)了，從而降低了模型實(shí)現(xiàn)的復(fù)雜度。）大幅簡(jiǎn)化構(gòu)建過(guò)程。

數(shù)據(jù)和特征決定了模型的上限，而模型和算法只是逼近這個(gè)上限而已。

以薅羊毛項(xiàng)目為例，我們可以通過(guò)用戶是否在夜間活動(dòng)、操作頻率、歷史訂單、完成活動(dòng)速度、同一臺(tái)終端是否登錄多個(gè)賬號(hào)等一系列特征，來(lái)表達(dá)是薅羊毛用戶的可能性，這就是建立了薅羊毛用戶的特征工程。我們可以通過(guò)這些特征來(lái)判斷用戶的可疑程度。

特征過(guò)程包括以下四個(gè)流程：

1）數(shù)據(jù)清洗

數(shù)據(jù)清洗主要是算法工程師要做的工作，主要是對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)，解決數(shù)據(jù)可能存在的數(shù)據(jù)缺失、有異常值或無(wú)效值、數(shù)據(jù)不均衡（比如前面部分?jǐn)?shù)據(jù)表現(xiàn)好，后面部分?jǐn)?shù)據(jù)表現(xiàn)不好）、單位不一致等問(wèn)題。

對(duì)數(shù)據(jù)缺失，算法工程師可以通過(guò)刪除缺失值或者補(bǔ)充缺失值的手段來(lái)解決它。

對(duì)于數(shù)據(jù)不均衡的問(wèn)題，因?yàn)閿?shù)據(jù)偏差可能導(dǎo)致后面訓(xùn)練的模型過(guò)擬合或者欠擬合，所以算法工程師取數(shù)據(jù)時(shí)需要考慮均衡問(wèn)題。

2）特征提取

從原始數(shù)據(jù)中提取有用的特征，將其轉(zhuǎn)化為一組更具代表性和可解釋性的特征。特征提取的目的是減少原始數(shù)據(jù)的維度，提高數(shù)據(jù)的表達(dá)能力，幫助算法進(jìn)行更好的完成任務(wù)。

一般提取出的特征會(huì)有 4 類常見(jiàn)的形式，分別是數(shù)值型特征數(shù)據(jù)、標(biāo)簽或者描述類數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、關(guān)系型數(shù)據(jù)。

數(shù)值型特征：如消費(fèi)金額、好友人數(shù)、瀏覽頁(yè)面次數(shù)等（相關(guān)的業(yè)務(wù)操作數(shù)據(jù)、運(yùn)營(yíng)數(shù)據(jù)）。一般來(lái)說(shuō)，會(huì)首先提取主體特征，再提取其他維度特征。
標(biāo)簽或描述類特征：如有房、有車、高付費(fèi)，用來(lái)打標(biāo)簽。
非結(jié)構(gòu)化特征：如內(nèi)容評(píng)論，需要判斷是否有負(fù)面情緒。非結(jié)構(gòu)化數(shù)據(jù)一般存在于 UGC（User Generated Content，用戶生成內(nèi)容）內(nèi)容數(shù)據(jù)中。提取非結(jié)構(gòu)化特征的一般做法就是，對(duì)文本數(shù)據(jù)做清洗和挖掘，挖掘出在一定程度上反映用戶屬性的特征。
關(guān)系型數(shù)據(jù)特征：如通訊錄、收獲地址、商品分享（一般分享給親朋）、LBS位置信息等維度數(shù)據(jù)。比如說(shuō)，在京東購(gòu)物時(shí)，你和一個(gè)人在同一收貨地址上，如果這個(gè)收貨地址是家庭地址，那你們很可能就是家人。

3）特征選擇

特征在選擇時(shí)主要有覆蓋度、IV 值（信息價(jià)值）、穩(wěn)定性等指標(biāo)。

LV值指的是表示特征對(duì)目標(biāo)預(yù)測(cè)的貢獻(xiàn)程度，LV值有限定條件，一是面向的任務(wù)必須是有監(jiān)督的任務(wù)；二是預(yù)測(cè)的模型必須是二分類模型。

4）生成測(cè)試集與訓(xùn)練集

算法同學(xué)為了給模型訓(xùn)練做最后的準(zhǔn)備，需要把數(shù)據(jù)分成訓(xùn)練集和測(cè)試集，他們會(huì)使用訓(xùn)練集來(lái)進(jìn)行模型訓(xùn)練，會(huì)使用測(cè)試集驗(yàn)證模型效果，

3. 模型訓(xùn)練

模型訓(xùn)練是通過(guò)不斷訓(xùn)練、驗(yàn)證和調(diào)優(yōu)，讓模型達(dá)到最優(yōu)的過(guò)程。就是要找到一個(gè)劃分條件（決策邊界），使得準(zhǔn)確率（擬合）最高的同時(shí)兼顧穩(wěn)定性（泛化性能）。這里涉及幾個(gè)名詞需要理解：

a、決策邊界

那么怎么達(dá)到最優(yōu)呢？就是要繪制一條比較好的決策邊界。

決策邊界：就是在符合某種條件做出某種選擇的條件，根據(jù)這個(gè)條件可以將結(jié)果進(jìn)行劃分。比如說(shuō)：下午6：00不寫完這篇博客我不吃飯，那么寫完了就去吃，沒(méi)寫完就不吃。這個(gè)條件就是我們說(shuō)的決策邊界。

決策邊界分為：線性決策邊界和非線性決策邊界。下圖中，圖1為線性決策邊界，圖2、圖3為非線性決策邊界。

決策邊界曲線的平滑程度和算法訓(xùn)練出來(lái)的模型能力息息相關(guān)。曲線越陡峭模型的測(cè)試精度越準(zhǔn)確（可以理解為不是一刀切），但是越陡峭的曲線模型越不穩(wěn)定。

b、擬合與泛化

模型的“最優(yōu)”，指的是模型擬合能力和泛化能力的平衡點(diǎn)。

擬合能力：模型在已知數(shù)據(jù)上（訓(xùn)練集）表現(xiàn)的好壞
泛化能力：模型在未知數(shù)據(jù)上（測(cè)試集）表現(xiàn)的好

如果想讓模型有足夠好的擬合能力，就需要構(gòu)建一個(gè)復(fù)雜的模型對(duì)訓(xùn)練集進(jìn)行訓(xùn)練，但是模型越復(fù)雜就會(huì)越依賴訓(xùn)練集的數(shù)據(jù)，就越可能出現(xiàn)訓(xùn)練集的表現(xiàn)很好，但在測(cè)試集上表現(xiàn)差的情況，泛化能力比較差，這種情況叫做“過(guò)擬合”。

如果想讓提高模型的泛化能力，就要降低模型復(fù)雜度，減少對(duì)訓(xùn)練集的依賴，但如果過(guò)度降低復(fù)雜度，又可能導(dǎo)致“欠擬合”的情況。

過(guò)擬合：模型把數(shù)據(jù)學(xué)習(xí)的太徹底，甚至把噪聲數(shù)據(jù)的特征也學(xué)習(xí)到了，就導(dǎo)致不能很好的識(shí)別未知數(shù)據(jù)，模型泛化能力下降。訓(xùn)練集表現(xiàn)很好，但是測(cè)試集很差。讀的是“死書”，并沒(méi)有真正掌握書里的精髓，自然就無(wú)法很好的應(yīng)用了。產(chǎn)生過(guò)擬合的原因一般有：特征過(guò)多，模型復(fù)雜度過(guò)高，樣本數(shù)據(jù)無(wú)法代表預(yù)定的分類，樣本噪音干擾過(guò)大等。
欠擬合：模型不能很好的捕捉數(shù)據(jù)特征，不能很好的擬合數(shù)據(jù)。在訓(xùn)練集的表現(xiàn)就很差，需要繼續(xù)努力“學(xué)習(xí)”。產(chǎn)生欠擬合的原因一般有：模型復(fù)雜度過(guò)低、特征量過(guò)少等。

c、交叉驗(yàn)證

算法工程師就這樣不斷的調(diào)整模型參數(shù)、訓(xùn)練，再用交叉驗(yàn)證的方式，逐漸找到擬合能力和泛化能力的平衡點(diǎn)，這個(gè)平衡點(diǎn)就是我們訓(xùn)練模型的目標(biāo)。

交叉驗(yàn)證：一種評(píng)估機(jī)器學(xué)習(xí)模型性能的有效方法，可以用于選擇最佳模型參數(shù)、模型選擇以及避免過(guò)擬合等問(wèn)題。包括簡(jiǎn)單交叉驗(yàn)證、留出交叉驗(yàn)證、自助交叉驗(yàn)證等方法。如把測(cè)試數(shù)據(jù)進(jìn)行進(jìn)行封箱處理，后隨機(jī)對(duì)一些分箱測(cè)試結(jié)果取平均值。

4、模型驗(yàn)證

經(jīng)過(guò)復(fù)雜的模型訓(xùn)練，我們終于得到了一個(gè)所謂的“最優(yōu)解”，但是怎么證明這個(gè)最優(yōu)解就是真正的最優(yōu)解呢？我們需要模型驗(yàn)證階段來(lái)確認(rèn)這個(gè)“最優(yōu)解”的真假。

模型驗(yàn)證一般通過(guò)模型的性能指標(biāo)和穩(wěn)定性指標(biāo)來(lái)評(píng)估。

模型性能，就是模型預(yù)測(cè)的準(zhǔn)確性。

分類模型性能評(píng)估：分類模型的預(yù)測(cè)結(jié)果是具體的分類，一般使用召回率、F1、KS、AUC等評(píng)估指標(biāo)，來(lái)判斷分類模型的性能。

回歸模型性能評(píng)估：回歸模型的預(yù)測(cè)結(jié)果是連續(xù)值，一般使用方差和MSE等評(píng)估指標(biāo)，來(lái)判斷回歸模型的性能。

模型穩(wěn)定性，指的是模型性能可以持續(xù)多久，一般使用PSI指標(biāo)來(lái)評(píng)估模型的穩(wěn)定性。

PSI指標(biāo)，指模型穩(wěn)定性指標(biāo)（或稱為客情穩(wěn)定性指標(biāo)），PSI越小越好，如果PSI>0.25說(shuō)明穩(wěn)定性很差。

綜上：模型驗(yàn)收環(huán)節(jié)，AI產(chǎn)品經(jīng)理需要知道常用的性能指標(biāo)與穩(wěn)定性指標(biāo)，并且知道其合理的范圍。AI產(chǎn)品經(jīng)理對(duì)模型驗(yàn)證環(huán)節(jié)格外關(guān)注，需要深入理解評(píng)估指標(biāo)、計(jì)算邏輯，并能根據(jù)指標(biāo)的數(shù)據(jù)判斷模型效果是否達(dá)標(biāo)。