策略產(chǎn)品經(jīng)理實(shí)踐:A/B測(cè)試上線流程

1 評(píng)論 19447 瀏覽 93 收藏 14 分鐘
🔗 产品经理的职业发展路径主要有四个方向:专业线、管理线、项目线和自主创业。管理线是指转向管理岗位,带一个团队..

編輯導(dǎo)語(yǔ):策略產(chǎn)品經(jīng)理實(shí)踐往往會(huì)經(jīng)歷A/B測(cè)試上線流程,那么其流程具體是什么樣呢?有哪些需要注意的點(diǎn)呢?本文作者來(lái)為大家做詳細(xì)的說(shuō)明。

本文將介紹大多數(shù)公司中A/B測(cè)試的上線流程(如圖5-1所示),主要分為以下幾個(gè)環(huán)節(jié):

一、提出需求

策略產(chǎn)品經(jīng)理基于先驗(yàn)判斷、數(shù)據(jù)分析結(jié)論或者領(lǐng)導(dǎo)要求,需要上線一個(gè)策略實(shí)驗(yàn)需求。

二、設(shè)計(jì)實(shí)驗(yàn)

策略產(chǎn)品經(jīng)理了解相關(guān)技術(shù)邏輯,設(shè)計(jì)單變量實(shí)驗(yàn)并撰寫(xiě)策略實(shí)驗(yàn)文檔,包括但不限于實(shí)驗(yàn)邏輯描述,如何驗(yàn)證實(shí)驗(yàn)假設(shè),以及預(yù)期的數(shù)據(jù)收益。

三、技術(shù)工程師自測(cè)

算法工程師完成需求,測(cè)試工程師介入測(cè)試(有時(shí)候策略產(chǎn)品經(jīng)理需要充當(dāng)測(cè)試工程師的角色),添加實(shí)驗(yàn)白名單,確保自己的測(cè)試賬號(hào)命中實(shí)驗(yàn)。

四、策略產(chǎn)品經(jīng)理體驗(yàn)策略

策略產(chǎn)品經(jīng)理在A/B測(cè)試上線后通過(guò)將自己的測(cè)試賬號(hào)在不同的實(shí)驗(yàn)組中切換,反復(fù)驗(yàn)證實(shí)現(xiàn)邏輯是否完全符合需求文檔,并仔細(xì)體驗(yàn)兩組實(shí)驗(yàn)的主觀差異(如果擁有中臺(tái)系統(tǒng),可以通過(guò)后臺(tái)實(shí)現(xiàn)同一用戶的內(nèi)容推薦順序?qū)Ρ龋瑫r(shí)間允許的情況下可以寫(xiě)主觀評(píng)估報(bào)告。

五、上線后的檢查點(diǎn)1

上線后2小時(shí)觀察相關(guān)數(shù)據(jù),主要通過(guò)實(shí)時(shí)數(shù)據(jù)判斷實(shí)驗(yàn)開(kāi)啟后是否存在問(wèn)題,檢查以下數(shù)據(jù)是否正常并記錄在文檔。如果存在問(wèn)題,立即檢查問(wèn)題;如果沒(méi)有問(wèn)題,在下一個(gè)檢查點(diǎn)重新確認(rèn)。

1. 候選集曝光量是否符合預(yù)期

如果是涉及內(nèi)容候選集的實(shí)驗(yàn),需要檢查內(nèi)容候選集曝光是否是0。如果實(shí)驗(yàn)沒(méi)問(wèn)題,該數(shù)值應(yīng)該是大于0的數(shù)字。

2. 服務(wù)端請(qǐng)求日志的數(shù)據(jù)量是否符合預(yù)期

策略產(chǎn)品經(jīng)理一般很難看到該數(shù)值,筆者的經(jīng)驗(yàn)是在實(shí)驗(yàn)開(kāi)啟后,找算法工程師一起檢查一下服務(wù)端請(qǐng)求日志的監(jiān)控,如果實(shí)驗(yàn)正常開(kāi)啟則請(qǐng)求數(shù)據(jù)量不為0。

筆者遇到多次實(shí)驗(yàn)開(kāi)啟但是服務(wù)端未生效的問(wèn)題,可能是上線流程存在問(wèn)題,如果檢查不及時(shí)在第二天才發(fā)現(xiàn),會(huì)影響項(xiàng)目進(jìn)度。

如果實(shí)驗(yàn)流量比例過(guò)高導(dǎo)致性能壓力劇增,需要調(diào)低流量比例。

3. 實(shí)驗(yàn)開(kāi)啟后的過(guò)濾策略或排序策略是否生效

如果是過(guò)濾策略,需要檢查用戶推薦日志中實(shí)驗(yàn)組需要過(guò)濾的內(nèi)容標(biāo)簽是否存在。

如果是排序策略,需要對(duì)用戶推薦日志中的前50條結(jié)果進(jìn)行隨機(jī)抽樣分析,檢查帶有響應(yīng)標(biāo)簽的內(nèi)容排序是否更靠前。策略產(chǎn)品經(jīng)理需要驗(yàn)證上線產(chǎn)品是否符合預(yù)期并記錄到實(shí)驗(yàn)文檔中。

六、檢查點(diǎn)2

上線24小時(shí)后觀察數(shù)據(jù)變化,此時(shí)檢查的重點(diǎn)是實(shí)驗(yàn)是否存在更深層次的實(shí)現(xiàn)漏洞。

一般來(lái)說(shuō),24小時(shí)后的數(shù)據(jù)結(jié)果往往和結(jié)束點(diǎn)的數(shù)據(jù)結(jié)果趨勢(shì)相同,此時(shí)的檢查可以提前發(fā)現(xiàn)數(shù)據(jù)趨勢(shì),明確不符合預(yù)期的部分(如果有問(wèn)題,可以提前重新檢查一遍實(shí)現(xiàn)方式;如果沒(méi)有,則通過(guò),不用檢查)。

如果有時(shí)間,建議策略產(chǎn)品經(jīng)理再次體驗(yàn)實(shí)驗(yàn)組和對(duì)照組的策略,此次的體驗(yàn)和上次的感受是不同的,因?yàn)閷?shí)驗(yàn)開(kāi)啟時(shí)第一次體驗(yàn)實(shí)驗(yàn)組策略可能會(huì)有新奇感,并且重心在于測(cè)試邊界用例而非用同理心來(lái)理解用戶的情緒。

在檢查點(diǎn)2重新體驗(yàn)實(shí)驗(yàn)組策略,會(huì)對(duì)用戶的情緒理解得更純粹,不僅消除了新奇感帶來(lái)的誤差,而且可以更加放松地置身于產(chǎn)品中,以普通用戶的心態(tài)來(lái)使用產(chǎn)品,此時(shí)最容易獲得用戶洞察。

七、結(jié)束點(diǎn)

在結(jié)束點(diǎn)需要終止實(shí)驗(yàn),基于多天累計(jì)數(shù)據(jù),對(duì)相應(yīng)指標(biāo)進(jìn)行數(shù)據(jù)分析并形成數(shù)據(jù)報(bào)告。

關(guān)于結(jié)束點(diǎn)的選取,不同類(lèi)型的產(chǎn)品和不同的觀察指標(biāo)有所不同,具體的選擇方式如下:

  1. 對(duì)于日活級(jí)產(chǎn)品(DAU/MAU大于50%的產(chǎn)品):普通指標(biāo)需要觀察3個(gè)完整天以上(一般為4天),次日留存指標(biāo)需要觀察7個(gè)完整天以上(一般為8天),次周留存指標(biāo)需要觀察14個(gè)完整天以上(一般為15天)。
  2. 對(duì)于周活級(jí)產(chǎn)品(DAU/MAU小于50%的產(chǎn)品):此類(lèi)產(chǎn)品用戶并非每天活躍,并且具有強(qiáng)周期性。普通指標(biāo)需要觀察7個(gè)完整天以上,一般為8天,因?yàn)樾枰粋€(gè)周期內(nèi)的用戶行為對(duì)比。次日留存指標(biāo)需要觀察10個(gè)完整天以上,一般為15天,因?yàn)樾枰獌蓚€(gè)周期內(nèi),兩個(gè)分組的用戶行為對(duì)比。次周留存指標(biāo)需要14個(gè)完整以上,一般為15天,因?yàn)樾枰獌蓚€(gè)周期內(nèi)兩個(gè)分組的用戶行為對(duì)比。

以上數(shù)據(jù)為經(jīng)驗(yàn)數(shù)據(jù),主要依據(jù)是筆者經(jīng)歷的大多數(shù)A/B測(cè)試的次日留存指標(biāo)在第7天趨于穩(wěn)定,第8天、第9天、第10天和第7天的結(jié)果基本一致。

其他指標(biāo)的結(jié)束點(diǎn)時(shí)間同理,本質(zhì)上是因?yàn)橛脩粜袨閿?shù)據(jù)會(huì)逐漸收到固定的值。

結(jié)束點(diǎn)時(shí)間的選擇是“實(shí)驗(yàn)精準(zhǔn)度”和“項(xiàng)目迭代速度”的折中,如果追求實(shí)驗(yàn)精準(zhǔn)度,每個(gè)實(shí)驗(yàn)都可以開(kāi)啟一年之久,但這樣的話在緊張的項(xiàng)目迭代周期中效率就會(huì)受到影響,大多數(shù)公司以單周迭代或者雙周迭代的節(jié)奏開(kāi)展工作。

八、分析實(shí)驗(yàn)結(jié)果

在結(jié)束點(diǎn)以后策略產(chǎn)品經(jīng)理需要分析實(shí)驗(yàn)結(jié)果,并給出如下的書(shū)面分析。

  • 分析實(shí)驗(yàn)數(shù)據(jù)的結(jié)果是否符合預(yù)期,以及可能的原因。一般需要參考原始實(shí)驗(yàn)假設(shè),并且結(jié)合自己的主觀體驗(yàn)報(bào)告來(lái)嘗試回答這個(gè)問(wèn)題。
  • 符合預(yù)期的實(shí)驗(yàn),下一步優(yōu)化的點(diǎn)是什么。
  • 不符合預(yù)期的實(shí)驗(yàn),分析是假設(shè)錯(cuò)誤還是驗(yàn)證錯(cuò)誤,下一步改進(jìn)點(diǎn)是什么。

九、灰度上線

如果實(shí)驗(yàn)取得了統(tǒng)計(jì)置信的正向收益,需要對(duì)該策略進(jìn)行灰度發(fā)布,但是流程上會(huì)因是否需要發(fā)布客戶端新版本而有所區(qū)別。

  • 如果需要發(fā)版,走版本審核的通用灰度流程,一般需要在小渠道放量,觀察產(chǎn)品在不同手機(jī)型號(hào)下是否存在漏洞。
  • 如果不需要發(fā)版,關(guān)閉原試驗(yàn),在A/B測(cè)試平臺(tái)將該實(shí)驗(yàn)狀態(tài)調(diào)整為“灰度發(fā)布狀態(tài)”(平臺(tái)需要支持該功能),調(diào)整實(shí)驗(yàn)組用戶的占比,觀察天級(jí)指標(biāo)的變化情況。比如第一天放量30%,觀察目標(biāo)指標(biāo)(比如人均停留時(shí)長(zhǎng))在全量用戶上的變化?;叶壬暇€的目的是觀察A/B測(cè)試在全量用戶上真正取得的效果,此時(shí)雖然不是嚴(yán)格A/B測(cè)試驗(yàn)證,但也是十分必要的,下文會(huì)介紹為什么正收益的A/B測(cè)試全量后效果不如原實(shí)驗(yàn)結(jié)果明顯。

十、回測(cè)機(jī)制

在KPI考核周期之前一般需要有組織地對(duì)有收益的實(shí)驗(yàn)進(jìn)行回測(cè),所謂“回測(cè)”,實(shí)際上是對(duì)歷史實(shí)驗(yàn)的重新測(cè)試。

因?yàn)樵趯?shí)驗(yàn)期間有收益不代表一直存在收益(A/B測(cè)試存在局限性,可能用戶群的征分布發(fā)生了改變),所以需要對(duì)考核周期內(nèi)(比如說(shuō)一個(gè)季度內(nèi))取得了較大收益的實(shí)驗(yàn)重新測(cè)試,預(yù)期是拿到同樣正向的收益(數(shù)據(jù)幅度可能會(huì)有差別,這是正常的)。

實(shí)驗(yàn)流程是前人通過(guò)不斷試錯(cuò)總結(jié)出來(lái)的寶貴經(jīng)驗(yàn),有三個(gè)核心收益。

1. 慢即是

雖然每個(gè)實(shí)驗(yàn)規(guī)范化的文檔和對(duì)應(yīng)的檢驗(yàn)將會(huì)增加大概3小時(shí)的時(shí)間成本,但對(duì)于算法或者策略這樣為期數(shù)周且持續(xù)占用流量的實(shí)驗(yàn)來(lái)說(shuō),是非常必要的。

因?yàn)橐粋€(gè)錯(cuò)誤實(shí)現(xiàn)的實(shí)驗(yàn),輕則導(dǎo)致數(shù)周時(shí)間無(wú)效,重則導(dǎo)致重要假設(shè)的錯(cuò)誤驗(yàn)證。我們認(rèn)真做好每個(gè)實(shí)驗(yàn),會(huì)比盲目地大量做淺嘗輒止的實(shí)驗(yàn)更加高效。

實(shí)驗(yàn)迭代速度加快,不是通過(guò)減少實(shí)驗(yàn)的規(guī)范,而是通過(guò)自動(dòng)化流程的建立和效率工具的開(kāi)發(fā)來(lái)實(shí)現(xiàn)的。

2. 假設(shè)驅(qū)動(dòng)

通過(guò)系統(tǒng)的假設(shè)、實(shí)驗(yàn)驗(yàn)證的方式來(lái)進(jìn)行探索,能夠持續(xù)地增加我們對(duì)于業(yè)務(wù)、模型、數(shù)據(jù)的認(rèn)知。

A/B測(cè)試的成功率正常是小于20%的(成熟產(chǎn)品A/B測(cè)試成功率更是小于10%),但基于假設(shè)驅(qū)動(dòng)的實(shí)驗(yàn)方法,即使是失敗的實(shí)驗(yàn),我們也能從中提取知識(shí),挖掘新的優(yōu)化點(diǎn)。

另外,建立系統(tǒng)的認(rèn)知,能夠使我們找到持續(xù)可迭代的改進(jìn)方案,而非隨機(jī)的策略優(yōu)化。

3. 持續(xù)積淀

對(duì)于算法策略團(tuán)隊(duì)而言,每一個(gè)實(shí)驗(yàn)即一份學(xué)習(xí)資料,積累的實(shí)驗(yàn)報(bào)告對(duì)公司內(nèi)部的其他業(yè)務(wù)方向、新人培訓(xùn)等將有巨大的學(xué)習(xí)交流價(jià)值。

這本用無(wú)數(shù)實(shí)驗(yàn)數(shù)據(jù)總結(jié)出的“實(shí)驗(yàn)教科書(shū)”能夠放大單個(gè)實(shí)驗(yàn)的收益,筆者自己便是最好的例子,筆者和同事們共享實(shí)驗(yàn)數(shù)據(jù)庫(kù)和實(shí)驗(yàn)結(jié)論,使所有人都能更好地理解內(nèi)容推薦業(yè)務(wù),更好地理解用戶行為,實(shí)現(xiàn)縮小自我、產(chǎn)品大眾、平臺(tái)共享的價(jià)值觀。

十一、總結(jié)

本文首先介紹了策略產(chǎn)品經(jīng)理需要了解的Fisher實(shí)驗(yàn)設(shè)計(jì)三原則,策略產(chǎn)品經(jīng)理在A/B測(cè)試相關(guān)項(xiàng)目中最重要的事是通過(guò)對(duì)業(yè)務(wù)的深刻理解做出合理假設(shè)并設(shè)計(jì)實(shí)驗(yàn)(做出合理假設(shè)的基礎(chǔ)是擁有數(shù)據(jù)分析能力和用戶洞察,并非一定要了解A/B測(cè)試的數(shù)學(xué)原理)。

同時(shí),筆者介紹了不同當(dāng)下互聯(lián)網(wǎng)公司對(duì)于A/B測(cè)試重視程度,有利于部分有跳槽想法的策略產(chǎn)品經(jīng)理進(jìn)行科學(xué)決策,畢竟每家公司的基因很難改變而個(gè)人的機(jī)會(huì)成本很高,希望大家都能選擇適合自己的“產(chǎn)品環(huán)境”。

然后介紹了A/B測(cè)試的相關(guān)分類(lèi),并重申了筆者的觀點(diǎn)—A/B測(cè)試并非是所有公司的標(biāo)準(zhǔn)配置,最后介紹了實(shí)際工作中A/B測(cè)試上線的相關(guān)流程。

這些方法論是筆者多年實(shí)踐經(jīng)驗(yàn)所得,根據(jù)經(jīng)驗(yàn)估算可以將A/B測(cè)試的失敗率從30%~40%降低至5%左右。

在項(xiàng)目推進(jìn)周期中,常見(jiàn)的情況是某個(gè)A/B測(cè)試實(shí)驗(yàn)開(kāi)啟一周后發(fā)現(xiàn)實(shí)驗(yàn)方式存在問(wèn)題,以致于需要修復(fù)漏洞甚至推倒重來(lái),而在緊張的項(xiàng)目周期中7天時(shí)間十分寶貴。

提升A/B測(cè)試實(shí)驗(yàn)成功率(實(shí)驗(yàn)后數(shù)據(jù)顯著提升)的兩個(gè)核心秘訣是遵守實(shí)驗(yàn)流程和做出有數(shù)據(jù)依據(jù)的用戶假設(shè)。

 

作者:韓瞳,文章選自《策略產(chǎn)品經(jīng)理實(shí)踐》,2020年7月出版。

未經(jīng)出版社或作者書(shū)面授權(quán),禁止轉(zhuǎn)載,違者追究法律責(zé)任

題圖來(lái)自?Unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 謝謝分享,以前在新媒體運(yùn)營(yíng)的書(shū)籍上看到過(guò)A/B測(cè)試,雖然看了作者比較詳細(xì)的介紹,但還是覺(jué)得不會(huì)怎么開(kāi)展工作,畢竟沒(méi)有實(shí)戰(zhàn)的機(jī)會(huì)。對(duì)于自動(dòng)化工具的開(kāi)發(fā)也是很感興趣的,但是不知道怎樣能夠?qū)崿F(xiàn),編程的話自己又不懂。

    來(lái)自廣東 回復(fù)
专题
14271人已学习12篇文章
苹果发布了Vision Pro这款MR头显,而这一产品的出现,也让我们看到了更多有关空间体验设计的相关可能。本专题的文章分享了Vision Pro的设计和交互指南。
专题
19678人已学习18篇文章
物流仓储系统是实现物流高效运转的基础。本专题的文章提供了物流仓储系统设计指南。
专题
12473人已学习12篇文章
本专题的文章分享了系统首页设计指南。
专题
18659人已学习12篇文章
如何设计出一个抓住他人眼球的feed流 ?feed流的组成元素以及常见的feed流样式?本专题的文章提供了对于feed流设计的思考。
专题
14318人已学习13篇文章
作为一名运营,需要持续对自己的经验进行总结并不断更新迭代。本专题的文章分享了运营方法论。
专题
14601人已学习14篇文章
用户生命周期是每个产品经理都必须要注意的一个点,它能够衡量用户对产品产生的价值,也是运营手段的最终衡量指标。本专题的文章分享了如何做好用户生命周期管理。