六大環(huán)節(jié),教你如何從 0 到 1 搭建一場(chǎng) A/B 測(cè)試

3 評(píng)論 5999 瀏覽 27 收藏 18 分鐘

隨著“增長(zhǎng)黑客”概念的盛行,A/B 測(cè)試作為“數(shù)據(jù)驅(qū)動(dòng)增長(zhǎng)”的最佳實(shí)踐受到了國(guó)內(nèi)外眾多公司的青睞。許多童鞋想要了解A/B測(cè)試卻不知該從何處下手,本文作者基于A/B測(cè)試的六大環(huán)節(jié),與大家分享小白入門A/B測(cè)試指南。推薦對(duì)此感興趣的童鞋閱讀分享~

隨著“增長(zhǎng)黑客”概念的盛行,A/B 測(cè)試作為“數(shù)據(jù)驅(qū)動(dòng)增長(zhǎng)”的最佳實(shí)踐受到了國(guó)內(nèi)外眾多公司的青睞。

A/B 測(cè)試的目的在于通過(guò)科學(xué)的試驗(yàn)設(shè)計(jì)、高效精準(zhǔn)的流量分割算法來(lái)獲取具有代表性的試驗(yàn)結(jié)論,并將該結(jié)論推廣運(yùn)用至全部流量。目前,A/B 測(cè)試已廣泛運(yùn)用于產(chǎn)品交互設(shè)計(jì)、推薦算法、運(yùn)營(yíng)策略制定等方方面面,在最優(yōu)方案的判斷與決策過(guò)程中為公司提供有力的數(shù)據(jù)支持。

因?yàn)槭忻嫔蠈?duì)于 A/B 測(cè)試搭建的信息都比較碎片化,沒有成體系化的梳理,且缺少標(biāo)準(zhǔn)化、規(guī)范化的 A/B 測(cè)試工具,所以,我們結(jié)合數(shù)百場(chǎng) A/B 測(cè)試的服務(wù)及交付經(jīng)驗(yàn),總結(jié)、沉淀出了建立假設(shè)、確定評(píng)價(jià)指標(biāo)、設(shè)計(jì)試驗(yàn)、運(yùn)行試驗(yàn)并獲取數(shù)據(jù)、結(jié)果分析、最終決策六大環(huán)節(jié),幫助企業(yè)順利落地 A/B 測(cè)試,為客戶帶來(lái)價(jià)值。

一、建立假設(shè)

A/B 測(cè)試最核心的原理是假設(shè)檢驗(yàn)。先假設(shè),然后根據(jù)數(shù)據(jù)檢驗(yàn)試驗(yàn)組和對(duì)照組的結(jié)果,輔助決策。一般情況下,假設(shè)成對(duì)出現(xiàn),如果我們認(rèn)為試驗(yàn)組和對(duì)照組的結(jié)果沒有顯著差異,那么可以稱為零假設(shè)(H0);相反,則稱為備擇假設(shè)(H1)。

在試驗(yàn)前,我們需要先明確想要實(shí)現(xiàn)的結(jié)果。比如,我們希望通過(guò)優(yōu)化注冊(cè)流程,提高用戶的注冊(cè)轉(zhuǎn)化率。針對(duì)這個(gè)場(chǎng)景,零假設(shè)就是優(yōu)化后流程(試驗(yàn)組)和優(yōu)化前流程(對(duì)照組)的用戶注冊(cè)轉(zhuǎn)化率無(wú)顯著差異,備擇假設(shè)則是兩組結(jié)果有顯著差異。

另外,在建立假設(shè)的過(guò)程中,需要注意兩點(diǎn):第一,A/B 測(cè)試本身屬于因果推斷,所以要先確定原因和結(jié)果;第二,假設(shè)必須是可衡量

的,需要有相應(yīng)的評(píng)價(jià)指標(biāo)來(lái)檢驗(yàn)假設(shè)是否成立。

二、確定評(píng)價(jià)指標(biāo)

注冊(cè)流程優(yōu)化的試驗(yàn)?zāi)康氖菫榱颂岣咦?cè)轉(zhuǎn)化率,那么注冊(cè)轉(zhuǎn)化率就可以作為檢驗(yàn)假設(shè)是否成立的評(píng)價(jià)指標(biāo)。同時(shí),評(píng)價(jià)指標(biāo)也需要分層級(jí),確定唯一核心指標(biāo),輔助多個(gè)觀察指標(biāo),才能從盡可能多的角度來(lái)評(píng)估試驗(yàn)結(jié)果。

評(píng)價(jià)指標(biāo)主要分為三類:核心指標(biāo)、驅(qū)動(dòng)指標(biāo)和護(hù)欄指標(biāo)。

1. 核心指標(biāo)

核心數(shù)據(jù)指標(biāo)通常情況下只有一個(gè),或者是極少數(shù)指標(biāo)的合集,很多時(shí)候是一家公司或組織的核心 KPI,可以驅(qū)動(dòng)業(yè)務(wù)核心價(jià)值,比如注冊(cè)轉(zhuǎn)化率(衡量注冊(cè)流程優(yōu)化試驗(yàn)效果)、活動(dòng)按鈕點(diǎn)擊率(評(píng)估某項(xiàng)推廣活動(dòng)試驗(yàn)的 CTR 效果)、人均使用時(shí)長(zhǎng)(評(píng)估某項(xiàng)推薦算法對(duì)用戶粘性的改進(jìn)效果)等。

在確定核心指標(biāo)時(shí),需要滿足兩個(gè)關(guān)鍵原則:第一,簡(jiǎn)單的,易理解的,可以在公司/團(tuán)隊(duì)范圍內(nèi)被廣泛接受;第二,相對(duì)穩(wěn)定的,無(wú)需頻繁為了一個(gè)新功能更新核心指標(biāo)。

核心指標(biāo)除了用來(lái)衡量試驗(yàn)的效果,還可以用來(lái)計(jì)算試驗(yàn)所需的樣本量(將在后文中詳細(xì)介紹),由此可見,核心指標(biāo)直接關(guān)系著試驗(yàn)的成敗,需要重點(diǎn)關(guān)注。

2. 驅(qū)動(dòng)指標(biāo)

驅(qū)動(dòng)指標(biāo)一般比核心指標(biāo)更短期,變化更快也更靈敏,幫助我們更加快速、全面地觀測(cè)業(yè)務(wù)變化。我們可以通過(guò)兩個(gè)案例做進(jìn)一步了解:

在某項(xiàng)商品推廣活動(dòng)試驗(yàn)中,核心指標(biāo)是下單轉(zhuǎn)化率,運(yùn)營(yíng)同學(xué)可以使用客單價(jià)、人均下單次數(shù)、退貨率等作為驅(qū)動(dòng)指標(biāo)。觀察發(fā)現(xiàn),雖然下單率有所提升,但退貨率或客單價(jià)指標(biāo)下降,此時(shí)便需要做針對(duì)性調(diào)整。

某個(gè)視頻推薦列表試驗(yàn)中,核心指標(biāo)是人均播放視頻數(shù)量,驅(qū)動(dòng)指標(biāo)是完播率、人均觀看時(shí)長(zhǎng),通過(guò)核心指標(biāo)和多個(gè)驅(qū)動(dòng)指標(biāo)的配合來(lái)進(jìn)行推薦算法效果的評(píng)估。

通過(guò)以上我們可以看出,驅(qū)動(dòng)指標(biāo)能夠幫助我們從更多、更全面的角度來(lái)觀察試驗(yàn)給業(yè)務(wù)帶來(lái)的影響,尤其是當(dāng)發(fā)現(xiàn)問(wèn)題時(shí),能夠幫助我們及時(shí)分析原因、調(diào)整策略,通過(guò)不斷優(yōu)化達(dá)到最終的試驗(yàn)?zāi)康摹?/p>

在確定驅(qū)動(dòng)指標(biāo)時(shí),需要滿足三個(gè)原則:第一,驅(qū)動(dòng)指標(biāo)與核心指標(biāo)的目標(biāo)一致,能夠直接反映業(yè)務(wù)變化;第二,當(dāng)指標(biāo)發(fā)生變化時(shí),能夠有既定的途徑和方法來(lái)優(yōu)化指標(biāo),是可行動(dòng)、與業(yè)務(wù)相關(guān)的;第三,驅(qū)動(dòng)指標(biāo)是核心指標(biāo)的先導(dǎo)指數(shù),需要具備足夠的靈敏性,快速衡量大部分試驗(yàn)的效果。

3. 護(hù)欄指標(biāo)

護(hù)欄指標(biāo),可以理解為保護(hù)業(yè)務(wù)的指標(biāo),在實(shí)際應(yīng)用過(guò)程中,護(hù)欄指標(biāo)的異??梢杂行Х从吵鲈囼?yàn)設(shè)計(jì)、基礎(chǔ)設(shè)施、數(shù)據(jù)處理環(huán)節(jié)是否正常,能夠幫助我們?cè)谠u(píng)價(jià)試驗(yàn)效果時(shí)做出正確的權(quán)衡取舍,避免因?yàn)槎唐谥笜?biāo)優(yōu)化影響長(zhǎng)期指標(biāo),從而得出值得信任的試驗(yàn)結(jié)果。

舉個(gè)例子,我們?cè)谠囼?yàn)中設(shè)置一定的比例讓用戶命中試驗(yàn)分組(通常建議各組流量平均分配),實(shí)際運(yùn)行中如果發(fā)現(xiàn)樣本量和構(gòu)建時(shí)的預(yù)期不一致,那么可以猜測(cè)是否是分流服務(wù)出了問(wèn)題,導(dǎo)致可信度降低。

三、設(shè)計(jì)試驗(yàn)

在確定試驗(yàn)評(píng)價(jià)指標(biāo)之后,我們就可以開始進(jìn)行試驗(yàn)設(shè)計(jì),主要分為四個(gè)階段:

1. 選擇正確的試驗(yàn)主體

試驗(yàn)主體是試驗(yàn)中進(jìn)行分流的隨機(jī)化單元,在試驗(yàn)時(shí)需確保分流主體與評(píng)價(jià)指標(biāo)分析主體相同。
用戶(通常為 user_id )是當(dāng)前主流的隨機(jī)化單元。如果分流主體是用戶,那指標(biāo)分析主體也應(yīng)該是用戶,例如人均會(huì)話數(shù)、人均點(diǎn)擊量、人均支付金額等。

在實(shí)際業(yè)務(wù)場(chǎng)景中,可能使用其他分流主體,比如設(shè)備主體(device_id),按照設(shè)備進(jìn)行隨機(jī)化,意味著每臺(tái)設(shè)備產(chǎn)生的指標(biāo)數(shù)據(jù)是獨(dú)立的,比如在點(diǎn)餐機(jī)或者自動(dòng)售賣機(jī)(一般為 Android 系統(tǒng))的試驗(yàn)場(chǎng)景中,不需要用戶進(jìn)行登錄即可下單購(gòu)買,那么此時(shí)試驗(yàn)的分流主體和分析主體就是這個(gè)獨(dú)立設(shè)備,可以用每臺(tái)設(shè)備的平均下單時(shí)長(zhǎng)(完成下單的總時(shí)長(zhǎng)/獨(dú)立設(shè)備數(shù))作為評(píng)價(jià)指標(biāo),用來(lái)衡量下單頁(yè)優(yōu)化效果。

除了以上兩個(gè)常用的試驗(yàn)主體外,也會(huì)存在其他主體,例如在推薦算法試驗(yàn)中,可以用推薦的頁(yè)面(或推薦的商品)作為試驗(yàn)主體單位等,在評(píng)估選擇使用哪種隨機(jī)化單元(分流主體)時(shí),需要結(jié)合具體試驗(yàn)場(chǎng)景來(lái)考慮,可以重點(diǎn)從用戶體驗(yàn)一致性、分流主體和評(píng)價(jià)指標(biāo)主體一致性兩個(gè)角度綜合評(píng)估。

2. 確定試驗(yàn)?zāi)繕?biāo)受眾

當(dāng)我們假設(shè)了一個(gè)試驗(yàn)并選定試驗(yàn)主體時(shí),需要進(jìn)一步明確試驗(yàn)的受眾范圍,也就是說(shuō)需要明確哪些用戶參與到試驗(yàn)中。通常有完全隨機(jī)和定向篩選兩種方式:

  • 完全隨機(jī),是指不做任何干預(yù),所有的線上用戶都是目標(biāo)受眾。
  • 定向篩選,是以特定的用戶群體為目標(biāo)。比如,某在線教育 App 的會(huì)員活動(dòng)試驗(yàn)中,想要通過(guò)不同活動(dòng)來(lái)探索和提升用戶的購(gòu)買轉(zhuǎn)化,便將新用戶設(shè)定為目標(biāo)群體。

需要注意的是,當(dāng)使用定向篩選圈定受眾意味著當(dāng)前的試驗(yàn)效果只對(duì)這部分用戶有效,并不能代表線上全量用戶應(yīng)用后都具備相同顯著的效果。因此,在實(shí)驗(yàn)結(jié)束將新 Feature 固化到線上時(shí),需要考慮有針對(duì)性的發(fā)布策略。

3. 確定試驗(yàn)樣本量

(1)樣本量并非越多越好

我們都知道試驗(yàn)的樣本量大小對(duì)結(jié)果的精確度有直接影響,從統(tǒng)計(jì)學(xué)理論來(lái)講,越大的樣本量意味著有更大的幾率檢測(cè)出很小的變化,得出的結(jié)論信度就越高。

但在實(shí)際業(yè)務(wù)場(chǎng)景中,當(dāng)我們回收到優(yōu)勝方案時(shí)應(yīng)盡快發(fā)布給全量用戶,這樣才能擴(kuò)大試驗(yàn)效果、實(shí)現(xiàn)業(yè)務(wù)的全面增長(zhǎng)。另一方面,雖然 A/B 測(cè)試的目標(biāo)是驗(yàn)證某個(gè)優(yōu)化方案能夠提升收入指標(biāo)、改善用戶體驗(yàn),但試驗(yàn)總會(huì)伴隨著未知、未被考慮到的風(fēng)險(xiǎn),就有可能出現(xiàn)與假設(shè)截然相反的結(jié)果。因此,快速分析定位原因,及時(shí)調(diào)整試驗(yàn)就顯得尤為重要,“快”是A/B 測(cè)試的重要優(yōu)勢(shì),能夠快速應(yīng)用、擴(kuò)大收益;快速得出結(jié)論驅(qū)動(dòng)決策等。

在進(jìn)行試驗(yàn)設(shè)計(jì)時(shí),我們需要在實(shí)際業(yè)務(wù)場(chǎng)景和統(tǒng)計(jì)理論中做到平衡:既要保證足夠的樣本量,又要把試驗(yàn)控制在盡可能短的時(shí)間內(nèi)。

(2)如何確定試驗(yàn)所需的最小樣本量

樣本量并不是越多越好,那么該如何確定樣本的數(shù)量呢?這里我們需要了解一下中心極限定理,通俗地理解為:只要樣本量足夠大,無(wú)論是什么指標(biāo),無(wú)論對(duì)應(yīng)的指標(biāo)是如何分布的,樣本的均值分布都會(huì)趨于正態(tài)分布?;谡龖B(tài)分布,我們才能計(jì)算出相應(yīng)的樣本量,作出假設(shè)與檢驗(yàn)。

樣本量計(jì)算背后的統(tǒng)計(jì)學(xué)邏輯較為復(fù)雜,計(jì)算公式如下:

從公式中我們可以看出,樣本量主要由 α、Power、△ 和 σ^2 四個(gè)因素決定,當(dāng)確定了這幾個(gè)變量,也就確定了試驗(yàn)所需的樣本量。相關(guān)統(tǒng)計(jì)原理詳見文末「補(bǔ)充閱讀」。[1]

目前市面上有很多樣本量計(jì)算工具,其背后的統(tǒng)計(jì)邏輯基本一致,這里需要提醒大家的是,大部分工具都只能計(jì)算比率類指標(biāo),而均值類(絕對(duì)值類)指標(biāo)的計(jì)算需要用到歷史數(shù)據(jù),通常只能利用公式來(lái)進(jìn)行計(jì)算。

圖 神策數(shù)據(jù)最小樣本量計(jì)算器(數(shù)據(jù)為模擬)

4. 確定試驗(yàn)運(yùn)行時(shí)長(zhǎng)

只要試驗(yàn)結(jié)果顯著,并且符合最小樣本量,是否就可以停止試驗(yàn)了呢?答案是否定的。除了最小樣本量之外,我們還需要考慮試驗(yàn)指標(biāo)的周期性波動(dòng)以及新奇效應(yīng)影響。

(1)周期性

在實(shí)際業(yè)務(wù)運(yùn)行過(guò)程中,往往需要考慮周期性帶來(lái)的指標(biāo)變化。比如,旅游行業(yè)在周末的用戶訪問(wèn)量明顯高于工作日;而辦公軟件的各項(xiàng)指標(biāo)都證明在節(jié)假日的使用頻率遠(yuǎn)低于工作日。因此,當(dāng)需要考察的指標(biāo)自身帶有周期性特征時(shí),那么在試驗(yàn)中就必須要考慮到周期性影響,不能單純地根據(jù)結(jié)果顯著性來(lái)做決策。我們通常會(huì)建議客戶在合理的試驗(yàn)時(shí)間內(nèi)至少包含一個(gè)完整的數(shù)據(jù)波動(dòng)周期。

(2)新奇效應(yīng)

在試驗(yàn)的初始階段,可能會(huì)產(chǎn)生一些明顯的效應(yīng),并在接下來(lái)的一段時(shí)間內(nèi)趨于穩(wěn)定。原因在于剛上線新策略時(shí)用戶的興趣值較高,從而引發(fā)新奇效應(yīng);隨著時(shí)間推進(jìn),用戶的新奇感會(huì)逐漸消失。所以,在做 A/B 測(cè)試時(shí),我們需要評(píng)估引入的新策略能否引發(fā)新奇效應(yīng),從而判斷當(dāng)獲得顯著結(jié)果時(shí),是否需要延長(zhǎng)試驗(yàn)周期以得到穩(wěn)定的結(jié)果。

四、運(yùn)行試驗(yàn)并獲取數(shù)據(jù)

雖然試驗(yàn)上線前我們已經(jīng)做了充分的測(cè)試工作,但仍需要驗(yàn)證試驗(yàn)是否按照預(yù)期的設(shè)定正常運(yùn)行。其中以下兩項(xiàng)工作需要重點(diǎn)驗(yàn)證:

  • 分流驗(yàn)證:分流比例和預(yù)期設(shè)定是否一致,不同分組策略是否正常展示,用戶有無(wú)跳版本等。
  • 數(shù)據(jù)驗(yàn)證:缺少有效、準(zhǔn)備好的評(píng)估數(shù)據(jù),再多的試驗(yàn)也是徒勞。

在確保試驗(yàn)正常運(yùn)行的情況下,我們還需要對(duì)不同分組的數(shù)據(jù)進(jìn)行觀察分析,避免因?yàn)樵O(shè)計(jì)缺陷或者引入功能 bug,造成重大業(yè)務(wù)損失。

五、結(jié)果分析

A/B 測(cè)試能夠高效驅(qū)動(dòng)決策。在統(tǒng)計(jì)學(xué)中,會(huì)采用 P 值法和置信區(qū)間法評(píng)估結(jié)果顯著性,這里我們?cè)敿?xì)介紹一下使用頻率較高的置信區(qū)間法。

置信區(qū)間是一個(gè)范圍,最常見的是 95% 的置信區(qū)間。如何理解呢?對(duì)于一個(gè)隨機(jī)變量來(lái)說(shuō),95% 的概率包含總體均值的范圍,就叫做 95% 的置信區(qū)間。也可以簡(jiǎn)單理解為總體數(shù)據(jù)有 95% 的可能性在這個(gè)范圍內(nèi)。

在 A/B 測(cè)試中,我們會(huì)計(jì)算兩組指標(biāo)的差異值,如果計(jì)算得出的差異值置信區(qū)間不含 0,那么就可以拒絕零假設(shè),認(rèn)為兩組結(jié)果差異顯著;反之則接受零假設(shè),認(rèn)為兩組結(jié)果差異不顯著。

圖 神策數(shù)據(jù) A/B 測(cè)試-實(shí)驗(yàn)報(bào)告示意(數(shù)據(jù)為模擬)

六、數(shù)據(jù)驅(qū)動(dòng)決策

運(yùn)行 A/B 測(cè)試的終極目的為了提升業(yè)務(wù)指標(biāo)。那么在收集試驗(yàn)數(shù)據(jù)到最終決策的過(guò)程中需要考慮哪些因素呢?

  • 試驗(yàn)結(jié)果差異是否真實(shí)可信,是否具備統(tǒng)計(jì)顯著性?
  • 統(tǒng)計(jì)功效是否充足(通常根據(jù)是否大于 80% 來(lái)判定)?
  • 試驗(yàn)放量之后會(huì)帶來(lái)哪些風(fēng)險(xiǎn),風(fēng)險(xiǎn)處理的預(yù)備方案是什么?

顯著結(jié)果往往比較容易判斷,可以通過(guò)增加統(tǒng)計(jì)功效來(lái)提升真實(shí)顯著的幾率。但對(duì)于一些差異不顯著的試驗(yàn),就需要在試驗(yàn)方案中做出取舍,我們需要明確決策對(duì)未來(lái)可能產(chǎn)生的影響,并讓影響盡量控制在可預(yù)測(cè)的范圍內(nèi),而非局限于根據(jù)某個(gè)單一指標(biāo)來(lái)進(jìn)行決策。

以上是一個(gè)完整 A/B 測(cè)試流程,后續(xù)我們將結(jié)合具體業(yè)務(wù)案例,深入探索試驗(yàn)各個(gè)環(huán)節(jié),敬請(qǐng)期待!

補(bǔ)充閱讀:

[1] 試驗(yàn)樣本預(yù)估指南:https://manual.sensorsdata.cn/abtesting/latest/abtesting_SampleSize-58327106.html

 

作者:李世強(qiáng),神策數(shù)據(jù)產(chǎn)品經(jīng)理

本文由 @神策數(shù)據(jù) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 您這假設(shè)檢驗(yàn)都用上。。。小白不一定看得懂啊

    來(lái)自天津 回復(fù)
  2. 學(xué)廢了學(xué)廢了,讓我再仔細(xì)瞅瞅

    來(lái)自廣西 回復(fù)
  3. 原本復(fù)雜的測(cè)試說(shuō)得挺好的,發(fā)現(xiàn)仔細(xì)讀下來(lái)還是很多不懂,收藏了得空時(shí)再仔細(xì)瞧瞧

    來(lái)自廣東 回復(fù)