從0到1玩轉(zhuǎn)AB測試評估體系搭建
本文以一個擁有數(shù)千萬用戶的頭部物流APP為例,詳細(xì)介紹如何基于Google的多層實(shí)驗(yàn)框架建立AB測試評估體系,從而精確度量和改進(jìn)產(chǎn)品的多種交互場景。
一、應(yīng)用場景
某頭部物流類APP目前擁有數(shù)千萬級別的用戶量,每天有數(shù)百萬用戶在app上使用寄快遞、查快遞、網(wǎng)點(diǎn)查詢、運(yùn)費(fèi)查詢等相關(guān)服務(wù)。
在日常用戶精細(xì)化運(yùn)營中,需要準(zhǔn)確評估大量交互場景,以輔助業(yè)務(wù)決策。
AB測試是一種常用的數(shù)據(jù)驅(qū)動方法,用于評估不同版本的用戶界面、功能或設(shè)計。
它旨在幫助決策者了解哪個版本能夠更好地滿足用戶需求,優(yōu)化產(chǎn)品并改善用戶體驗(yàn)。
本文將基于Google多層實(shí)驗(yàn)框架原理,來進(jìn)行AB測試評估體系搭建的探索研究。
二、解決方案
AB測試通過為同一個迭代目標(biāo)制定兩個或多個策略方案,并在同一時間維度內(nèi)讓具有相同(或相似)組成成分的A/B群組分別采用這些策略,收集各群組的體驗(yàn)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù),最后分析評估出最佳策略,使迭代朝著更好的方向演進(jìn)。
1. 關(guān)鍵步驟
AB測試評估體系構(gòu)建通常包括以下3個關(guān)鍵步驟:
(1)樣本量測算;
(2)樣本分流;
(3)評估機(jī)制(顯著性檢測)
2. 樣本量測算
在AB測試中,樣本量的測算至關(guān)重要。樣本量大小會影響實(shí)驗(yàn)結(jié)果的可靠性和統(tǒng)計顯著性。以下是常見的樣本量測算公式:
其中:
n為總樣本量;
α和β分別為第一類錯誤概率和第二類錯誤概率,一般取0.05和0.2;
Z為正態(tài)分布的分位數(shù)函數(shù), Z1?α/2=1.96,Z1?β=0.84;
δ代表預(yù)期實(shí)驗(yàn)組和對照組兩組數(shù)據(jù)的差值。
在AB測試中還會涉及到樣本隨機(jī)化和多重檢驗(yàn)校正等。建議根據(jù)具體情況綜合考慮這些因素,以確保獲得合適且有效的樣本量。
3. 樣本分流
在Google多層實(shí)驗(yàn)框架中,樣本hash分流是一種常見方法。
基于分流算法,將樣本均勻地分配至不同實(shí)驗(yàn)中。在實(shí)際操作過程中使用參與者的唯一標(biāo)識符(如會員號或Cookie)作為輸入,并將其通過哈希函數(shù)轉(zhuǎn)換為一個固定范圍內(nèi)的哈希值。該哈希值可用于確定參與者被分配到哪個實(shí)驗(yàn)組。
通過使用hash分流方法,可以確保每個參與者在樣本中都具有相同概率被隨機(jī)地分配到不同實(shí)驗(yàn)組,并減少偏差,在評估不同變體之間的差異時保證可靠性。
4. 顯著性評估
構(gòu)建AB測試顯著性評估機(jī)制非常關(guān)鍵,它有助于確定實(shí)驗(yàn)結(jié)果是否具有統(tǒng)計上的顯著性。步驟如下:
Step 1:確定希望使用的顯著性水平(即第一類錯誤指拒絕了正確假設(shè)),通常情況下表示為α。
Step 2:確定所需樣本量:為確保實(shí)驗(yàn)結(jié)果達(dá)到所需統(tǒng)計顯著性水平,在目標(biāo)效應(yīng)大小、所選顯著性水平和統(tǒng)計功效之間進(jìn)行計算。
Step 3:選擇適當(dāng)?shù)慕y(tǒng)計檢驗(yàn)方法:根據(jù)實(shí)際設(shè)計和指標(biāo)類型選擇適當(dāng)?shù)慕y(tǒng)計檢驗(yàn)方法(如t檢驗(yàn)或卡方檢驗(yàn))。
Step 4:在實(shí)驗(yàn)結(jié)束后收集實(shí)驗(yàn)組和對照組數(shù)據(jù),并使用所選統(tǒng)計檢驗(yàn)方法進(jìn)行假設(shè)檢驗(yàn),并基于觀察到差異計算P值。
Step 5:P值代表觀察到結(jié)果或更極端結(jié)果出現(xiàn)概率。如果P值小于預(yù)先設(shè)定的顯著性水平,則可以拒絕原始假設(shè)并得出結(jié)論認(rèn)為結(jié)果具有統(tǒng)計上顯著性。
5. ab測試評估體系流程圖
基于上述最小樣本量測算、hash分流以及顯著性評估等步驟,在構(gòu)建線上用戶增長中心AB測試系統(tǒng)時可以考慮以下模塊:實(shí)驗(yàn)配置、分流、計算、分析輸出等模塊。
重要模塊功能說明
(a)實(shí)驗(yàn)?zāi)K:由業(yè)務(wù)方完成相關(guān)配置,例如定義實(shí)際評估指標(biāo)、設(shè)置實(shí)際評估周期以及確定實(shí)施方式;
(b)計算模塊:基于歷史數(shù)據(jù)值來完成當(dāng)前所需最小樣本量測算;
(c)分流模塊:根據(jù)最小樣本量以及配置好的分組信息利用hash打散方式 進(jìn)行均勻分流(推薦采用二次hash方式來規(guī)避碰撞問題),以保證樣本共享且被隨機(jī)地劃入不同試驗(yàn)證明理義;
(d)分析輸出模塊:采用所選統(tǒng)計檢驗(yàn)證法進(jìn)行假設(shè)檢義,并通過比較觀察到結(jié)果與初期設(shè)定閾值來判斷是否存在顯著差異。
完整ab測試系統(tǒng)數(shù)據(jù)流程圖如下圖所示。
三、應(yīng)用案例
基于Google多層實(shí)驗(yàn)框架進(jìn)行線增ab測試評估體系的搭建,期間(22年9月到24年2月)累計支撐業(yè)務(wù)評估實(shí)驗(yàn)1000+項(xiàng)。
本文由 @yyandbb415 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!