從0到1玩轉(zhuǎn)AB測(cè)試評(píng)估體系搭建
本文以一個(gè)擁有數(shù)千萬(wàn)用戶的頭部物流APP為例,詳細(xì)介紹如何基于Google的多層實(shí)驗(yàn)框架建立AB測(cè)試評(píng)估體系,從而精確度量和改進(jìn)產(chǎn)品的多種交互場(chǎng)景。
一、應(yīng)用場(chǎng)景
某頭部互聯(lián)網(wǎng)APP目前擁有數(shù)千萬(wàn)級(jí)別的用戶量,每天有數(shù)百萬(wàn)用戶在app上使用寄快遞、查快遞、網(wǎng)點(diǎn)查詢、運(yùn)費(fèi)查詢等相關(guān)服務(wù)。
在日常用戶精細(xì)化運(yùn)營(yíng)中,需要準(zhǔn)確評(píng)估大量交互場(chǎng)景,以輔助業(yè)務(wù)決策。
AB測(cè)試是一種常用的數(shù)據(jù)驅(qū)動(dòng)方法,用于評(píng)估不同版本的用戶界面、功能或設(shè)計(jì)。
它旨在幫助決策者了解哪個(gè)版本能夠更好地滿足用戶需求,優(yōu)化產(chǎn)品并改善用戶體驗(yàn)。
本文將基于Google多層實(shí)驗(yàn)框架原理,來進(jìn)行AB測(cè)試評(píng)估體系搭建的探索研究。
二、解決方案
AB測(cè)試通過為同一個(gè)迭代目標(biāo)制定兩個(gè)或多個(gè)策略方案,并在同一時(shí)間維度內(nèi)讓具有相同(或相似)組成成分的A/B群組分別采用這些策略,收集各群組的體驗(yàn)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù),最后分析評(píng)估出最佳策略,使迭代朝著更好的方向演進(jìn)。
1. 關(guān)鍵步驟
AB測(cè)試評(píng)估體系構(gòu)建通常包括以下3個(gè)關(guān)鍵步驟:
(1)樣本量測(cè)算;
(2)樣本分流;
(3)評(píng)估機(jī)制(顯著性檢測(cè))
2. 樣本量測(cè)算
在AB測(cè)試中,樣本量的測(cè)算至關(guān)重要。樣本量大小會(huì)影響實(shí)驗(yàn)結(jié)果的可靠性和統(tǒng)計(jì)顯著性。以下是常見的樣本量測(cè)算公式:
其中:
n為總樣本量;
α和β分別為第一類錯(cuò)誤概率和第二類錯(cuò)誤概率,一般取0.05和0.2;
Z為正態(tài)分布的分位數(shù)函數(shù), Z1?α/2=1.96,Z1?β=0.84;
δ代表預(yù)期實(shí)驗(yàn)組和對(duì)照組兩組數(shù)據(jù)的差值。
在AB測(cè)試中還會(huì)涉及到樣本隨機(jī)化和多重檢驗(yàn)校正等。建議根據(jù)具體情況綜合考慮這些因素,以確保獲得合適且有效的樣本量。
3. 樣本分流
在Google多層實(shí)驗(yàn)框架中,樣本hash分流是一種常見方法。
基于分流算法,將樣本均勻地分配至不同實(shí)驗(yàn)中。在實(shí)際操作過程中使用參與者的唯一標(biāo)識(shí)符(如會(huì)員號(hào)或Cookie)作為輸入,并將其通過哈希函數(shù)轉(zhuǎn)換為一個(gè)固定范圍內(nèi)的哈希值。該哈希值可用于確定參與者被分配到哪個(gè)實(shí)驗(yàn)組。
通過使用hash分流方法,可以確保每個(gè)參與者在樣本中都具有相同概率被隨機(jī)地分配到不同實(shí)驗(yàn)組,并減少偏差,在評(píng)估不同變體之間的差異時(shí)保證可靠性。
4. 顯著性評(píng)估
構(gòu)建AB測(cè)試顯著性評(píng)估機(jī)制非常關(guān)鍵,它有助于確定實(shí)驗(yàn)結(jié)果是否具有統(tǒng)計(jì)上的顯著性。步驟如下:
Step 1:確定希望使用的顯著性水平(即第一類錯(cuò)誤指拒絕了正確假設(shè)),通常情況下表示為α。
Step 2:確定所需樣本量:為確保實(shí)驗(yàn)結(jié)果達(dá)到所需統(tǒng)計(jì)顯著性水平,在目標(biāo)效應(yīng)大小、所選顯著性水平和統(tǒng)計(jì)功效之間進(jìn)行計(jì)算。
Step 3:選擇適當(dāng)?shù)慕y(tǒng)計(jì)檢驗(yàn)方法:根據(jù)實(shí)際設(shè)計(jì)和指標(biāo)類型選擇適當(dāng)?shù)慕y(tǒng)計(jì)檢驗(yàn)方法(如t檢驗(yàn)或卡方檢驗(yàn))。
Step 4:在實(shí)驗(yàn)結(jié)束后收集實(shí)驗(yàn)組和對(duì)照組數(shù)據(jù),并使用所選統(tǒng)計(jì)檢驗(yàn)方法進(jìn)行假設(shè)檢驗(yàn),并基于觀察到差異計(jì)算P值。
Step 5:P值代表觀察到結(jié)果或更極端結(jié)果出現(xiàn)概率。如果P值小于預(yù)先設(shè)定的顯著性水平,則可以拒絕原始假設(shè)并得出結(jié)論認(rèn)為結(jié)果具有統(tǒng)計(jì)上顯著性。
5. ab測(cè)試評(píng)估體系流程圖
基于上述最小樣本量測(cè)算、hash分流以及顯著性評(píng)估等步驟,在構(gòu)建AB測(cè)試系統(tǒng)時(shí)可以考慮以下模塊:實(shí)驗(yàn)配置、分流、計(jì)算、分析輸出等模塊。
重要模塊功能說明
(a)實(shí)驗(yàn)?zāi)K:由業(yè)務(wù)方完成相關(guān)配置,例如定義實(shí)際評(píng)估指標(biāo)、設(shè)置實(shí)際評(píng)估周期以及確定實(shí)施方式;
(b)計(jì)算模塊:基于歷史數(shù)據(jù)值來完成當(dāng)前所需最小樣本量測(cè)算;
(c)分流模塊:根據(jù)最小樣本量以及配置好的分組信息利用hash打散方式 進(jìn)行均勻分流(推薦采用二次hash方式來規(guī)避碰撞問題),以保證樣本共享且被隨機(jī)地劃入不同試驗(yàn)證明理義;
(d)分析輸出模塊:采用所選統(tǒng)計(jì)檢驗(yàn)證法進(jìn)行假設(shè)檢義,并通過比較觀察到結(jié)果與初期設(shè)定閾值來判斷是否存在顯著差異。
完整ab測(cè)試系統(tǒng)數(shù)據(jù)流程圖如下圖所示。
三、應(yīng)用案例
基于Google多層實(shí)驗(yàn)框架進(jìn)行線增ab測(cè)試評(píng)估體系的搭建,1年里累計(jì)支撐業(yè)務(wù)評(píng)估實(shí)驗(yàn)1000+項(xiàng)。
本文由 @佑佑和博博~ 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!