從0到1玩轉(zhuǎn)AB測(cè)試評(píng)估體系搭建

0 評(píng)論 1478 瀏覽 21 收藏 7 分鐘
🔗 产品经理专业技能指的是:需求分析、数据分析、竞品分析、商业分析、行业分析、产品设计、版本管理、用户调研等。

本文以一個(gè)擁有數(shù)千萬(wàn)用戶的頭部物流APP為例,詳細(xì)介紹如何基于Google的多層實(shí)驗(yàn)框架建立AB測(cè)試評(píng)估體系,從而精確度量和改進(jìn)產(chǎn)品的多種交互場(chǎng)景。

一、應(yīng)用場(chǎng)景

某頭部互聯(lián)網(wǎng)APP目前擁有數(shù)千萬(wàn)級(jí)別的用戶量,每天有數(shù)百萬(wàn)用戶在app上使用寄快遞、查快遞、網(wǎng)點(diǎn)查詢、運(yùn)費(fèi)查詢等相關(guān)服務(wù)。

在日常用戶精細(xì)化運(yùn)營(yíng)中,需要準(zhǔn)確評(píng)估大量交互場(chǎng)景,以輔助業(yè)務(wù)決策。

AB測(cè)試是一種常用的數(shù)據(jù)驅(qū)動(dòng)方法,用于評(píng)估不同版本的用戶界面、功能或設(shè)計(jì)。

它旨在幫助決策者了解哪個(gè)版本能夠更好地滿足用戶需求,優(yōu)化產(chǎn)品并改善用戶體驗(yàn)。

本文將基于Google多層實(shí)驗(yàn)框架原理,來進(jìn)行AB測(cè)試評(píng)估體系搭建的探索研究。

二、解決方案

AB測(cè)試通過為同一個(gè)迭代目標(biāo)制定兩個(gè)或多個(gè)策略方案,并在同一時(shí)間維度內(nèi)讓具有相同(或相似)組成成分的A/B群組分別采用這些策略,收集各群組的體驗(yàn)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù),最后分析評(píng)估出最佳策略,使迭代朝著更好的方向演進(jìn)。

1. 關(guān)鍵步驟

AB測(cè)試評(píng)估體系構(gòu)建通常包括以下3個(gè)關(guān)鍵步驟:

(1)樣本量測(cè)算;

(2)樣本分流;

(3)評(píng)估機(jī)制(顯著性檢測(cè))

2. 樣本量測(cè)算

在AB測(cè)試中,樣本量的測(cè)算至關(guān)重要。樣本量大小會(huì)影響實(shí)驗(yàn)結(jié)果的可靠性和統(tǒng)計(jì)顯著性。以下是常見的樣本量測(cè)算公式:

其中:

n為總樣本量;

α和β分別為第一類錯(cuò)誤概率和第二類錯(cuò)誤概率,一般取0.05和0.2;

Z為正態(tài)分布的分位數(shù)函數(shù), Z1?α/2=1.96,Z1?β=0.84;

δ代表預(yù)期實(shí)驗(yàn)組和對(duì)照組兩組數(shù)據(jù)的差值。

在AB測(cè)試中還會(huì)涉及到樣本隨機(jī)化和多重檢驗(yàn)校正等。建議根據(jù)具體情況綜合考慮這些因素,以確保獲得合適且有效的樣本量。

3. 樣本分流

在Google多層實(shí)驗(yàn)框架中,樣本hash分流是一種常見方法。

基于分流算法,將樣本均勻地分配至不同實(shí)驗(yàn)中。在實(shí)際操作過程中使用參與者的唯一標(biāo)識(shí)符(如會(huì)員號(hào)或Cookie)作為輸入,并將其通過哈希函數(shù)轉(zhuǎn)換為一個(gè)固定范圍內(nèi)的哈希值。該哈希值可用于確定參與者被分配到哪個(gè)實(shí)驗(yàn)組。

通過使用hash分流方法,可以確保每個(gè)參與者在樣本中都具有相同概率被隨機(jī)地分配到不同實(shí)驗(yàn)組,并減少偏差,在評(píng)估不同變體之間的差異時(shí)保證可靠性。

4. 顯著性評(píng)估

構(gòu)建AB測(cè)試顯著性評(píng)估機(jī)制非常關(guān)鍵,它有助于確定實(shí)驗(yàn)結(jié)果是否具有統(tǒng)計(jì)上的顯著性。步驟如下:

Step 1:確定希望使用的顯著性水平(即第一類錯(cuò)誤指拒絕了正確假設(shè)),通常情況下表示為α。

Step 2:確定所需樣本量:為確保實(shí)驗(yàn)結(jié)果達(dá)到所需統(tǒng)計(jì)顯著性水平,在目標(biāo)效應(yīng)大小、所選顯著性水平和統(tǒng)計(jì)功效之間進(jìn)行計(jì)算。

Step 3:選擇適當(dāng)?shù)慕y(tǒng)計(jì)檢驗(yàn)方法:根據(jù)實(shí)際設(shè)計(jì)和指標(biāo)類型選擇適當(dāng)?shù)慕y(tǒng)計(jì)檢驗(yàn)方法(如t檢驗(yàn)或卡方檢驗(yàn))。

Step 4:在實(shí)驗(yàn)結(jié)束后收集實(shí)驗(yàn)組和對(duì)照組數(shù)據(jù),并使用所選統(tǒng)計(jì)檢驗(yàn)方法進(jìn)行假設(shè)檢驗(yàn),并基于觀察到差異計(jì)算P值。

Step 5:P值代表觀察到結(jié)果或更極端結(jié)果出現(xiàn)概率。如果P值小于預(yù)先設(shè)定的顯著性水平,則可以拒絕原始假設(shè)并得出結(jié)論認(rèn)為結(jié)果具有統(tǒng)計(jì)上顯著性。

5. ab測(cè)試評(píng)估體系流程圖

基于上述最小樣本量測(cè)算、hash分流以及顯著性評(píng)估等步驟,在構(gòu)建AB測(cè)試系統(tǒng)時(shí)可以考慮以下模塊:實(shí)驗(yàn)配置、分流、計(jì)算、分析輸出等模塊。

重要模塊功能說明

(a)實(shí)驗(yàn)?zāi)K:由業(yè)務(wù)方完成相關(guān)配置,例如定義實(shí)際評(píng)估指標(biāo)、設(shè)置實(shí)際評(píng)估周期以及確定實(shí)施方式;

(b)計(jì)算模塊:基于歷史數(shù)據(jù)值來完成當(dāng)前所需最小樣本量測(cè)算;

(c)分流模塊:根據(jù)最小樣本量以及配置好的分組信息利用hash打散方式 進(jìn)行均勻分流(推薦采用二次hash方式來規(guī)避碰撞問題),以保證樣本共享且被隨機(jī)地劃入不同試驗(yàn)證明理義;

(d)分析輸出模塊:采用所選統(tǒng)計(jì)檢驗(yàn)證法進(jìn)行假設(shè)檢義,并通過比較觀察到結(jié)果與初期設(shè)定閾值來判斷是否存在顯著差異。

完整ab測(cè)試系統(tǒng)數(shù)據(jù)流程圖如下圖所示。

三、應(yīng)用案例

基于Google多層實(shí)驗(yàn)框架進(jìn)行線增ab測(cè)試評(píng)估體系的搭建,1年里累計(jì)支撐業(yè)務(wù)評(píng)估實(shí)驗(yàn)1000+項(xiàng)。

本文由 @佑佑和博博~ 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!
专题
13127人已学习12篇文章
知识管理是什么?通常来看,想理解知识管理,可以从业务、管理、实施等视角切入。本专题的文章分享了如何做知识管理。
专题
12245人已学习12篇文章
广告营销是为了销售产品,既然花了钱当然希望能给产品的销量带来增长。本专题的文章分享了广告营销指南。
专题
11770人已学习12篇文章
增长这个话题,是互联网产品在成长过程中绕不过的问题。本专题的文章分享了产品增长指南。
专题
11609人已学习12篇文章
2023年双十一逐渐临近,各个电商平台也摩拳擦掌开始准备。本专题的文章分享了双十一营销玩法。
专题
12663人已学习13篇文章
随着互联网在大众生活中的不断普及与深入发展,互联网医疗这一全新的医疗健康服务业态发展趋势向好。本专题的文章分享了互联网医疗行业分析和竞品分析报告。