A/B測試算法大揭秘第四篇:置信區(qū)間究竟是怎么來的?

2 評論 33108 瀏覽 48 收藏 5 分鐘
🔗 B端产品经理需要更多地关注客户的商业需求、痛点、预算、决策流程等,而C端产品经理需要更多地关注用户的个人需求

當你的試驗已經(jīng)跑了一段時間之后,需要通過分析數(shù)據(jù)來看不同版本的行為數(shù)據(jù)表現(xiàn),從而決策出最優(yōu)版本。那么如何才能在已有數(shù)據(jù)基礎(chǔ)上,進行科學可信的統(tǒng)計推斷呢?我們將采用置信區(qū)間這個工具。它是與P-value相關(guān)的一個概念,但比P-value給出的信息更多。所以這一章,我們就將詳細介紹置信區(qū)間的概念、計算方法以及它在A/B測試中的意義。

置信區(qū)間的概念

置信區(qū)間(Confidence Interval)是用來對一個概率樣本的總體參數(shù)進行區(qū)間估計的樣本均值范圍,它展現(xiàn)了這個均值范圍包含總體參數(shù)的概率,這個概率稱為置信水平。

置信水平代表了估計的可靠度,一般而言,我們采用 95% 的置信水平進行區(qū)間估計。

置信區(qū)間的計算方法

根據(jù)統(tǒng)計學的中心極限定理,樣本均值的抽樣分布呈正態(tài)分布。

由之前介紹的t檢驗大樣本檢驗公式計算得出Z值,再根據(jù)兩個總體的均值、標準差和樣本大小,利用以下公式即可求出兩個總體均值差的95%置信區(qū)間。

123

置信區(qū)間在A/B測試中的意義

置信區(qū)間的不同表現(xiàn),可用作判斷試驗結(jié)果顯著與否的標準:在試驗運行一段時間之后(一般來說是1-2周),如果置信區(qū)間的上下限同為正,說明試驗結(jié)果是統(tǒng)計顯著的,并且試驗版本優(yōu)于對照版本;如果同為負,試驗結(jié)果也是統(tǒng)計顯著的,且對照版本優(yōu)于試驗版本;如果置信區(qū)間為一正一負,則說明版本間差異不大。

舉個例子,當兩個不同版本都以7%的小流量運行時,A版本的用戶總數(shù)(樣本大小)為33771,均值為23.01,標準差為53.21;B版本的用戶總數(shù)(樣本大?。?4190,均值為22.11,標準差為50.21。

我們可以計算出這兩個均值比較得到的變化百分值為-3.9%,但這只是根據(jù)兩個點估計計算出的新的點估計,是有誤差的,所以我們就必須找到一個概率范圍,來準確描述結(jié)果。

計算出Z值為2.28,再根據(jù)置信區(qū)間的計算公式,我們可以得出結(jié)果為-1.678,-0.112,即這個區(qū)間有95%的可能性包含兩個總體均值之差。為了更直觀,我們把這個總體均值差的置信區(qū)間轉(zhuǎn)換為相比A版本均值變化的百分比置信區(qū)間,即-7.3%,-0.5%。這時候我們就可以評價試驗的結(jié)果為:B版本不如A版本,并且有95%的可能性是差了0.5%到7.3%之間。

值得注意的是,置信區(qū)間同為正或負,只能說明試驗是統(tǒng)計顯著的(也就是試驗版本和對照版本有差異),但是這個差異有可能是非常小的,在實際應(yīng)用中微不足道的。因此,只有兼?zhèn)浣y(tǒng)計顯著和效果顯著兩個特征的結(jié)果,才能說明該版本是可用,值得發(fā)布的。

至于如何判定結(jié)果是否是效果顯著,則需要結(jié)合我們在下一章中介紹的統(tǒng)計功效來綜合考量了。

 

作者:吆喝科技,微信公眾號(appadhoc)。

本文由 @吆喝科技 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 如果置信區(qū)間的上下限同為正,說明試驗結(jié)果是統(tǒng)計顯著的,并且試驗版本優(yōu)于對照版本;如果同為負,試驗結(jié)果也是統(tǒng)計顯著的,且對照版本優(yōu)于試驗版本;如果置信區(qū)間為一正一負,則說明版本間差異不大

    為啥?

    來自廣東 回復
  2. 測試用例

    來自河北 回復