【A/B測(cè)試算法大揭秘】第五篇:少了它,版本決策將毫無意義

1 評(píng)論 15481 瀏覽 51 收藏 6 分鐘
🔗 产品经理在不同的职业阶段,需要侧重不同的方面,从基础技能、业务深度、专业领域到战略规划和管理能力。

從一切的根基中心極限定理,到如何根據(jù)數(shù)據(jù)分析解讀最終選出真正意義上的最優(yōu)版本,相信大家能夠?qū)/B測(cè)試的原理有一個(gè)大概的了解。

關(guān)于如何避免假設(shè)檢驗(yàn)中第I類錯(cuò)誤,我們引入了P-value和置信區(qū)間的概念。而想要降低假設(shè)檢驗(yàn)中第II類錯(cuò)誤的出現(xiàn)概率β(Beta),就需要了解今天文章中講解的另一個(gè)檢驗(yàn)工具——統(tǒng)計(jì)功效。

什么是統(tǒng)計(jì)功效

1

在假設(shè)檢驗(yàn)中,第II類錯(cuò)誤的定義是:當(dāng)原假設(shè)為假時(shí)沒有拒絕原假設(shè)。也就是說,當(dāng)兩個(gè)版本確實(shí)有比較顯著的差異時(shí),我們并沒有判斷這兩個(gè)版本有區(qū)別。

統(tǒng)計(jì)學(xué)中,將第II類錯(cuò)誤的概率命名為 β(Beta),統(tǒng)計(jì)功效Power就是我們沒有犯第II類錯(cuò)誤的概率(1-β)。換句話說,我們?cè)O(shè)計(jì)了兩個(gè)版本,需要對(duì)比兩個(gè)版本帶來的效應(yīng)差異,如果假定的效應(yīng)差異的確存在,在給定的置信水平α下,我們有多大的概率能得到統(tǒng)計(jì)顯著性的結(jié)果,或者說我們有多大概率能發(fā)現(xiàn)這個(gè)差異。

為了提高原假設(shè)為假時(shí)我們做出正確判斷(拒絕原假設(shè))的概率,使結(jié)果更加可靠,統(tǒng)計(jì)功效的值越大越好。一般來說,當(dāng)統(tǒng)計(jì)功效取到80%~95%時(shí),結(jié)果就是比較可信的了。

統(tǒng)計(jì)功效的意義

由統(tǒng)計(jì)功效的計(jì)算公式可知,統(tǒng)計(jì)功效的值與樣本量、方差、效應(yīng)大小以及顯著性標(biāo)準(zhǔn)α相互關(guān)聯(lián)。換句話說,只要得知上述公式中的幾個(gè)數(shù)據(jù)值,就可以根據(jù)公式推導(dǎo),計(jì)算出想要探求的數(shù)值。

例如:通過給定的統(tǒng)計(jì)功效值,就可以推算出A/B測(cè)試中每個(gè)版本樣本用戶數(shù)的最小值。之后,將計(jì)算出的最小樣本數(shù)與版本的實(shí)際用戶數(shù)量進(jìn)行對(duì)比。若版本用戶數(shù)超過最小樣本數(shù),則說明統(tǒng)計(jì)功效足夠,可以得出試驗(yàn)的最后結(jié)論。

究竟哪個(gè)版本才是值得發(fā)布的

上一章中,我們講述了如何判斷試驗(yàn)版本的結(jié)果是否是統(tǒng)計(jì)顯著的。然而,只有當(dāng)試驗(yàn)版本的結(jié)果兼?zhèn)浣y(tǒng)計(jì)顯著和效果顯著兩個(gè)特征時(shí),才說明這個(gè)試驗(yàn)的結(jié)束時(shí)機(jī)已經(jīng)成熟,該版本是真正值得發(fā)布的。因此,我們需要引入一個(gè)“最小重要變化”的概念來幫助我們判斷和決策。

用白話翻譯一下,就好比:你前期先投入了50塊錢置辦設(shè)備,每個(gè)包子定價(jià)5元。所以,只有在賣掉了10個(gè)包子(收入50元)之后,你策劃并實(shí)施的這個(gè)事件才正式進(jìn)入了盈利階段。道理很簡(jiǎn)單,其實(shí)就是回本了嘛!那么在整個(gè)事件里,“收入50元”就是這個(gè)事件中的“最小重要變化”,也就是一個(gè)最小的可接受效果標(biāo)準(zhǔn)。

同理推論到企業(yè)的A/B測(cè)試,就更需要考慮相關(guān)的成本問題(有時(shí)甚至遠(yuǎn)不止于此)。因此,只有檢測(cè)到的效果差異在“最小重要變化”的標(biāo)準(zhǔn)之上,我們才認(rèn)為這個(gè)版本是有實(shí)際價(jià)值的。這個(gè)標(biāo)準(zhǔn)通常由指標(biāo)的具體意義和我們的優(yōu)化需求來確定,例如1%或者5%。

下面我們來看一個(gè)具體案例:

2
這是5個(gè)不同版本的試驗(yàn)數(shù)據(jù),在最小重要變化為5%的情況下,我們可以應(yīng)用這個(gè)標(biāo)準(zhǔn)來對(duì)試驗(yàn)數(shù)據(jù)做進(jìn)一步的判斷:

3

首先,觀察每個(gè)版本的置信區(qū)間,發(fā)現(xiàn)Case4和Case5的置信區(qū)間不閉合,所以方案不可用,而Case1-3的置信區(qū)間上下限均為正,說明這三個(gè)版本相比原始版本來說都有提升。再引入最小重要變化5%,可以看到只有Case1的區(qū)間下限高于標(biāo)準(zhǔn)值。因此,我們判斷,在最小重要變化為5%的情況下,只有Case1是實(shí)際效果最佳的版本。

關(guān)于置信區(qū)間的系列講解到今天就算告一段落了,從一切的根基中心極限定理,到如何根據(jù)數(shù)據(jù)分析解讀最終選出真正意義上的最優(yōu)版本,相信大家能夠?qū)/B測(cè)試的原理有一個(gè)大概的了解。

 

作者:吆喝科技,微信公眾號(hào)(appadhoc)。

本文由 @吆喝科技 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 測(cè)試用例

    來自河北 回復(fù)
专题
16377人已学习12篇文章
本专题的文章分享了对账体系的设计思路。
专题
15306人已学习12篇文章
本专题的文章分享了互联网金融风控体系的设计指南。
专题
15277人已学习12篇文章
逻辑图是用图标符号、说明文字以及连接线等,形象化地表达复数要素之间的相互作用关系。本专题的文章分享了如何绘制逻辑图。
专题
14194人已学习13篇文章
如果做小红书运营?本专题的文章分享了小红书流量密码。
专题
13306人已学习12篇文章
需求管理,也是产品运营人工作中非常重要的一个任务。本专题的文章分享了如何做需求管理。
专题
13591人已学习12篇文章
如何快速了解一个行业?这需要你对这一行业进行细致的调研,了解当下的整体市场环境与未来的发展趋势,进而为后续的产品规划做好准备。本专题的文章分享了行业调研指南。