国产偷倩在线播放,无码毛片一二区视频免费播放

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

開通會(huì)員

發(fā)布

注冊(cè) | 登錄

【A/B測(cè)試算法大揭秘】第五篇：少了它，版本決策將毫無意義

吆喝科技

2016-08-16

1 評(píng)論 15481 瀏覽 51 收藏

🔗 产品经理在不同的职业阶段，需要侧重不同的方面，从基础技能、业务深度、专业领域到战略规划和管理能力。

從一切的根基中心極限定理，到如何根據(jù)數(shù)據(jù)分析解讀最終選出真正意義上的最優(yōu)版本，相信大家能夠?qū)/B測(cè)試的原理有一個(gè)大概的了解。

關(guān)于如何避免假設(shè)檢驗(yàn)中第I類錯(cuò)誤，我們引入了P-value和置信區(qū)間的概念。而想要降低假設(shè)檢驗(yàn)中第II類錯(cuò)誤的出現(xiàn)概率β（Beta），就需要了解今天文章中講解的另一個(gè)檢驗(yàn)工具——統(tǒng)計(jì)功效。

什么是統(tǒng)計(jì)功效

在假設(shè)檢驗(yàn)中，第II類錯(cuò)誤的定義是：當(dāng)原假設(shè)為假時(shí)沒有拒絕原假設(shè)。也就是說，當(dāng)兩個(gè)版本確實(shí)有比較顯著的差異時(shí)，我們并沒有判斷這兩個(gè)版本有區(qū)別。

統(tǒng)計(jì)學(xué)中，將第II類錯(cuò)誤的概率命名為 β(Beta)，統(tǒng)計(jì)功效Power就是我們沒有犯第II類錯(cuò)誤的概率（1-β）。換句話說，我們?cè)O(shè)計(jì)了兩個(gè)版本，需要對(duì)比兩個(gè)版本帶來的效應(yīng)差異，如果假定的效應(yīng)差異的確存在，在給定的置信水平α下，我們有多大的概率能得到統(tǒng)計(jì)顯著性的結(jié)果，或者說我們有多大概率能發(fā)現(xiàn)這個(gè)差異。

為了提高原假設(shè)為假時(shí)我們做出正確判斷（拒絕原假設(shè)）的概率，使結(jié)果更加可靠，統(tǒng)計(jì)功效的值越大越好。一般來說，當(dāng)統(tǒng)計(jì)功效取到80%~95%時(shí)，結(jié)果就是比較可信的了。

統(tǒng)計(jì)功效的意義

由統(tǒng)計(jì)功效的計(jì)算公式可知，統(tǒng)計(jì)功效的值與樣本量、方差、效應(yīng)大小以及顯著性標(biāo)準(zhǔn)α相互關(guān)聯(lián)。換句話說，只要得知上述公式中的幾個(gè)數(shù)據(jù)值，就可以根據(jù)公式推導(dǎo)，計(jì)算出想要探求的數(shù)值。

例如：通過給定的統(tǒng)計(jì)功效值，就可以推算出A/B測(cè)試中每個(gè)版本樣本用戶數(shù)的最小值。之后，將計(jì)算出的最小樣本數(shù)與版本的實(shí)際用戶數(shù)量進(jìn)行對(duì)比。若版本用戶數(shù)超過最小樣本數(shù)，則說明統(tǒng)計(jì)功效足夠，可以得出試驗(yàn)的最后結(jié)論。

究竟哪個(gè)版本才是值得發(fā)布的

上一章中，我們講述了如何判斷試驗(yàn)版本的結(jié)果是否是統(tǒng)計(jì)顯著的。然而，只有當(dāng)試驗(yàn)版本的結(jié)果兼?zhèn)浣y(tǒng)計(jì)顯著和效果顯著兩個(gè)特征時(shí)，才說明這個(gè)試驗(yàn)的結(jié)束時(shí)機(jī)已經(jīng)成熟，該版本是真正值得發(fā)布的。因此，我們需要引入一個(gè)“最小重要變化”的概念來幫助我們判斷和決策。

用白話翻譯一下，就好比：你前期先投入了50塊錢置辦設(shè)備，每個(gè)包子定價(jià)5元。所以，只有在賣掉了10個(gè)包子（收入50元）之后，你策劃并實(shí)施的這個(gè)事件才正式進(jìn)入了盈利階段。道理很簡(jiǎn)單，其實(shí)就是回本了嘛！那么在整個(gè)事件里，“收入50元”就是這個(gè)事件中的“最小重要變化”，也就是一個(gè)最小的可接受效果標(biāo)準(zhǔn)。

同理推論到企業(yè)的A/B測(cè)試，就更需要考慮相關(guān)的成本問題（有時(shí)甚至遠(yuǎn)不止于此）。因此，只有檢測(cè)到的效果差異在“最小重要變化”的標(biāo)準(zhǔn)之上，我們才認(rèn)為這個(gè)版本是有實(shí)際價(jià)值的。這個(gè)標(biāo)準(zhǔn)通常由指標(biāo)的具體意義和我們的優(yōu)化需求來確定，例如1%或者5%。

下面我們來看一個(gè)具體案例：

這是5個(gè)不同版本的試驗(yàn)數(shù)據(jù)，在最小重要變化為5%的情況下，我們可以應(yīng)用這個(gè)標(biāo)準(zhǔn)來對(duì)試驗(yàn)數(shù)據(jù)做進(jìn)一步的判斷：

首先，觀察每個(gè)版本的置信區(qū)間，發(fā)現(xiàn)Case4和Case5的置信區(qū)間不閉合，所以方案不可用，而Case1-3的置信區(qū)間上下限均為正，說明這三個(gè)版本相比原始版本來說都有提升。再引入最小重要變化5%，可以看到只有Case1的區(qū)間下限高于標(biāo)準(zhǔn)值。因此，我們判斷，在最小重要變化為5%的情況下，只有Case1是實(shí)際效果最佳的版本。

關(guān)于置信區(qū)間的系列講解到今天就算告一段落了，從一切的根基中心極限定理，到如何根據(jù)數(shù)據(jù)分析解讀最終選出真正意義上的最優(yōu)版本，相信大家能夠?qū)/B測(cè)試的原理有一個(gè)大概的了解。

作者：吆喝科技，微信公眾號(hào)（appadhoc）。

本文由 @吆喝科技原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App