那些年,我們在A/B測試中踩過這5個坑

2 評論 13334 瀏覽 81 收藏 11 分鐘
🔗 B端产品经理需要更多地进行深入的用户访谈、调研、分析,而C端产品经理需要更多地快速的用户测试、反馈、迭代

如果這些坑真實反映了你當(dāng)前的狀況,就請盡快修正測試方案,跳出陷阱才能得到更為科學(xué)可信的結(jié)果。

隨著Growth Hacking在中國的傳播和興起,作為增長黑客必殺技之一的A/B測試,也被越來越多的國內(nèi)企業(yè)所接受和重視。然而,A/B測試看似簡單,實則隱藏著許多溝溝坎坎,稍不注意就會導(dǎo)致試驗結(jié)果偏離科學(xué)軌道。那么今天,我們就為大家一一細(xì)數(shù)那些年我們在A/B測試中踩過的坑。

PS,文中包含大量真實案例,若能對號入座,請盡快修正試驗方案。

1. 輪流展現(xiàn)不同版本

對于廣告主而言,找到最有價值的廣告投放渠道,提升著陸頁(landing page)的轉(zhuǎn)化率,從而對整個廣告投放流程進(jìn)行優(yōu)化,無疑是最核心的優(yōu)化目標(biāo)。采用A/B測試對不同版本的廣告和著陸頁進(jìn)行測試,是一種很有效的優(yōu)化手段。也就是將不同版本的廣告和著陸頁同時投放,根據(jù)它們各自的數(shù)據(jù)表現(xiàn),就可以判定哪一版更好。

而目前最常見的做法是,將不同版本的廣告進(jìn)行輪流展示,比如谷歌Adwords系統(tǒng)中的測試功能,就是采用的這種方法。這種所謂的A/B測試(請注意,這種測試方法其實并不能被稱為真正意義上的A/B測試),就讓企業(yè)掉入了第一個陷阱。

舉個不太恰當(dāng)?shù)睦樱绱说臏y試方法就好比在電視上投放廣告,分別選取了工作日的下午三點中和晚間黃金時段進(jìn)行測試收集。由于輪流展示時的測試環(huán)境不盡相同,所面向的受眾群體更是千差萬別,因此最終試驗結(jié)束后的數(shù)據(jù)結(jié)果必然會存在一定偏差,也就更不具有說服性了。

正確的做法是:不同版本需要并行(同時)上線,并且盡可能的降低所有版本的測試環(huán)境差別,才能得到精準(zhǔn)的數(shù)據(jù)結(jié)果,從而做出可信的決策。

2. 選擇不同應(yīng)用市場投放

在介紹這個誤區(qū)之前,必須先解釋一下什么是辛普森悖論。辛普森悖論是英國統(tǒng)計學(xué)家 E.H. 辛普森(E.H. Simpson)于1951年提出的悖論,即在某個條件下的兩組數(shù)據(jù),在分別討論時都會滿足某種性質(zhì),可是一旦合并起來進(jìn)行考慮,卻可能導(dǎo)致相反的結(jié)論。

什么樣的情況會造成辛普森悖論呢?一個很典型的應(yīng)用場景:為了驗證新版本對于用戶使用真實影響,很多企業(yè)會選擇將不同版本打包,分別投放到不同的應(yīng)用市場。當(dāng)發(fā)現(xiàn)其中某版本的數(shù)據(jù)表現(xiàn)的最好,就決定將該版本全量上線。殊不知,當(dāng)將全部應(yīng)用市場整合起來進(jìn)行統(tǒng)計,卻發(fā)現(xiàn)這個版本的表現(xiàn)差強(qiáng)人意,對核心數(shù)據(jù)產(chǎn)生了不利影響。

這里有一個真實的案例,某產(chǎn)品計劃在安卓客戶端上線一個新功能,于是先將不同版本以小流量投放在多個應(yīng)用市場(例如豌豆莢、91助手等)。一段時間之后,測試結(jié)果都指向了其中一個版本。但其實,這些不同應(yīng)用市場的用戶并不具有全用戶代表性,所以如果盲目將試驗選出的版本直接推送給全部用戶,就很容易因為辛普森悖論而出現(xiàn)完全相反的結(jié)果。

因此,避免這一大陷阱的正確做法是:將流量進(jìn)行科學(xué)地分割,保證試驗組和對照組的用戶特征一致,且都具有全局代表性。

3. 試驗結(jié)果不好就一竿子打死

上一個誤區(qū)講的是「以偏概全」,那么接下來我們要介紹的這個誤區(qū)則是「以全概偏」,也叫做區(qū)群謬誤。

在這個概念中,認(rèn)為群體中的所有個體都有群體的性質(zhì)。但如果僅基于群體的統(tǒng)計數(shù)據(jù),就對其下屬的個體性質(zhì)作出推論,那么得出的結(jié)論往往是不準(zhǔn)確的。換句話說,當(dāng)我們做了一次A/B測試后,發(fā)現(xiàn)試驗版本的數(shù)據(jù)結(jié)果并不理想,于是就認(rèn)定所有的地區(qū)或渠道的效果都是負(fù)面的,那么我們就陷入了區(qū)群謬誤的陷阱。

作為國際短租平臺,搜索是Airbnb生態(tài)系統(tǒng)中很基礎(chǔ)的一個組成部分。Airbnb曾經(jīng)做過一個關(guān)于搜索頁優(yōu)化的A/B測試,新的版本更加強(qiáng)調(diào)了列出的圖片,以及房屋所在位置(如下圖所示)。

1

在等待了足夠長的時間之后,試驗結(jié)果顯示新老版本的整體數(shù)據(jù)相差無幾,似乎這次優(yōu)化沒有很好的效果。如果此時,Airbnb直接根據(jù)整體的數(shù)據(jù)表現(xiàn)放棄了這次優(yōu)化,那么這個花費(fèi)了很多精力設(shè)計的項目就會前功盡棄。

然而,Airbnb并沒有借此放棄。相反,經(jīng)過仔細(xì)研究,他們發(fā)現(xiàn)除了IE瀏覽器之外,新版在其他不同瀏覽器中的表現(xiàn)都很不錯。當(dāng)意識到新的設(shè)計制約了使用老版本IE的操作點擊后(而這個明顯為全局的結(jié)果造成了很消極的影響),Airbnb當(dāng)即對其進(jìn)行了修補(bǔ)。至此以后,IE恢復(fù)了和其他瀏覽器一樣的展示結(jié)果,試驗的整體數(shù)據(jù)增長了2%以上。

2

通過Airbnb的例子,我們能學(xué)到正確的做法是:在整體效果不太好的時候,不要一竿子打死,而需要從多個維度細(xì)分觀察個體的情況,以避免區(qū)群謬誤帶來的決策偏差。

4. “好奇害死貓”

一個好的產(chǎn)品必須要能夠激發(fā)用戶的好奇心,并在用戶的持續(xù)使用中對產(chǎn)品逐漸產(chǎn)生粘性,而不至于流失。但與此同時,我們需要時刻警惕好奇心理所帶來的數(shù)據(jù)偏差。

從心理學(xué)的角度來說,好奇心是個體遇到新奇事物或處在新的外界條件下所產(chǎn)生的注意、操作、提問的心理傾向。應(yīng)用到A/B測試的場景中,當(dāng)一個產(chǎn)品推出了新的功能或主頁,用戶在早期出于好奇心理,發(fā)生了過多的試探性點擊,從而推動了相關(guān)數(shù)據(jù)的增長。如果這時就以為用戶更青睞于優(yōu)化后的版本,直接全量上線,就很有可能忽視了用戶的真實喜好。

所以,正確的做法是:適當(dāng)延長試驗的運(yùn)行時間,觀察試驗數(shù)據(jù)的走勢是否持久穩(wěn)定,消除用戶的好奇心給結(jié)果帶來的偏差。

5. 反復(fù)檢驗,區(qū)間一收斂就喊停

在反復(fù)檢驗中,我們提到了p-value的概念,它可以作為區(qū)間收斂結(jié)果顯著的一個參考。通常情況下,p=0.05是常用的顯著值。于是,我們會自然而然的認(rèn)為當(dāng)p達(dá)到這個值時,就可以得到顯著的結(jié)果。不過事實真是這樣嗎?可以看看下面這個案例。

Airbnb還做過另一個試驗,他們將搜索頁上的價格過濾器的上限從300調(diào)大到了1000,想知道預(yù)訂數(shù)是否會增加。他們監(jiān)測了價格過濾器試驗隨時間變化的結(jié)果,發(fā)現(xiàn)p-value曲線在7天之后就達(dá)到了0.05,并且這時候的結(jié)論是試驗版本在預(yù)訂方面起到了很顯著的效果,然而當(dāng)他們繼續(xù)運(yùn)行試驗的時候,卻發(fā)現(xiàn)這個試驗開始趨向于中立,最后得到的結(jié)果是兩個版本差別不大。

為什么不應(yīng)該在p-value達(dá)到0.05時就停止試驗?zāi)??Airbnb團(tuán)隊認(rèn)為,用戶預(yù)訂需要花很長的時間,所以早期的轉(zhuǎn)化在試驗最開始時會有不太恰當(dāng)?shù)挠绊?。他們給出的建議是,為了避免統(tǒng)計學(xué)上的錯誤,最好的實踐方法就是基于樣本的總量計算所需最小效果,并在開始試驗之前就想好你要運(yùn)行多久。

試驗給出的p-value值是基于認(rèn)為你設(shè)計的試驗是已知樣本和效應(yīng)大小的,所以單純使用p-value作為停止試驗的準(zhǔn)則是不太正確的。以及,如果你持續(xù)的監(jiān)控試驗的發(fā)展和p-value,就比較容易看到真實的效果。

以上,就是在做A/B測試時比較容易遇到的坑。還是文章開頭說過的那句話,如果剛才說到的那些坑真實反映了你當(dāng)前的狀況,就請盡快修正測試方案,跳出陷阱才能得到更為科學(xué)可信的結(jié)果。

 

作者:吆喝科技,微信公眾號(appadhoc)。

本文由 @吆喝科技 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. “以及,如果你持續(xù)的監(jiān)控試驗的發(fā)展和p-value,就比較容易看到真實的效果?!?/p>

    請問這個持續(xù)周期又該如何確定呢?

    來自廣東 回復(fù)
  2. 請問p-value曲線利用什么工具查看?

    來自廣東 回復(fù)
专题
12638人已学习13篇文章
在用户运营中,拉新往往要比做好用户留存所花费的成本要高,但有各种各样的原因会让用户在某个过程中流失掉,应当如何规避与注意呢?本专题的文章分享了如何做好用户流失预警。
专题
13962人已学习12篇文章
本专题的文章分享了供应链系统设计指南。
专题
16002人已学习12篇文章
区别于普通业务,中台能让系统更好地满足业务需求,提升系统效率。本专题的文章分享了如何搭建业务中台。
专题
14456人已学习12篇文章
在职场中,跨部门沟通是一个非常重要的软技能,不管是要完成日常项目,还是接手新的业务,都需要有良好的跨部门沟通能力。本专题的文章分享了如何做好跨部门沟通。
专题
13693人已学习13篇文章
本专题的文章分享了关于教育+AI的思考。
专题
15975人已学习13篇文章
B端运营应该是产品商业化的最终结果。本专题的文章作者结合自身B端运营经验,进行B端实操项目方法论分享。