你又一次被“真實(shí)數(shù)據(jù)”欺騙了

7 評(píng)論 6771 瀏覽 20 收藏 16 分鐘

數(shù)據(jù)對(duì)于產(chǎn)品、運(yùn)營(yíng)決策來說有重大參考價(jià)值,但是在現(xiàn)實(shí)生活中這些精心測(cè)量的“真實(shí)數(shù)據(jù)”卻往往出錯(cuò),問題在于什么?又該如何針對(duì)性地解決?

當(dāng)公司需要推出一個(gè)新產(chǎn)品(服務(wù),管理,市場(chǎng))前,我們總是需要收集一些數(shù)據(jù)來說服股東(或者我們自己),這個(gè)產(chǎn)品一定會(huì)大賣。

這時(shí)候,就是各種圖表粉墨登場(chǎng)的時(shí)候了:餅狀圖,柱狀圖,條形圖,折線圖……

(這里本來應(yīng)該有一張圖,但是大家看了太多的PPT,我就不放了。)

我們講的頭頭是道,下面的聽眾也頻頻點(diǎn)頭?!翱雌饋磉@個(gè)產(chǎn)品一定會(huì)廣受好評(píng)”,我們心里想。

然而,到了真正到了產(chǎn)品銷售階段時(shí),我們卻發(fā)現(xiàn),根本沒有用戶愿意買賬。

我們明明是嚴(yán)格按照規(guī)范收集數(shù)據(jù),仔細(xì)的進(jìn)行科學(xué)分析,每個(gè)步驟也有專人監(jiān)督。這些真實(shí)數(shù)據(jù)為何不能反映真實(shí)的市場(chǎng)需求?

我們收集的所謂“真實(shí)數(shù)據(jù)”其實(shí)是假的。

大多數(shù)人認(rèn)為,假數(shù)據(jù)只有在故意造假的情況才可能出現(xiàn)。而我認(rèn)為,有些時(shí)候,錯(cuò)誤的收集方式也會(huì)產(chǎn)生“假數(shù)據(jù)”。

那么,為何我們會(huì)收集到“假數(shù)據(jù)”呢?

一、社會(huì)期許

“您喜歡喝什么口味的果汁?”我相信很多人都會(huì)如實(shí)回答。

“您和妻子/丈夫關(guān)系好嗎?”這個(gè)問題就很難得到準(zhǔn)確答案。

與之類似的還有:

  • 您的月收入多少?
  • 您認(rèn)為自己聰明嗎?
  • 您對(duì)自己外貌評(píng)價(jià)如何?

在社會(huì)科學(xué)中,這叫做社會(huì)期許誤差。人們更傾向于向他人展現(xiàn)正面形象,所以在回答問題時(shí),更傾向于申報(bào)“良好行為”來符合社會(huì)的期望。

這也是為何很多真正的抑郁癥患者傾向于隱瞞自己的病情,因?yàn)樗麄兿M軌蚍现車h(huán)境對(duì)他的期望。而社會(huì)期望人的性格是積極外向的,這樣導(dǎo)致了很多抑郁癥患者很難對(duì)家庭袒露心跡。

我最近看的一本書,《Everybody Lies》,就展示了這樣有趣的現(xiàn)象:在社交網(wǎng)站上,在短句“我的丈夫是”之后,最常見的形容詞的前五名是:“最好的”,“最好的朋友”,“最棒的”,“令人驚訝的”,“可愛的”。

而在搜索引擎上,前五名,除了一個(gè)“最棒的”以外,其他四個(gè)卻變成了:“刻薄的”,“混賬”,“同性戀”,“討人厭的”。

這也就證明了上面的觀點(diǎn):人們?cè)诳赡鼙凰藢徱暤臅r(shí)候會(huì)更傾向突出其好的一面,而在匿名且隱私的環(huán)境中才能表達(dá)真實(shí)的自己。

二、幸存偏差

假設(shè)我們來采訪一下幾個(gè)名人,他們的成功有什么必經(jīng)之路:

  • 喬布斯:我輟學(xué)了。
  • 蓋茨:我輟學(xué)了。
  • 扎克伯格:我輟學(xué)了。
  • 布特林:我輟學(xué)了。

總結(jié):輟學(xué)才能成功。

這里出現(xiàn)了什么樣的錯(cuò)誤呢?

在統(tǒng)計(jì)學(xué)中,幸存者偏差是一種很常見的現(xiàn)象。即過分關(guān)注因?yàn)槟承┙?jīng)歷而幸存的人或事物,并且將這些經(jīng)歷定義為常識(shí)。

我們很容易找到類似的例子:

章魚保羅在2010年世界杯中連續(xù)7次猜對(duì)比賽結(jié)果——其他猜錯(cuò)的動(dòng)物沒有被報(bào)道。

2016美國(guó)總統(tǒng)大選時(shí),CNN的民調(diào)顯示:希拉里支持率更高——調(diào)查時(shí)主要選擇了民族黨支持者。

很多喜歡看直播的人認(rèn)為:主播收入高,外表光鮮,所以自己也要當(dāng)主播——頭部主播占據(jù)了全部主播收入的80%以上。

三、胡亂回答

前段時(shí)間,我對(duì)YouTube上的視頻進(jìn)行過一個(gè)粗略統(tǒng)計(jì)。

結(jié)果是:一個(gè)在大多數(shù)人理解下的優(yōu)秀視頻,其觀看量、點(diǎn)贊量、點(diǎn)踩量的比例一般為10000:100:2(這個(gè)數(shù)據(jù)只是一個(gè)預(yù)估,請(qǐng)不要作為考量方式)。

而且,不論是視頻多么優(yōu)秀,總是會(huì)有點(diǎn)踩的人。

這種“故意破壞他人體驗(yàn)的點(diǎn)踩”在社會(huì)心理學(xué)中叫做向下社會(huì)比較。

這種情況往往是那個(gè)人遇到了某些挫折,通過降低自我評(píng)價(jià)的參照系(即讓他人的評(píng)價(jià)降低),來維持積極的自我評(píng)價(jià)。

這也是網(wǎng)絡(luò)上的噴子和鍵盤俠,往往都是在現(xiàn)實(shí)生活中遇到了不順心的事情的人的主要原因。

四、分析錯(cuò)誤

在不久前,我看到某個(gè)電影院的大數(shù)據(jù)分析:看《戰(zhàn)狼2》的觀眾,有89%的人購買了冷飲。而看《前任3》的觀眾,有73%的人購買了熱飲。

數(shù)據(jù)分析得出的結(jié)論是,看動(dòng)作片的觀眾更喜歡冷飲來清涼自己的緊繃的神經(jīng)。而看愛情片的觀眾更喜歡用熱飲來溫暖自己的內(nèi)心。

戰(zhàn)狼2:2017年7月27日上映——夏天

前任3:2017年12月29日上映——冬天。

其實(shí)分析員只要看看上映時(shí)間就知道,觀眾選擇熱飲或者冷飲的根本原因是天氣問題,和電影本身沒有任何關(guān)系

這種在統(tǒng)計(jì)學(xué)中被稱為混淆了相關(guān)性和因果性。即分析時(shí)過分注重于數(shù)據(jù)之間的關(guān)系比較,并且將這種關(guān)系直接定義為結(jié)論。

五、人為造假

就在兩周前,著名心臟專家皮耶羅·安韋薩涉嫌數(shù)據(jù)造假的新聞轟動(dòng)了整個(gè)病理學(xué)界。由于他的31篇學(xué)術(shù)論文造假,直接導(dǎo)致大量相似的研究直接作廢,各種研究經(jīng)費(fèi)的損失高達(dá)數(shù)億美元。

那么,他是怎么做的呢?

他在分析數(shù)據(jù)前,直接將自己的假說認(rèn)定為正確的,然后用很多數(shù)據(jù)去“湊”自己的假說,如果數(shù)據(jù)不對(duì),就換方式來重新將數(shù)據(jù)“生產(chǎn)”出來。

這種手法,在很多歐美政客手上就用的爐火純青。特朗普就轉(zhuǎn)發(fā)過“舊金山犯罪統(tǒng)計(jì)局”的統(tǒng)計(jì)數(shù)據(jù)。該數(shù)據(jù)顯示,黑人是犯罪的主要根源。而實(shí)際上:“舊金山犯罪統(tǒng)計(jì)局”根本就不存在。
你又一次被“真實(shí)數(shù)據(jù)”欺騙了

人們很容易相信數(shù)字所帶來的權(quán)威性。而這種利用數(shù)據(jù)來說謊的方式,就是利用了這一點(diǎn)。

這五個(gè)問題,導(dǎo)致了調(diào)查數(shù)據(jù)很難真實(shí)反映出用戶的需求,從而擾亂了我們的判斷能力。

那么,我們?nèi)绾尾拍軠p少這些問題對(duì)數(shù)據(jù)結(jié)果造成影響呢?

六、解決方法

1. 社會(huì)期許——匿名回答

社會(huì)期許誤差的產(chǎn)生,是由于被訪者擔(dān)心自己的負(fù)面情緒或者狀態(tài)不被社會(huì)所接受。

那么最有效的辦法就是:為受訪者創(chuàng)造一個(gè)完全匿名的,保密的環(huán)境。

正如天主教堂里的告解室一樣,完全密封的匿名環(huán)境,加上神父的嚴(yán)格保密,讓信徒可以安心的懺悔自己的罪行。

投票箱就是一個(gè)很有效的匿名方式。例如美國(guó)的國(guó)家大選,為了避免大家因?yàn)槊舾械耐镀痹掝}引起爭(zhēng)執(zhí),采用了投票箱的方式,保護(hù)了投票者的隱私。

另外一個(gè)解決方式是隨機(jī)化回答。

方式是將問題分為兩類,敏感性問題與非敏感性問題。我們想要知道敏感性問題的答案,而我們已知非敏感性問題的答案。我們可以通過非敏感問題的答案來反推出敏感問題的答案。

舉個(gè)例子,假設(shè)我們想要推出一個(gè)新式男性增高墊,但是不知道使用增高墊的人數(shù)比例,我們可以設(shè)置兩個(gè)問題:

敏感性問題:“您是否使用了增高墊?”

非敏感性問題:“您的電話尾號(hào)是否是1?”

我們先在黑箱里放置兩個(gè)小球,一個(gè)紅色一個(gè)藍(lán)色。在回答問題前,要求受訪者在黑箱里取一個(gè)球,但是這個(gè)球的顏色只有受訪者知道。

然后告訴受訪者,如果他抽的是紅球,就回答“您是否使用了增高墊?”。如果抽的是藍(lán)球,就回答“您的電話尾號(hào)是否是1?”。但是回答者只用回答“是”或“否”。

那么,當(dāng)我們收集到足夠多的數(shù)據(jù)后,我們可以得知受訪者回答“是”的比例(設(shè)為a)。

由于我們知道,電話尾號(hào)為1的可能性為10%,而抽到紅球或藍(lán)球的幾率各為50%,那么我們就很容易依靠下面的公式推斷出使用增高墊的人(設(shè)為x)比例。

你又一次被“真實(shí)數(shù)據(jù)”欺騙了

3. 幸存偏差——用戶分層

幸存者偏差是由于受訪者的樣本過于相似,導(dǎo)致了數(shù)據(jù)結(jié)果并不能代表所有的用戶。

由于我們無法對(duì)于對(duì)所有的用戶進(jìn)行普查,那么最容易的辦法,就是從每一個(gè)層次的用戶抽取數(shù)人進(jìn)行調(diào)查。

例如,我們想要對(duì)打車軟件優(yōu)惠券的使用情況進(jìn)行調(diào)查。我們就需要將用戶分為四類:

  1. 之前使用過打車軟件,后來使用過優(yōu)惠劵(老用戶)
  2. 之前使用過打車軟件,后來沒有使用過優(yōu)惠券(未涉及用戶)
  3. 之前沒有使用過打車軟件,后來使用過優(yōu)惠券(新用戶)
  4. 之前沒有使用過打車軟件,后來沒有使用過優(yōu)惠券(潛在用戶)

從每種類別的用戶中,我們選取數(shù)人來進(jìn)行抽查。在每個(gè)層級(jí)的人群中,我們也要盡量將年齡,性別,職業(yè)等等區(qū)分開來,這樣才能減少幸存者偏差帶來的數(shù)據(jù)偏差。

3. 胡亂回答——顯示進(jìn)度

大多數(shù)時(shí)候,受訪者還是愿意配合采訪的。讓受訪者不愿意配合采訪的原因只有兩種:外界因素和內(nèi)部因素。

由于我們無法控制受訪者的外部因素(心情不好,急于做事,性格內(nèi)向等等),那么我們只能減少內(nèi)部因素造成的影響。

所以,我們需要盡可能減少受訪者對(duì)調(diào)查感到厭煩的可能性。

你們是否發(fā)現(xiàn):當(dāng)你安裝一個(gè)軟件時(shí),就會(huì)有一個(gè)進(jìn)度條顯示安裝的進(jìn)程。而且,進(jìn)度條并不是勻速前進(jìn)的?

這是因?yàn)?,進(jìn)度條可以明確的告訴我們,我們還需要多久的等待。而非勻速前進(jìn)的原因,則是經(jīng)過了科學(xué)家的試驗(yàn),證明相對(duì)于非勻速來說,勻速的進(jìn)度條更容易讓人感到不耐煩。

所以,在收集數(shù)據(jù)時(shí),如果是訪問的模式,就需要在開始訪問前,告訴受訪者訪問的時(shí)長(zhǎng),并且將長(zhǎng)問題穿插在短問題中。如果是調(diào)查問卷的模式,就需要在前面寫明問題的數(shù)量,并且在其中配上進(jìn)度顯示(例如:已回答25%的問題)。

4. 分析錯(cuò)誤——關(guān)注外因

我們?cè)诜治鰯?shù)據(jù)的時(shí)候,如果僅僅關(guān)注數(shù)據(jù)本身,就很容易出現(xiàn)混淆相關(guān)性和因果性的狀況。

所以,在數(shù)據(jù)分析時(shí),一定要考慮到外界因素所帶來的影響。

正如第一臺(tái)ATM機(jī)發(fā)明前,巴克萊銀行對(duì)于用戶對(duì)于ATM機(jī)的態(tài)度進(jìn)行過一次調(diào)查,用戶的數(shù)據(jù)反饋指出:相對(duì)于冷冰冰的機(jī)器,大家更喜歡熱情服務(wù)的柜員

然而銀行發(fā)現(xiàn):由于工會(huì)的強(qiáng)烈要求,導(dǎo)致銀行必須考慮在周末放假。而很多領(lǐng)取周薪的工人只有在周末才有時(shí)間去銀行取錢,那么這些工人的需求就很難滿足了,所以銀行依然決定推出ATM機(jī)。

結(jié)果大家都知道了,現(xiàn)在全球有著高達(dá)300萬臺(tái)ATM機(jī)為我們服務(wù),也沒有人覺得從ATM機(jī)器里面取錢有任何不妥。

所以相對(duì)于單純的相信數(shù)據(jù),更好的方式是將數(shù)據(jù)作為一個(gè)參考,但是根據(jù)實(shí)際情況來進(jìn)行判斷。

5. 人為造假——規(guī)避問題

人為造假的問題是最難以解決的,因?yàn)檫@個(gè)是調(diào)查者自己所決定的。

現(xiàn)如今在學(xué)術(shù)界,最廣泛使用的辦法就是讓調(diào)查者簽署一個(gè)保證書,利用保證書來約束調(diào)查者的行為準(zhǔn)則。

然而在公司中,這樣的的方式并不太合適。學(xué)術(shù)界出現(xiàn)了造假問題,那么這個(gè)人今后就無法再進(jìn)行學(xué)術(shù)類工作。而公司員工的流動(dòng)性更大,造假的調(diào)查者完全可以去其他公司繼續(xù)工作。

我們只有從員工素質(zhì)的提升和對(duì)數(shù)據(jù)的真實(shí)性進(jìn)行反復(fù)檢驗(yàn),從而對(duì)于數(shù)據(jù)的人為造假進(jìn)行規(guī)避。

總結(jié)一下:

  1. 社會(huì)期許——為受訪者創(chuàng)造匿名調(diào)查環(huán)境
  2. 幸存偏差——將受訪者分層次調(diào)查
  3. 胡亂回答——讓受訪者不對(duì)問題產(chǎn)生厭煩
  4. 分析錯(cuò)誤——收集外界因素造成的影響
  5. 人為造假——提升員工素質(zhì),檢驗(yàn)數(shù)據(jù)真實(shí)性

如果按照這些方式去做,我們的調(diào)查數(shù)據(jù)準(zhǔn)確度就能夠極大的提升。

 

本文由 @鹵豆干 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. ….看到你名字餓了

    來自北京 回復(fù)
  2. 你寫的文章都聽不錯(cuò),雖然技術(shù)上的點(diǎn)很少,但一個(gè)產(chǎn)品經(jīng)理,最主要的還是需要思維上的提升

    回復(fù)
    1. 感謝閱讀!您可以看一看《工程師,別人聽的懂你的技術(shù)嗎?》,這篇文章闡述了我為何傾向于不用技術(shù)來解釋問題的根本原因。

      來自英國(guó) 回復(fù)
  3. 相關(guān)不代表因果,所以雖然有時(shí)候數(shù)據(jù)與結(jié)果同時(shí)出現(xiàn),也不代表當(dāng)中有具體聯(lián)系。

    來自浙江 回復(fù)
  4. ??

    來自上海 回復(fù)
  5. 總結(jié)的很棒,mark!

    來自上海 回復(fù)