在數(shù)據(jù)分析上,管理者常犯的9個(gè)錯(cuò)誤
數(shù)據(jù)是有角度的,你的角度對(duì)不對(duì)?
數(shù)據(jù)是人類的發(fā)明。人類定義了他們想要測(cè)量的現(xiàn)象,設(shè)計(jì)系統(tǒng)收集數(shù)據(jù),在分析之前進(jìn)行清理和預(yù)處理,最后選擇如何解釋結(jié)果。即使使用相同的數(shù)據(jù)集,兩個(gè)人也可以得出截然不同的結(jié)論。這是因?yàn)閿?shù)據(jù)本身并不是“地面真實(shí)”——能夠反應(yīng)客觀現(xiàn)實(shí)的、可觀察的、可證明的數(shù)據(jù)。
你如何概念化一個(gè)現(xiàn)象,確定要測(cè)量什么,并決定如何測(cè)量,將影響你收集的數(shù)據(jù)。你利用AI解決問題的能力很大程度上取決于你如何表述你的問題,以及你是否能建立無歧義的“地面真實(shí)”。如果你的標(biāo)準(zhǔn)本身是錯(cuò)誤的,那么結(jié)果不僅是錯(cuò)誤的,而且可能對(duì)你的業(yè)務(wù)有害。
除非你直接參與定義和監(jiān)視原始的數(shù)據(jù)收集目標(biāo)、工具和策略,否則你可能無法掌握那些能幫你發(fā)現(xiàn)錯(cuò)誤處理、解釋和使用這些數(shù)據(jù)的關(guān)鍵知識(shí)。大多數(shù)被我們成為“數(shù)據(jù)”的東西可能是些僅僅是用來支持某種議程的測(cè)量、與事實(shí)無關(guān)的信息集合、或者來自看起來合理、但是帶有偏見的收集工作。
下面是一個(gè)關(guān)于九個(gè)常見統(tǒng)計(jì)錯(cuò)誤的速成班,每個(gè)管理者都應(yīng)該熟悉:
1、不明確的目標(biāo)
未能確定收集數(shù)據(jù)的原因,意味著你將錯(cuò)過闡明假設(shè)和確定收集內(nèi)容的機(jī)會(huì)。結(jié)果是你可能會(huì)收集錯(cuò)誤的數(shù)據(jù)或不完整的數(shù)據(jù)。
大數(shù)據(jù)的一個(gè)共同趨勢(shì)是企業(yè)收集大量信息而不了解他們?yōu)槭裁葱枰?,以及他們?nèi)绾问褂盟?。收集龐大而混亂的數(shù)據(jù)量只會(huì)阻礙你未來的分析,因?yàn)槟銓⒉坏貌煌ㄟ^更多的垃圾來尋找你真正想要的東西。
2、定義錯(cuò)誤
假設(shè)你想知道你的客戶上個(gè)季度花了多少錢在你的服務(wù)上。即使是這樣一個(gè)簡單的目標(biāo)也需要在你得到你想要的信息之前定義一些假設(shè)。
首先,你如何定義“顧客”?取決于你的目標(biāo),你可能不想把每個(gè)人都放到一個(gè)桶里。您可能希望通過購買行為細(xì)分客戶,以便相應(yīng)地調(diào)整營銷動(dòng)作或產(chǎn)品特性。如果是這樣的話,那么你需要確保你包含了關(guān)于客戶的有用信息,例如人口信息或支出歷史。
還有一些戰(zhàn)術(shù)上的考慮,比如你如何定義宿舍。你會(huì)使用財(cái)政季度或日歷季度嗎?許多組織的財(cái)政年度與日歷年不符。財(cái)政年度也在國際上有所不同,澳大利亞的財(cái)政年度從7月1日開始,印度的財(cái)政年度從4月1日開始。你還需要制定一個(gè)策略來解釋回報(bào)或交換。如果顧客在第一季度買了你的產(chǎn)品,但又把它退回去了呢?如果他們對(duì)你提出了質(zhì)量投訴并得到退款怎么辦?你把這個(gè)事件歸到哪個(gè)季度?所以定義不是那么簡單。你將需要討論你的期望,并設(shè)置適當(dāng)?shù)膮?shù),以收集你真正想要的信息。
3、捕獲錯(cuò)誤
一旦確定了希望收集的數(shù)據(jù)類型,就需要設(shè)計(jì)一種機(jī)制來捕獲它。這里的錯(cuò)誤可能導(dǎo)致捕獲不正確的或偶然的、有偏見的數(shù)據(jù)。例如,如果你想測(cè)試產(chǎn)品A是否比B產(chǎn)品更吸引人,但你總是在你的網(wǎng)站上顯示產(chǎn)品A,那么用戶可能不會(huì)頻繁地看到或購買B產(chǎn)品,從而導(dǎo)致你得出錯(cuò)誤的結(jié)論。
4、測(cè)量誤差
當(dāng)你捕獲數(shù)據(jù)的軟件或硬件出錯(cuò)時(shí),或無法捕獲可用數(shù)據(jù)或產(chǎn)生虛假數(shù)據(jù)時(shí),就會(huì)出現(xiàn)測(cè)量錯(cuò)誤。例如,使用日志與服務(wù)器不同步,則可能丟失移動(dòng)應(yīng)用程序上的用戶行為信息。同樣,如果你使用像麥克風(fēng)這樣的硬件傳感器,你的錄音可能會(huì)捕捉到背景噪音或其他電信號(hào)的干擾。
5、加工誤差
許多企業(yè)擁有幾十年前的數(shù)據(jù),原來能夠解釋數(shù)據(jù)決策的團(tuán)隊(duì)早已不在了。他們的許多假設(shè)和問題很可能沒有文檔化,這將取決于你推斷,這可能是一項(xiàng)艱巨的任務(wù)。
你的團(tuán)隊(duì)可能會(huì)做出與原始數(shù)據(jù)收集過程中不同的假設(shè),并得出截然不同的結(jié)果。常見的錯(cuò)誤包括缺少一個(gè)特定的過濾器,使用不同的會(huì)計(jì)標(biāo)準(zhǔn),并簡單地犯方法錯(cuò)誤。
6、覆蓋誤差
覆蓋誤差指,目標(biāo)受訪者都沒有足夠的機(jī)會(huì)參與數(shù)據(jù)調(diào)查的情況。例如,如果你正在收集老年人的數(shù)據(jù),但只提供網(wǎng)站調(diào)查,那么你可能會(huì)錯(cuò)過許多答卷人。
你的營銷團(tuán)隊(duì)可能有興趣預(yù)測(cè)所有移動(dòng)智能手機(jī)用戶的行為與未來的產(chǎn)品的關(guān)系。然而,如果您只提供iOS應(yīng)用程序而不是Android應(yīng)用程序,iOS用戶數(shù)據(jù)將使你對(duì)Android用戶的行為有有限的了解。
7、抽樣誤差
當(dāng)你分析一個(gè)較小的樣本時(shí),就會(huì)發(fā)生抽樣誤差。當(dāng)數(shù)據(jù)只存在于某個(gè)群體中時(shí),這是不可避免的。結(jié)論:你得出的代表性樣本可能不適用于整體。
8、推理錯(cuò)誤
當(dāng)統(tǒng)計(jì)和機(jī)器學(xué)習(xí)模型從已有數(shù)據(jù)中做出不準(zhǔn)確的判斷后,它們之后的推理結(jié)果也可能是錯(cuò)誤的。如果你有一個(gè)非常干凈的“地面真實(shí)”數(shù)據(jù)庫,那么就可以用它去檢測(cè)數(shù)據(jù)模型得出的推理是否正確,但實(shí)際上,大多數(shù)數(shù)據(jù)庫是充滿噪音的,所以你通常很難確定AI推論的錯(cuò)誤點(diǎn)在哪里。
9、未知錯(cuò)誤
現(xiàn)實(shí)是難以捉摸的,你不能總是輕易地建立事實(shí)。在許多情況下,比如使用數(shù)字產(chǎn)品,你可以捕獲大量用戶在平臺(tái)上的行為數(shù)據(jù),而不是他們對(duì)這些行為的動(dòng)機(jī)。你可能知道一個(gè)用戶點(diǎn)擊了一個(gè)廣告,但你不知道他們對(duì)它有多惱火。除了已知的許多類型的錯(cuò)誤之外,還有一些未知,它們?cè)谝詳?shù)據(jù)代表的現(xiàn)實(shí)和現(xiàn)實(shí)本身之間留下了一個(gè)缺口。
沒有數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)背景的管理人員通常會(huì)犯這九大錯(cuò)誤,但許多更微妙的問題也會(huì)阻礙AI系統(tǒng)的性能。
原文來自:9 common mistakes executives make with data
譯者:孟小白,36氪作者
譯文地址:http://36kr.com/p/5120078.html
題圖來自 Pixabay,基于 CC0 協(xié)議
- 目前還沒評(píng)論,等你發(fā)揮!