在數(shù)據(jù)分析上,管理者常犯的9個錯誤

數(shù)據(jù)是有角度的,你的角度對不對?
數(shù)據(jù)是人類的發(fā)明。人類定義了他們想要測量的現(xiàn)象,設(shè)計系統(tǒng)收集數(shù)據(jù),在分析之前進(jìn)行清理和預(yù)處理,最后選擇如何解釋結(jié)果。即使使用相同的數(shù)據(jù)集,兩個人也可以得出截然不同的結(jié)論。這是因為數(shù)據(jù)本身并不是“地面真實”——能夠反應(yīng)客觀現(xiàn)實的、可觀察的、可證明的數(shù)據(jù)。
你如何概念化一個現(xiàn)象,確定要測量什么,并決定如何測量,將影響你收集的數(shù)據(jù)。你利用AI解決問題的能力很大程度上取決于你如何表述你的問題,以及你是否能建立無歧義的“地面真實”。如果你的標(biāo)準(zhǔn)本身是錯誤的,那么結(jié)果不僅是錯誤的,而且可能對你的業(yè)務(wù)有害。
除非你直接參與定義和監(jiān)視原始的數(shù)據(jù)收集目標(biāo)、工具和策略,否則你可能無法掌握那些能幫你發(fā)現(xiàn)錯誤處理、解釋和使用這些數(shù)據(jù)的關(guān)鍵知識。大多數(shù)被我們成為“數(shù)據(jù)”的東西可能是些僅僅是用來支持某種議程的測量、與事實無關(guān)的信息集合、或者來自看起來合理、但是帶有偏見的收集工作。
下面是一個關(guān)于九個常見統(tǒng)計錯誤的速成班,每個管理者都應(yīng)該熟悉:
1、不明確的目標(biāo)
未能確定收集數(shù)據(jù)的原因,意味著你將錯過闡明假設(shè)和確定收集內(nèi)容的機會。結(jié)果是你可能會收集錯誤的數(shù)據(jù)或不完整的數(shù)據(jù)。
大數(shù)據(jù)的一個共同趨勢是企業(yè)收集大量信息而不了解他們?yōu)槭裁葱枰约八麄內(nèi)绾问褂盟?。收集龐大而混亂的數(shù)據(jù)量只會阻礙你未來的分析,因為你將不得不通過更多的垃圾來尋找你真正想要的東西。
2、定義錯誤
假設(shè)你想知道你的客戶上個季度花了多少錢在你的服務(wù)上。即使是這樣一個簡單的目標(biāo)也需要在你得到你想要的信息之前定義一些假設(shè)。
首先,你如何定義“顧客”?取決于你的目標(biāo),你可能不想把每個人都放到一個桶里。您可能希望通過購買行為細(xì)分客戶,以便相應(yīng)地調(diào)整營銷動作或產(chǎn)品特性。如果是這樣的話,那么你需要確保你包含了關(guān)于客戶的有用信息,例如人口信息或支出歷史。
還有一些戰(zhàn)術(shù)上的考慮,比如你如何定義宿舍。你會使用財政季度或日歷季度嗎?許多組織的財政年度與日歷年不符。財政年度也在國際上有所不同,澳大利亞的財政年度從7月1日開始,印度的財政年度從4月1日開始。你還需要制定一個策略來解釋回報或交換。如果顧客在第一季度買了你的產(chǎn)品,但又把它退回去了呢?如果他們對你提出了質(zhì)量投訴并得到退款怎么辦?你把這個事件歸到哪個季度?所以定義不是那么簡單。你將需要討論你的期望,并設(shè)置適當(dāng)?shù)膮?shù),以收集你真正想要的信息。
3、捕獲錯誤
一旦確定了希望收集的數(shù)據(jù)類型,就需要設(shè)計一種機制來捕獲它。這里的錯誤可能導(dǎo)致捕獲不正確的或偶然的、有偏見的數(shù)據(jù)。例如,如果你想測試產(chǎn)品A是否比B產(chǎn)品更吸引人,但你總是在你的網(wǎng)站上顯示產(chǎn)品A,那么用戶可能不會頻繁地看到或購買B產(chǎn)品,從而導(dǎo)致你得出錯誤的結(jié)論。
4、測量誤差
當(dāng)你捕獲數(shù)據(jù)的軟件或硬件出錯時,或無法捕獲可用數(shù)據(jù)或產(chǎn)生虛假數(shù)據(jù)時,就會出現(xiàn)測量錯誤。例如,使用日志與服務(wù)器不同步,則可能丟失移動應(yīng)用程序上的用戶行為信息。同樣,如果你使用像麥克風(fēng)這樣的硬件傳感器,你的錄音可能會捕捉到背景噪音或其他電信號的干擾。
5、加工誤差
許多企業(yè)擁有幾十年前的數(shù)據(jù),原來能夠解釋數(shù)據(jù)決策的團(tuán)隊早已不在了。他們的許多假設(shè)和問題很可能沒有文檔化,這將取決于你推斷,這可能是一項艱巨的任務(wù)。
你的團(tuán)隊可能會做出與原始數(shù)據(jù)收集過程中不同的假設(shè),并得出截然不同的結(jié)果。常見的錯誤包括缺少一個特定的過濾器,使用不同的會計標(biāo)準(zhǔn),并簡單地犯方法錯誤。
6、覆蓋誤差
覆蓋誤差指,目標(biāo)受訪者都沒有足夠的機會參與數(shù)據(jù)調(diào)查的情況。例如,如果你正在收集老年人的數(shù)據(jù),但只提供網(wǎng)站調(diào)查,那么你可能會錯過許多答卷人。
你的營銷團(tuán)隊可能有興趣預(yù)測所有移動智能手機用戶的行為與未來的產(chǎn)品的關(guān)系。然而,如果您只提供iOS應(yīng)用程序而不是Android應(yīng)用程序,iOS用戶數(shù)據(jù)將使你對Android用戶的行為有有限的了解。
7、抽樣誤差
當(dāng)你分析一個較小的樣本時,就會發(fā)生抽樣誤差。當(dāng)數(shù)據(jù)只存在于某個群體中時,這是不可避免的。結(jié)論:你得出的代表性樣本可能不適用于整體。
8、推理錯誤
當(dāng)統(tǒng)計和機器學(xué)習(xí)模型從已有數(shù)據(jù)中做出不準(zhǔn)確的判斷后,它們之后的推理結(jié)果也可能是錯誤的。如果你有一個非常干凈的“地面真實”數(shù)據(jù)庫,那么就可以用它去檢測數(shù)據(jù)模型得出的推理是否正確,但實際上,大多數(shù)數(shù)據(jù)庫是充滿噪音的,所以你通常很難確定AI推論的錯誤點在哪里。
9、未知錯誤
現(xiàn)實是難以捉摸的,你不能總是輕易地建立事實。在許多情況下,比如使用數(shù)字產(chǎn)品,你可以捕獲大量用戶在平臺上的行為數(shù)據(jù),而不是他們對這些行為的動機。你可能知道一個用戶點擊了一個廣告,但你不知道他們對它有多惱火。除了已知的許多類型的錯誤之外,還有一些未知,它們在以數(shù)據(jù)代表的現(xiàn)實和現(xiàn)實本身之間留下了一個缺口。
沒有數(shù)據(jù)科學(xué)或機器學(xué)習(xí)背景的管理人員通常會犯這九大錯誤,但許多更微妙的問題也會阻礙AI系統(tǒng)的性能。
原文來自:9 common mistakes executives make with data
譯者:孟小白,36氪作者
譯文地址:http://36kr.com/p/5120078.html
題圖來自 Pixabay,基于 CC0 協(xié)議
- 目前還沒評論,等你發(fā)揮!