數(shù)據(jù)產(chǎn)品經(jīng)理之數(shù)據(jù)分析與挖掘

Eric
1 評論 9822 瀏覽 78 收藏 12 分鐘
🔗 产品经理专业技能指的是:需求分析、数据分析、竞品分析、商业分析、行业分析、产品设计、版本管理、用户调研等。

本文主要跟大家講講,如何通過數(shù)據(jù)分析和數(shù)據(jù)挖掘從數(shù)據(jù)中獲取相關信息和挖掘價值,enjoy~

自2014年以來,“大數(shù)據(jù)”連續(xù)六年進入國務院政府工作報告,彰顯出國家對于大數(shù)據(jù)戰(zhàn)略的重視。作為如今互聯(lián)網(wǎng)+過程中最火熱的關鍵詞之一,大數(shù)據(jù)越來越火,隨之而來的數(shù)據(jù)倉庫、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等圍繞大數(shù)據(jù)的商業(yè)價值發(fā)掘利用相關的技術和知識越來越引起政府、企業(yè)和求職者的重視。

其中,作為數(shù)據(jù)產(chǎn)品經(jīng)理必備的專業(yè)知識之一的數(shù)據(jù)分析可以分為廣義的數(shù)據(jù)分析和狹義的數(shù)據(jù)分析,廣義的數(shù)據(jù)分析就包括狹義的數(shù)據(jù)分析和數(shù)據(jù)挖掘,人們常常提到的數(shù)據(jù)分析是指狹義的數(shù)據(jù)分析,數(shù)據(jù)挖掘和數(shù)據(jù)分析都是從數(shù)據(jù)中提取一些有價值的信息,但互相的側重點又有所不同。

前面兩篇文章介紹了數(shù)據(jù)產(chǎn)品經(jīng)理日常工作中必備的知識之常用的圖表設計(數(shù)據(jù)產(chǎn)品經(jīng)理之圖表設計)和SQL語言(數(shù)據(jù)產(chǎn)品經(jīng)理必備之SQL基礎 ?),本篇文章講一講怎么樣通過數(shù)據(jù)分析與挖掘從數(shù)據(jù)中獲取信息和發(fā)掘價值。

一、基本概念

(1)數(shù)據(jù)分析

數(shù)據(jù)分析是指根據(jù)分析目的,用適當?shù)慕y(tǒng)計分析方法及工具,對收集來的數(shù)據(jù)進行處理與分析,提取有價值的信息,發(fā)揮數(shù)據(jù)的作用。

(2)數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是指從大量的、有噪聲的、不完全的、模糊的和隨機的數(shù)據(jù)中,通過統(tǒng)計學、人工智能、機器學習等方法,挖掘出未知的、有價值的信息和知識的過程。

(3)統(tǒng)計分析方法

數(shù)據(jù)分析時需要選擇合適的統(tǒng)計分析方法進行數(shù)據(jù)的分析,常用統(tǒng)計分析方法有集中趨勢、離散程度、相關強度、參數(shù)估計、假設檢驗等,通過常用統(tǒng)計分析方法能夠描述數(shù)據(jù)的特征。

(4)數(shù)據(jù)挖掘方法

數(shù)據(jù)挖掘時需要運用數(shù)據(jù)挖掘方法來從數(shù)據(jù)中挖掘價值,常用數(shù)據(jù)挖掘的方法有分類、回歸、關聯(lián)、聚類等,這些方法能夠從不同的角度對數(shù)據(jù)進行挖掘。

二、統(tǒng)計分析方法

統(tǒng)計分析方法,按不同的分類標準可劃分為不同的類別,而常用的分類標準是功能標準,依此標準進行劃分,統(tǒng)計分析可分為描述統(tǒng)計和推斷統(tǒng)計。

描述統(tǒng)計是將研究中所得的數(shù)據(jù)加以整理、歸類、簡化或繪制成圖表,以此描述和歸納數(shù)據(jù)的特征及變量之間的關系的一種最基本的統(tǒng)計方法。描述統(tǒng)計主要涉及數(shù)據(jù)的集中趨勢、離散程度和相關強度,最常用的方法有平均數(shù)、標準差、相關系數(shù)等。

推斷統(tǒng)計指用概率形式來決斷數(shù)據(jù)之間是否存在某種關系及用樣本統(tǒng)計值來推測總體特征的一種重要的統(tǒng)計方法。推斷統(tǒng)計包括總體參數(shù)估計和假設檢驗,最常用的方法有Z檢驗、T檢驗、卡方檢驗等。

描述統(tǒng)計和推斷統(tǒng)計是統(tǒng)計分析時需要用到的方法,二者彼此聯(lián)系,相輔相成,描述統(tǒng)計是推斷統(tǒng)計的基礎,推斷統(tǒng)計是描述統(tǒng)計的升華。

1. 集中趨勢

集中趨勢又稱“數(shù)據(jù)的中心位置”、“集中量數(shù)”等,集中趨勢所反映的是一組資料中各種數(shù)據(jù)所具有的共同趨勢,即資料的各種數(shù)據(jù)所集聚的位置。因此,它是對變量數(shù)列進行分析的首要指標,它往往作為總體的代表水平同其他與之同質(zhì)的總體進行比較。集中趨勢能夠對總體的某一特征具有代表性,表明所研究的數(shù)據(jù)在一定時間和空間條件下的共同性質(zhì)和一般水平。

集中趨勢分析時常用的有平均數(shù)、中位數(shù)和眾數(shù)等。

2. 離散程度

離散程度是指一個分布壓縮和拉伸的程度。離散程度可以反應個體特例的情況,可以說明集中趨勢的代表性如何,還可在統(tǒng)計推斷時用來計算誤差的大小。另外,離散程度還被用來說明事物在發(fā)展變化過程中的均衡性、節(jié)奏性和穩(wěn)定性等問題。

離散程度主要有方差、標準差和四分位距等。

3. 相關程度

相關程度是研究隨機變量之間的相關關系的一種統(tǒng)計方法,相關程度顯示兩個隨機變量之間線性關系的強度和方向,主要研究現(xiàn)象之間是否存在某種依存關系,并對具體有依存關系的現(xiàn)象探討其相關方向以及相關情況。

數(shù)據(jù)的相關程度分析時常見的相關系數(shù)有Pearson相關系數(shù)、Spearman等級相關系數(shù)、Kendall等級相關系數(shù)、凈相關、相關比等。

4. 參數(shù)估計

參數(shù)估計是根據(jù)從總體中抽取的隨機樣本來估計總體分布中未知參數(shù)的過程。在對數(shù)據(jù)進行統(tǒng)計分析時,對于知道其分布形式的總體,用若干未知參數(shù)來表示,研究總體分布,首先就要估計出參數(shù)的取值,這樣的問題就是參數(shù)估計問題。

參數(shù)估計從估計形式看,區(qū)分為點估計與區(qū)間估計;從構造估計量的方法講,有矩估計、最小二乘估計、似然估計、貝葉斯估計等。

5. 假設檢驗

假設檢驗是用于檢驗統(tǒng)計假設的一種方法。 而“統(tǒng)計假設”是可通過觀察一組隨機變量的模型進行檢驗的科學假說。 一旦能估計未知參數(shù),就會希望根據(jù)結果對未知的真正參數(shù)值做出適當?shù)耐普摗?統(tǒng)計上對參數(shù)的假設,就是對一個或多個參數(shù)的論述。

假設檢驗,又稱統(tǒng)計假設檢驗,是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計推斷方法。假設檢驗基本原理是先對總體的特征作出某種假設,然后通過抽樣研究的統(tǒng)計推理,對此假設應該被拒絕還是接受作出推斷。

假設檢驗的種類包括:t檢驗,Z檢驗,卡方檢驗,F(xiàn)檢驗等等。

三、數(shù)據(jù)挖掘方法

數(shù)據(jù)挖掘方法按照是否有目標變量可分為有監(jiān)督學習的預測性方法和無監(jiān)督學習的描述性方法。

預測性方法通過對所提供數(shù)據(jù)集應用特定方法分析所獲得的一個或一組數(shù)據(jù)模型,并將該模型用于預測未來新數(shù)據(jù)的有關性質(zhì),包括分類和回歸。

描述性方法以簡潔概述的方式表達數(shù)據(jù)中的存在一些有意義的性質(zhì),分為聚類和關聯(lián)。

1. 分類

分類是找出數(shù)據(jù)中的一組數(shù)據(jù)對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)中的數(shù)據(jù)項映射到某個給定的類別中。

分類的輸出變量為離散型,常見的分類方法包括(樸素)貝葉斯、決策樹、邏輯回歸、KNN、SVM、支持向量機、神經(jīng)網(wǎng)絡、隨機森林和邏輯回歸等。

分類可以應用到涉及到應用分類、趨勢預測中,如用戶分層、用戶商品推薦、用戶流失率、促銷活動響應等。

2. 回歸

回歸分析反映了數(shù)據(jù)中數(shù)據(jù)的屬性值的特性,通過函數(shù)表達數(shù)據(jù)映射的關系來發(fā)現(xiàn)屬性值之間的依賴關系。它可以應用到對數(shù)據(jù)的預測及相關關系的研究中去。

回歸的輸出變量為連續(xù)型,常見的回歸方法有線性回歸、多項式回歸、嶺回歸、套索回歸、彈性網(wǎng)絡回歸等

回歸可以應用到銷量預測、備貨管理中,如通過回歸分析對電商商品的銷售趨勢作出預測。

3. 聚類

聚類是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。聚類分析可以建立抽象概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,探索可能的數(shù)據(jù)屬性之間的相互關系。

聚類類似于分類,但與分類的目的不同,是針對數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個類別。屬于同一類別的數(shù)據(jù)間的相似性很大,但不同類別之間數(shù)據(jù)的相似性很小,跨類的數(shù)據(jù)關聯(lián)性很低。

細分市場、細分客戶群體都屬于數(shù)據(jù)挖掘中的聚類問題,例如劃分聚類、層次聚類、密度聚類、網(wǎng)格聚類、基于模型聚類等。

聚類能夠實現(xiàn)對樣本的細分,使得同組內(nèi)的樣本特征較為相似,不同組的樣本特征差異較大。例如零售場景中對客戶的細分,然后針對不同類別的客戶進行對應營銷。

4. 關聯(lián)

關聯(lián)是隱藏在數(shù)據(jù)項之間的關聯(lián)或相互關系,即可以根據(jù)一個數(shù)據(jù)項的出現(xiàn)推導出其他數(shù)據(jù)項的出現(xiàn)。關聯(lián)規(guī)則的挖掘過程主要包括兩個階段:

  • 第一階段為從海量原始數(shù)據(jù)中找出所有的高頻項目組;
  • 第二階段是從這些高頻項目組產(chǎn)生關聯(lián)規(guī)則。

關聯(lián)指的是發(fā)現(xiàn)數(shù)據(jù)的各部分之間的聯(lián)系和規(guī)則,常見的關聯(lián)分析算法包括Aprior算法、Carma算法,序列算法等。

關聯(lián)常用于預測客戶的需求,例如消費者常常會同時購買哪些產(chǎn)品,從而有助于商家的捆綁銷售。

 

本文由 @ Eric 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 大家期待已久的《數(shù)據(jù)產(chǎn)品經(jīng)理實戰(zhàn)訓練營》終于上線啦!

    本課程非常適合新手數(shù)據(jù)產(chǎn)品經(jīng)理,或者想要轉崗的產(chǎn)品經(jīng)理、數(shù)據(jù)分析師、研發(fā)、產(chǎn)品運營等人群。

    課程會從基礎概念,到核心技能,再通過典型數(shù)據(jù)分析平臺的實戰(zhàn),幫助大家構建完整的知識體系,掌握數(shù)據(jù)產(chǎn)品經(jīng)理的基本功。

    學完后你會掌握怎么建指標體系、指標字典,如何設計數(shù)據(jù)埋點、保證數(shù)據(jù)質(zhì)量,規(guī)劃大數(shù)據(jù)分析平臺等實際工作技能~

    現(xiàn)在就添加空空老師(微信id:anne012520),咨詢課程詳情并領取福利優(yōu)惠吧!

    來自廣東 回復
专题
12895人已学习19篇文章
如今随着互联网的发展,数字化给我们带来了更多的机会,在大数据时代,数据规模也在不断的膨胀,所以各种企业需要大数据治理。本专题的文章分享了数据治理相关的知识。
专题
52345人已学习14篇文章
现在业内很多人都强调产品思维,但它到底是什么?又有何用武之地呢?
专题
69715人已学习13篇文章
想要做款好产品,这些规范你得知道。
专题
37627人已学习20篇文章
“搜索功能”拆解:小功能,大细节。
专题
15019人已学习14篇文章
RBAC是一套成熟的权限模型,在传统权限模型中,我们直接把权限赋予用户。而在RBAC中,首先把权限赋予角色,再把角色赋予用户。本专题的文章分享了基于RBAC模型的权限设计。
专题
37416人已学习23篇文章
不知道这些问题,你出去都不敢说自己是做电商运营的。