數(shù)據(jù)挖掘:數(shù)據(jù)角度沙里淘金,重塑數(shù)字化轉(zhuǎn)型
在數(shù)字化轉(zhuǎn)型的浪潮中,企業(yè)積累了海量的數(shù)據(jù),但如何從這些數(shù)據(jù)中提取價(jià)值,實(shí)現(xiàn)真正的降本增效,成為許多企業(yè)面臨的難題。本文從數(shù)據(jù)挖掘的角度出發(fā),深入探討了數(shù)據(jù)挖掘的定義、價(jià)值以及實(shí)施步驟,供大家參考。
一直有記錄、分析問(wèn)題的習(xí)慣,但最近很多事情疊加在一起,反倒讓自己有些迷茫,感覺(jué)快被各種數(shù)據(jù)淹沒(méi)、溺亡??粗鴿M(mǎn)滿(mǎn)一墻壁、疊加在一起的所有問(wèn)題紙張,我猛然發(fā)現(xiàn),最近關(guān)注的東西太多了,需要【精簡(jiǎn)】。
最核心的那個(gè)問(wèn)題是什么,最緊迫要解決的問(wèn)題是什么?一下子從一堆的思維紙張中,取出來(lái)1張,心也就穩(wěn)定了。
數(shù)字化轉(zhuǎn)型實(shí)現(xiàn)業(yè)務(wù)數(shù)字化后,后面的路又該如何走?上了一堆的系統(tǒng),OA、HR、ERP、MES、PLM、QMS、WMS、TMS、車(chē)間管理、數(shù)字大屏…也不斷聽(tīng)到技術(shù)部反饋,我們的數(shù)據(jù)存儲(chǔ)在直線上升,似乎數(shù)據(jù)成為一種累贅。
降本增效一直是企業(yè)的追求,流程再造是最佳的實(shí)踐方案,但走到數(shù)字化的階段,有些拔劍四顧心茫然。這時(shí)候,數(shù)據(jù)挖掘就該閃亮登場(chǎng)了。
01 什么是數(shù)據(jù)挖掘?
數(shù)據(jù)挖掘(Data Mining)是從大量的、不完整的、有噪聲的、模糊的數(shù)據(jù)集中,提取隱含在其中的、事先不知道的、但有潛在有用信息和知識(shí)的過(guò)程。
數(shù)據(jù)挖掘就像沙里淘金,從一大堆看似普通的數(shù)據(jù)里,找到真正有價(jià)值的信息。
比如:生產(chǎn)制造企業(yè)從所有的生產(chǎn)數(shù)據(jù)中去挖掘降本增效的切入點(diǎn);銷(xiāo)售型企業(yè)從所有的銷(xiāo)售記錄、售前活動(dòng)、輿情平臺(tái)、售后服務(wù)去找尋新的增長(zhǎng)點(diǎn)。
被挖掘的數(shù)據(jù)源存在很多的不確定性,需要應(yīng)用數(shù)據(jù)清洗,提高數(shù)據(jù)質(zhì)量;數(shù)據(jù)挖掘成果存在不確定性、未知性,需要依賴(lài)數(shù)據(jù)挖掘模型,提高產(chǎn)出概率。
在這個(gè)不確定性較高的年代,存款就是個(gè)人的底氣。也常有販賣(mài)焦慮型的文章,提醒我們?cè)摌O限存錢(qián)。我們不那么焦慮,但可以試著來(lái)分析一下我們?cè)撊绾未驽X(qián)?
數(shù)據(jù)積累:收集我們所有的消費(fèi)記錄。盡可能找到所有的相關(guān)的記錄,把收支相關(guān)的所有數(shù)據(jù)集中起來(lái),確??吹较鄬?duì)更為完整的全貌。
比如購(gòu)物記錄、吃飯付款記錄、消費(fèi)娛樂(lè)記錄、家庭繳費(fèi)記錄;收集我們所有的收入記錄,比如工資,自媒體收入,活動(dòng)收入,優(yōu)惠劵,薅羊毛群等。
找規(guī)律:進(jìn)行各種匯總計(jì)算,比如總收入,總支出,吃飯支出,娛樂(lè)支出,購(gòu)物支出,房貸支出,網(wǎng)貸支出…
說(shuō)一個(gè)現(xiàn)狀,身邊很多年輕人都或多或少的遭受了網(wǎng)貸虐待。上傳身份證,電話號(hào)碼綁定,支付寶或微信綁定,人臉識(shí)別,5分鐘不到,大幾千額度貸款就下放下來(lái)了,相比于苦哈哈等一個(gè)月的工資,這個(gè)太容易了!加上數(shù)字錢(qián)的不敏感、掃碼支付的便捷,網(wǎng)貸的龜殼就這么背上了,甚至很大一部人最開(kāi)始都只是想著過(guò)個(gè)橋、騰一下時(shí)間。慢慢的次數(shù)多了,額度多了,很多時(shí)候都是背不住了,才捅到父母那邊,嚇得很多老一輩天都垮了。這不是怕金額多,更多的是怕防不勝防,是怕無(wú)敵洞。
可以計(jì)算出入(堵兩頭的方式),確定中間是否有漏洞,賺了8K,花了1W,中間2K哪里來(lái)的?可以計(jì)算占比,吃飯只占花銷(xiāo)總體的20%,那其他的花銷(xiāo)是真的有必要?可以慎重審視;可以對(duì)比趨勢(shì),連著3個(gè)月來(lái)花銷(xiāo)在直線上升,這是為啥呢?
分析與執(zhí)行:找到原因,找到路徑,然后去執(zhí)行。雖然極限存錢(qián)這個(gè)概念很極端,但是找到所有不利的地方,全都改良,這或許是個(gè)很好的開(kāi)始。
作為曾經(jīng)的月光族,第一個(gè)月下定決心存錢(qián),其實(shí)只存了200,金額并沒(méi)有很多,但是卻讓我在接下來(lái)一個(gè)月妥善的應(yīng)對(duì)了1次人情客往。我更加確定,人生并不是天注定,更多是自己選擇的。生死不可控,生死之間的事,可以多點(diǎn)把控。
02 為什么要數(shù)據(jù)挖掘?
數(shù)據(jù)挖掘的核心目的是把數(shù)據(jù)變成【答案】。雖然數(shù)據(jù)挖掘像大海里撈針,但撈到的針能幫助賺錢(qián)、省時(shí)間、防風(fēng)險(xiǎn),甚至預(yù)測(cè)未來(lái)。
數(shù)據(jù)挖掘可通過(guò)數(shù)據(jù)鏈路分析,從流量到留量的轉(zhuǎn)化,挖掘更多高價(jià)值 用戶(hù),降低更多時(shí)間耽誤,從而精準(zhǔn)賺錢(qián)。
通過(guò)審批流分析,消除審核節(jié)點(diǎn)無(wú)故停留,提升效率;通過(guò)供應(yīng)鏈分析、庫(kù)存分析、生產(chǎn)拉動(dòng)分析,降低庫(kù)存占用,提高庫(kù)存周轉(zhuǎn);通過(guò)用戶(hù)瀏覽、購(gòu)買(mǎi)行為,助力推薦系統(tǒng),貢獻(xiàn)更多營(yíng)收。
數(shù)據(jù)挖掘通過(guò)算法提效、自動(dòng)化工具,實(shí)現(xiàn)自動(dòng)化決策與流程優(yōu)化,從而高效省時(shí)間。
特斯拉利用生產(chǎn)數(shù)據(jù)挖掘優(yōu)化生產(chǎn)線節(jié)拍,將 Model Y 的生產(chǎn)周期從 20 小時(shí)縮短至 10 小時(shí)。
數(shù)據(jù)挖掘通過(guò)風(fēng)險(xiǎn)預(yù)測(cè)模型和安全防護(hù)技術(shù),構(gòu)建安全屏障,從而把控風(fēng)險(xiǎn),做好風(fēng)險(xiǎn)防御。
螞蟻集團(tuán)通過(guò)分析用戶(hù)行為、設(shè)備指紋等數(shù)據(jù),構(gòu)建實(shí)時(shí)反欺詐系統(tǒng),攔截 99.9% 的惡意交易,每年挽回?fù)p失超百億元
數(shù)據(jù)挖掘通過(guò)時(shí)間序列分析、機(jī)器學(xué)習(xí)模型,進(jìn)行趨勢(shì)預(yù)測(cè),從而塑造未來(lái)。
通用電氣(GE)利用傳感器數(shù)據(jù)預(yù)測(cè)飛機(jī)發(fā)動(dòng)機(jī)故障,將計(jì)劃外停機(jī)時(shí)間減少 70%,每年節(jié)省維護(hù)成本 20 億美元。
數(shù)據(jù)挖掘是信息時(shí)代的「指南針」。
對(duì)企業(yè),可以省錢(qián)(減少試錯(cuò)成本)、賺錢(qián)(精準(zhǔn)營(yíng)銷(xiāo))、防風(fēng)險(xiǎn)(比如詐騙檢測(cè));對(duì)個(gè)人,讓生活更智能(推薦音樂(lè)、電影)、更安全(盜刷預(yù)警)、更健康(智能手環(huán)分析睡眠數(shù)據(jù));對(duì)社會(huì),可以預(yù)測(cè)疫情擴(kuò)散、優(yōu)化城市交通、甚至幫助科學(xué)家發(fā)現(xiàn)新藥。
03 如何做數(shù)據(jù)挖掘?
數(shù)據(jù)挖掘六大核心步驟:明確業(yè)務(wù)目標(biāo)、數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)建模、模型評(píng)估、模型驗(yàn)證優(yōu)化。
類(lèi)似做菜的流程:明確吃什么(明確業(yè)務(wù)目標(biāo))、準(zhǔn)備食材(數(shù)據(jù)采集)、洗菜切菜(數(shù)據(jù)預(yù)處理)、炒菜(數(shù)據(jù)建模)、試吃調(diào)整(模型評(píng)估)、最后上桌(模型驗(yàn)證優(yōu)化)。
1?? 明確業(yè)務(wù)目標(biāo):確定解決什么問(wèn)題
問(wèn)題越聚焦、越具體,數(shù)據(jù)挖掘越有效,避免大海撈針。
比如:超市老板想:【怎么讓顧客多買(mǎi)商品?】具象為找到【經(jīng)常被一起購(gòu)買(mǎi)的商品組合】,調(diào)整貨架位置。
2?? 數(shù)據(jù)采集:食材從哪里來(lái)
巧婦難為無(wú)米之炊。要能夠一桌好菜上桌,豐盛食材必不可少。數(shù)據(jù)越豐富、越完整、質(zhì)量越高,挖掘結(jié)果越精準(zhǔn)??伤鸭瘮?shù)據(jù)庫(kù)信息(訂單記錄、用戶(hù)信息)、日志信息(網(wǎng)站點(diǎn)擊、App使用行為)、傳感器信息(智能手環(huán)的心率數(shù)據(jù))、外部數(shù)據(jù)(天氣、社交媒體評(píng)論)等。
3?? 數(shù)據(jù)預(yù)處理:洗菜、切菜、去爛葉
做菜要先備菜。初始收集的數(shù)據(jù)常臟亂差(缺失、重復(fù)、錯(cuò)誤),需要進(jìn)行數(shù)據(jù)清洗。常見(jiàn)操作如:
- 清洗:刪除年齡填“-30歲”的異常值。
- 補(bǔ)全:用平均值填充缺失的身高數(shù)據(jù)。
- 轉(zhuǎn)換:把“男/女”變成數(shù)字0/1,方便算法計(jì)算。
- 降維:100個(gè)用戶(hù)特征中,只保留與“購(gòu)買(mǎi)意愿”強(qiáng)相關(guān)的10個(gè)。
4?? 數(shù)據(jù)建模:選用合適【廚具】,開(kāi)火炒菜
數(shù)據(jù)挖掘常用的算法工具包含分類(lèi)(預(yù)測(cè)類(lèi)別)、聚類(lèi)(自動(dòng)分組)、關(guān)聯(lián)規(guī)則(找組合規(guī)律)、預(yù)測(cè)(估未來(lái)數(shù)值)等。分類(lèi)典型算法有決策樹(shù)、隨機(jī)森林(像多專(zhuān)家投票),聚類(lèi)算法有K-means(按相似度分堆)等,準(zhǔn)備好廚具。
然后開(kāi)火炒菜,將數(shù)據(jù)分為訓(xùn)練集(學(xué)做菜)和測(cè)試集(試吃驗(yàn)收),進(jìn)行模型訓(xùn)練與微調(diào)。過(guò)程中,需要適當(dāng)調(diào)整火候,如設(shè)定聚類(lèi)算法中的分組數(shù)量(K值)。若模型結(jié)果不準(zhǔn),需要及時(shí)更換算法或者重新處理數(shù)據(jù)。
5?? 模型評(píng)估:試吃調(diào)整
菜出鍋前,需要試試咸淡,試試軟硬,適當(dāng)擺盤(pán),盡量色香味俱全。
針對(duì)數(shù)據(jù)挖掘,也需要先判斷模型準(zhǔn)確率、誤判率、穩(wěn)定程度,確定模型的可靠程度,從而確保后續(xù)挖掘出來(lái)的結(jié)果可靠、可用、真實(shí)、有效。
評(píng)估階段,可以灰度小范圍試用,驗(yàn)證切實(shí)可以解決問(wèn)題,達(dá)成目標(biāo),才能準(zhǔn)備上線。
6?? 模型驗(yàn)證優(yōu)化:端餐上桌,持續(xù)改進(jìn)
通過(guò)評(píng)估后,模型嵌入問(wèn)題解決場(chǎng)景,加入生產(chǎn),生成報(bào)表,影響決策,從而解決問(wèn)題、達(dá)成目標(biāo)。經(jīng)驗(yàn)證評(píng)估的模型,在嵌入初期,正常能夠很好解決問(wèn)題。若是嵌入就出現(xiàn)問(wèn)題,說(shuō)明評(píng)估不足,需要撤回,重新訓(xùn)練、調(diào)整、試用、評(píng)估。
但隨著應(yīng)用時(shí)間變長(zhǎng),更多業(yè)務(wù)數(shù)據(jù)匯入,甚至業(yè)務(wù)本身也在不斷進(jìn)化,就需要適時(shí)調(diào)整模型,持續(xù)改進(jìn)。
以下是電商精準(zhǔn)營(yíng)銷(xiāo)的案例,期許可以幫助更好理解數(shù)據(jù)挖掘六大步驟:
- 目標(biāo):找出【高潛力用戶(hù)】,推送優(yōu)惠券提升轉(zhuǎn)化率;
- 數(shù)據(jù):用戶(hù)過(guò)去3個(gè)月的瀏覽、加購(gòu)、付款、退款記錄;
- 預(yù)處理:剔除機(jī)器人賬號(hào),將“瀏覽時(shí)長(zhǎng)”轉(zhuǎn)換為分鐘;
- 建模:用邏輯回歸模型,預(yù)測(cè)用戶(hù)未來(lái)7天的購(gòu)買(mǎi)概率;
- 結(jié)果:對(duì)概率高于80%的用戶(hù)發(fā)券,轉(zhuǎn)化率提升30%;
- 部署:系統(tǒng)自動(dòng)每天篩選用戶(hù)并發(fā)送優(yōu)惠券。
特別提醒:
- 數(shù)據(jù)質(zhì)量 > 算法復(fù)雜度:再高級(jí)的算法也救不了垃圾數(shù)據(jù)。
- 業(yè)務(wù)理解是關(guān)鍵:不懂超市運(yùn)營(yíng)的人,很難發(fā)現(xiàn)「啤酒和尿布」的關(guān)聯(lián)。
- 迭代思維:數(shù)據(jù)挖掘不是一錘子買(mǎi)賣(mài),需持續(xù)優(yōu)化。
總結(jié):數(shù)據(jù)挖掘 = 50%業(yè)務(wù)問(wèn)題理解 + 30%數(shù)據(jù)清洗 + 20%算法建模。就像沙里淘金,大部分時(shí)間在篩沙子(處理數(shù)據(jù)),最后才能找到金子(價(jià)值)。
數(shù)據(jù)挖掘的價(jià)值不僅在于技術(shù)實(shí)現(xiàn),更在于將冰冷的數(shù)字,轉(zhuǎn)化為溫暖的商業(yè)洞察與社會(huì)價(jià)值。在這個(gè)過(guò)程中,持續(xù)迭代的模型與不斷深化的業(yè)務(wù)理解將形成正循環(huán),推動(dòng)組織從 【數(shù)據(jù)驅(qū)動(dòng)】 邁向 【智能決策】。
數(shù)據(jù)挖掘本質(zhì)上是認(rèn)知能力的延伸,不僅解決了 【如何處理數(shù)據(jù)】 ,更回答了 【如何理解世界】。
本文由人人都是產(chǎn)品經(jīng)理作者【壹叁零壹】,微信公眾號(hào):【壹叁零壹】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!