淺談如何通過(guò)數(shù)據(jù),驗(yàn)證地圖單點(diǎn)信息(POI)的準(zhǔn)確性

編輯導(dǎo)語(yǔ):如今數(shù)據(jù)分析和機(jī)器學(xué)習(xí)是很火熱的領(lǐng)域,近幾年各行各業(yè)都已經(jīng)采集了大量的數(shù)據(jù),如何利用數(shù)據(jù)提高效率成為了問(wèn)題的關(guān)鍵。
作為一個(gè)C端產(chǎn)品經(jīng)理,最近工作原因有幸與某廠的地圖部門聊到了單點(diǎn)信息(POI)的準(zhǔn)確性這個(gè)問(wèn)題(主要是店鋪的開(kāi)張與否),在當(dāng)今大數(shù)據(jù)和機(jī)器學(xué)習(xí)如此火熱的時(shí)代,自己有目的的對(duì)此問(wèn)題做了一個(gè)淺顯的分析,寫一篇小文章請(qǐng)地圖相關(guān)的PM一起來(lái)指正一下。
目前來(lái)看,單點(diǎn)信息主要以人工方式進(jìn)行驗(yàn)證,大多數(shù)依靠人工掃街和商戶認(rèn)領(lǐng)。信息流程處理復(fù)雜,費(fèi)時(shí)費(fèi)力,數(shù)據(jù)的延遲相對(duì)嚴(yán)重,沒(méi)能充分利用已有數(shù)據(jù)。
下邊將從一個(gè)具體案例入手,歸納總結(jié),以點(diǎn)帶面,升級(jí)為一套可執(zhí)行方案。
一、案例分析
案例的選取:案例店鋪在身邊不能太多,如便利店,因?yàn)楸憷昱赃吘陀泻芏嗵娲?;也不能太少,如大型商超,開(kāi)張關(guān)門的頻率基本很低,不具有參考價(jià)值。所以案例使用洗衣店這種非高頻卻是必須品的店鋪。
案例:小區(qū)門口有家洗衣店,需要判斷其是否仍然健在開(kāi)張營(yíng)業(yè)。
案例分析:數(shù)據(jù)的產(chǎn)出來(lái)自方方面面,但是其本質(zhì)來(lái)源于人類的日?;顒?dòng),洗衣店的參與者包括了洗衣店消費(fèi)者(Customer)、老板店員(Owner)和供應(yīng)商(Supplier,以洗衣店為用戶的服務(wù)提供商),下面對(duì)三種角色的行為軌跡進(jìn)行分析,從而發(fā)現(xiàn)其可利用的數(shù)據(jù)點(diǎn)。
1. 來(lái)自消費(fèi)者的判斷
首先消費(fèi)者的洗衣流程:
以上是洗衣店消費(fèi)者將臟衣服送洗的流程圖,從上圖可以發(fā)現(xiàn),能夠充分判斷洗衣店在開(kāi)張營(yíng)業(yè)狀態(tài)的路徑有兩條,通過(guò)數(shù)據(jù)來(lái)驗(yàn)證的方式有兩個(gè):
- 用戶通過(guò)地圖軟件查詢到目的地并撥打電話后,在一定允許的時(shí)間差內(nèi),導(dǎo)航到該目的地。由于我們可以在用戶允許的前提下獲知用戶是否使用了該點(diǎn)的電話信息,同時(shí),可以在用戶允許的前提下獲知到用戶在調(diào)用了電話信息后的2小時(shí)內(nèi)(時(shí)間可以修正),通過(guò)地圖軟件導(dǎo)航到了該目的地,或者通過(guò)與地圖軟件合作的軟件(SDK接入者)或硬件(合作車商),導(dǎo)航或打車到達(dá)該洗衣店,那證明該洗衣店開(kāi)張的可能性較大。
- 用戶到達(dá)店鋪后,進(jìn)行下單支付。該數(shù)據(jù)我們不能在地圖本身拿到,但是若有支付合作商擁有該場(chǎng)景應(yīng)用,再用戶允許的前提下,我們?cè)诤笈_(tái)將該洗衣店的收款賬號(hào)與點(diǎn)信息匹配,當(dāng)一天內(nèi)有超過(guò)3筆(數(shù)量可以修正)收入后,那證明該洗衣店開(kāi)張的可能性極大。
從圖中可以看出,店面有可能關(guān)門的路徑有三條,通過(guò)數(shù)據(jù)來(lái)驗(yàn)證的方式是兩種:
- 用戶撥打電話后,繼續(xù)搜索和查看其它洗衣店
- 用戶在該洗衣店附近,搜索或?qū)Ш降搅硪粋€(gè)洗衣店
2. 來(lái)自老板店員的判斷
以上是洗衣店消費(fèi)者的洗衣流程圖,下邊再看一下店員的流程圖,從而尋找可以從店員身上找到可利用數(shù)據(jù)點(diǎn)。
從老板店員來(lái)看:
- 首先可以從店鋪建立開(kāi)始,在用戶允許的前提下,將每天都會(huì)規(guī)律性到達(dá)洗衣店的地圖軟件用戶保存在洗衣店的信息中,當(dāng)這些數(shù)據(jù)有異常變化時(shí),就可以對(duì)店鋪營(yíng)業(yè)情況及時(shí)進(jìn)行驗(yàn)證和管理;
- 和上邊消費(fèi)者判斷行為一樣,可以通過(guò)店鋪內(nèi)的消費(fèi)支付情況判斷其是否營(yíng)業(yè);另外,由于一個(gè)店鋪對(duì)于水電的使用基本是平穩(wěn)的,在用戶允許的前提下,通過(guò)支付合作商的生活繳費(fèi)功能數(shù)據(jù),也能獲取其是否營(yíng)業(yè)中的信息;
- 通過(guò)接入地圖軟件SDK的跑腿APP是否在該店產(chǎn)生訂單,來(lái)判斷其營(yíng)業(yè)情況
來(lái)自供應(yīng)商的判斷
對(duì)于洗衣服的用戶來(lái)說(shuō)洗衣店是服務(wù)提供商,但洗衣店在整個(gè)市場(chǎng)中,自己本身也是客戶,其他供應(yīng)商,包括為洗衣店提供洗衣耗材用品的商家或個(gè)人,以及給店員提供生活服務(wù)的商家或個(gè)人(如外賣等),在用戶允許的前提下,這些供應(yīng)商產(chǎn)生的行為數(shù)據(jù)可以拿來(lái)對(duì)洗衣店的營(yíng)業(yè)情況進(jìn)行驗(yàn)證:
- 由于店鋪的經(jīng)營(yíng)一般都會(huì)歸于平穩(wěn),洗衣耗材供應(yīng)商會(huì)呈規(guī)律式的來(lái)送貨,當(dāng)我們通過(guò)數(shù)據(jù)分析,將一個(gè)人判讀為供應(yīng)商時(shí),若其周期性運(yùn)動(dòng)軌跡出現(xiàn)異常時(shí),其服務(wù)的這家洗衣店就存在關(guān)門的可能;
- 另外在用戶允許的前提下,可以通過(guò)接入地圖軟件SDK的生活服務(wù)提供商,收集信息,查看該點(diǎn)是否任然被服務(wù),若該點(diǎn)近3天(時(shí)間可修正)沒(méi)有被服務(wù)的記錄,那么就存在關(guān)門可能
以上供應(yīng)商的1/2兩條判斷數(shù)據(jù),可以與上邊的老板店員數(shù)據(jù)的1/3相結(jié)合。
二、歸納升級(jí)方案
根據(jù)上述分析,對(duì)于單點(diǎn)信息,判斷其是否仍然活躍,歸納總結(jié)出如下表格:
判斷的核心方式是:通過(guò)數(shù)據(jù)噪點(diǎn)找到可能存在的問(wèn)題,通過(guò)其他數(shù)據(jù)的驗(yàn)證找到數(shù)據(jù)的真實(shí)情況。
每個(gè)點(diǎn)的營(yíng)業(yè)狀態(tài)可以預(yù)留三個(gè)值,分別為:營(yíng)業(yè)中,待確認(rèn),不營(yíng)業(yè)。最初獲取點(diǎn),點(diǎn)信息為營(yíng)業(yè)中狀態(tài),我們?yōu)辄c(diǎn)信息加入五個(gè)維度的考察指標(biāo),當(dāng)這五個(gè)維度中,出現(xiàn)判斷不營(yíng)業(yè)的次數(shù)超過(guò)了10次(數(shù)量需要進(jìn)行統(tǒng)計(jì)與測(cè)試),可以是一個(gè)維度判斷不營(yíng)業(yè)出現(xiàn)10次,或多個(gè)維度判斷不營(yíng)業(yè)出現(xiàn)10次,那就將該點(diǎn)掛起,變?yōu)榇_認(rèn)狀態(tài),然后去進(jìn)一步遍歷該點(diǎn)的5個(gè)維度在數(shù)據(jù)出現(xiàn)噪點(diǎn)后的時(shí)間內(nèi)所有的判斷條件,以及監(jiān)控其未來(lái)5個(gè)維度的發(fā)展情況,更多信息判斷為在營(yíng)業(yè)或不營(yíng)業(yè)的,則將點(diǎn)營(yíng)業(yè)狀態(tài)改變到正確值。
這里邊還可以加入用戶參與,當(dāng)狀態(tài)值為待確認(rèn)時(shí),對(duì)于路過(guò)或以該目的地為起點(diǎn)或終點(diǎn)的用戶進(jìn)行推送消息,提問(wèn)反饋,驗(yàn)證我們的判斷是否正確。其中反饋真實(shí)信息的用戶可以得到某種獎(jiǎng)勵(lì),當(dāng)然這是另一個(gè)問(wèn)題,不做討論。
最后,根據(jù)最終情況去完善和修正方案,包括方案中的判斷方式和方案中的判斷內(nèi)容維度,從而進(jìn)一步優(yōu)化方案,這個(gè)優(yōu)化也需要提一下,除了方案本身的優(yōu)化,機(jī)器通過(guò)反饋,不斷學(xué)習(xí),從而提高機(jī)器判斷的正確率。利用數(shù)據(jù),盡量減少人工和降低成本。
以上是我提出的一個(gè)解決方案,當(dāng)然,具體實(shí)施時(shí),還需要考慮很多,其中包括5個(gè)維度中提到的各種時(shí)間范圍值,每個(gè)維度的真值和假值等。方案有很多不完善之處,希望地圖界的大佬,尤其在POI項(xiàng)目中的大佬能夠提出優(yōu)化方案,共同探討。
三、文章總結(jié)
如今數(shù)據(jù)分析和機(jī)器學(xué)習(xí)是很火熱的領(lǐng)域,近幾年各行各業(yè)都已經(jīng)采集了大量的數(shù)據(jù),如何利用數(shù)據(jù)提高效率成為了問(wèn)題的關(guān)鍵。
在我以淺顯的眼光來(lái)看,當(dāng)需要解決某個(gè)問(wèn)題時(shí),可以通過(guò)一個(gè)維度的數(shù)據(jù)解決,然后再通過(guò)另外一個(gè)維度去驗(yàn)證,再通過(guò)第三個(gè)維度去驗(yàn)證第二個(gè)維度,如此下去,做一些灰度模型,最終機(jī)器的判斷值或輸出值等于真實(shí)值,這就是最簡(jiǎn)單卻最有效的一種大數(shù)據(jù)應(yīng)用。
聲明:文章中提到的所有用戶信息獲取與應(yīng)用,都會(huì)獲得用戶允許。在法律允許的范圍內(nèi),本文最終解釋權(quán)歸本文作者所有。
文末提出一個(gè)簡(jiǎn)單的問(wèn)題,如何判斷搜狗輸入法用戶的男女比例?希望能夠與大家一起探討。
作者:小花,資深增長(zhǎng)產(chǎn)品,公眾號(hào):小花摸耳(idhuaandmore)
本文由 @?小花 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自u(píng)nsplash,基于CC0協(xié)議
有點(diǎn)意思,考慮跳槽不?來(lái)我廠吧…
地圖的核心支撐在于數(shù)據(jù)的豐富度和準(zhǔn)確性,利用算法模型對(duì)線上數(shù)據(jù)的準(zhǔn)確度做判斷是合理的,但是否能大幅度提升驗(yàn)證的效率還需評(píng)估。
在樓主的這個(gè)模型里,如果用戶前往一個(gè)POI,發(fā)現(xiàn)其已經(jīng)停業(yè)或搬遷,對(duì)于單個(gè)用戶來(lái)講,體驗(yàn)傷害已經(jīng)造成,此時(shí)產(chǎn)品的核心應(yīng)在于及時(shí)止損,安撫用戶,回收錯(cuò)誤信息。在我看來(lái),此時(shí)的報(bào)錯(cuò)機(jī)制和用戶激勵(lì)要遠(yuǎn)遠(yuǎn)比用戶此時(shí)的軌跡信息收集更為重要,目前來(lái)看,百度做得并不好。
另一番方面,如何引導(dǎo)B端或者G端在地圖上認(rèn)領(lǐng)信息,也是很重要的一點(diǎn),這些應(yīng)該從產(chǎn)品思路上考慮,而不應(yīng)該僅僅局限于數(shù)據(jù)和算法。
我的理解,數(shù)據(jù)和算法都是為了產(chǎn)品服務(wù),是解決問(wèn)題的手段,不是目的,地圖還是要更加關(guān)注自身產(chǎn)品業(yè)務(wù)線的邏輯,從用戶層面看問(wèn)題會(huì)好一點(diǎn)
您說(shuō)的沒(méi)錯(cuò),需要從整體產(chǎn)品線看問(wèn)題,角度沒(méi)問(wèn)題,可以說(shuō)您是全局把控,其實(shí)他們整個(gè)地圖部門就在從全產(chǎn)品角度看問(wèn)題,發(fā)現(xiàn)并解決問(wèn)題。只是會(huì)落實(shí)到每個(gè)組,跟我一起探討問(wèn)題的是該廠的POI組,而且是POI組的其中一道程序的部門,雖然我沒(méi)有接觸其他部門,但我相信,他們公司肯定有專門做用戶層面的部門。
我們希望將問(wèn)題拆分,尋找到每個(gè)可以優(yōu)化和解決問(wèn)題的點(diǎn),提升產(chǎn)品,這不就是我們一直在追求的極致嗎?謝謝點(diǎn)評(píng),虛心接受啦,看您也關(guān)注地圖行業(yè),希望以后可以不吝賜教哦。 ??
思維都挺好的,來(lái)高德不?挺對(duì)口的,聯(lián)系電話:15801164987