大數(shù)據(jù)識別電信罪案中的統(tǒng)計學(xué)原理

0 評論 8396 瀏覽 32 收藏 9 分鐘

本文將淺談統(tǒng)計學(xué)原理在數(shù)據(jù)信息提取、數(shù)據(jù)處理和現(xiàn)實(shí)應(yīng)用場景中的研究意義。

通常而言,談及統(tǒng)計學(xué),人們認(rèn)為就是將數(shù)據(jù)通過簡單的樣本計算和傳統(tǒng)的數(shù)學(xué)模型將其中有用的信息提取出來。然而,放到現(xiàn)代的觀念來說,這些認(rèn)知偏頗狹隘了。

當(dāng)今,大量的動態(tài)數(shù)組,千兆、億兆的數(shù)據(jù),在商業(yè)、制造業(yè)、環(huán)境科學(xué)、航天航空

數(shù)據(jù)網(wǎng)絡(luò)等各個領(lǐng)域?qū)乙姴货r。傳統(tǒng)的統(tǒng)計學(xué)場景和現(xiàn)代統(tǒng)計學(xué)已經(jīng)相去甚遠(yuǎn)。

更進(jìn)一步,隨著數(shù)據(jù)量的增加,計算機(jī)科學(xué)成為了比傳統(tǒng)統(tǒng)計學(xué)更為適合處理大數(shù)據(jù)計算的方式,數(shù)據(jù)可視化的應(yīng)用挑戰(zhàn)也成為計算機(jī)科學(xué)發(fā)展的重要方面。

這篇文章,將淺談統(tǒng)計學(xué)原理在數(shù)據(jù)信息提取、數(shù)據(jù)處理和現(xiàn)實(shí)應(yīng)用場景中的研究意義。

1. 信息新定義

信息如何從數(shù)據(jù)中提取,取決于不同目標(biāo)主體。有時,信息就是總結(jié)一下當(dāng)前數(shù)據(jù),不針對未來決策、過程、實(shí)驗做推斷。

但即使是總結(jié)也不容易,如果數(shù)據(jù)量龐大則需要使用特殊函數(shù)來處理。更為隱晦的是,目標(biāo)可能是推斷未知參數(shù)或關(guān)聯(lián)關(guān)系。

例如,目標(biāo)可能是理解一項未知或無法獲取的事物,例如性能輸出量,這類數(shù)據(jù)沒有誤差變量則無法衡量,

因此,難點(diǎn)就是從實(shí)驗數(shù)據(jù)中提取關(guān)聯(lián)行和參數(shù)來解釋這類數(shù)據(jù)?;蛘?,目標(biāo)或許是預(yù)測當(dāng)前抵押貸款未來可能會有拖欠情況的部分人員。

預(yù)測未來價值,而不是推斷隱藏的關(guān)聯(lián)關(guān)系和參數(shù)。

舉例來說:某一項貸款已經(jīng)下放,那么目標(biāo)函數(shù)可能需要確定某部分?jǐn)?shù)據(jù)應(yīng)用用來預(yù)測還款是否會有拖欠,所以目前的貸款數(shù)據(jù)只是可用數(shù)據(jù)的訓(xùn)練集。

推斷數(shù)據(jù)和預(yù)測數(shù)據(jù)都需要數(shù)據(jù)分析,而不僅僅是數(shù)據(jù)歸集。

2. 基礎(chǔ)統(tǒng)計概念

基礎(chǔ)統(tǒng)計學(xué)模型很簡單:

數(shù)據(jù)=主體數(shù)據(jù)+噪聲數(shù)據(jù)

主體數(shù)據(jù)代表主要的數(shù)據(jù)形態(tài),噪聲數(shù)據(jù)表示圍繞主要模型的變量,兩者都具有高度復(fù)雜性。主體可能是參數(shù)類型的,這組參數(shù)可能是線性數(shù)據(jù)、非線性數(shù)據(jù)、復(fù)數(shù)、積性函數(shù)等(例如:系數(shù))。

另外,主體數(shù)據(jù)也可以是非參數(shù)類型的,例如:階梯函數(shù)、賦值函數(shù)或一連串解釋型變量。噪聲數(shù)據(jù)表示變量數(shù)據(jù),會影響預(yù)測和評估的可靠程度。噪聲數(shù)據(jù)是相對獨(dú)立、標(biāo)準(zhǔn)、相關(guān)、持續(xù)期間偏差抽樣,用于計算非隨機(jī)樣本或結(jié)構(gòu)化數(shù)據(jù)。例如:如果噪聲數(shù)據(jù)沒有附加影響數(shù)據(jù)源,那更合適的模型就是

Data~Fθ

Mean(data)= g(θ)

Fθ是圍繞在決策模型g(θ)周邊的分布函數(shù),解釋數(shù)據(jù)的冗余變量。Fθ也可以是著名的分布函數(shù),例如伯努利分布,邏輯回歸。其包括了計算非冗余樣本,通過解析性變量和關(guān)聯(lián)關(guān)系來預(yù)測持續(xù)期間樣本變差等情況。主要參數(shù)θ有賴于解釋型變量和預(yù)測型變量。數(shù)據(jù)歸集的過程越復(fù)雜則,同濟(jì)模型的復(fù)雜程度越高。

統(tǒng)計學(xué)理念認(rèn)為,噪聲數(shù)據(jù)建模與主要數(shù)據(jù)建模同樣重要。我們可以從噪聲數(shù)據(jù)中獲取可能偏差的預(yù)測情況、通過噪聲屬于的統(tǒng)計,我們可以知道這類屬于可用于目標(biāo)推斷或問題預(yù)測。

3. 反詐騙行為統(tǒng)計模型

當(dāng)今,各種各樣的電信詐騙層出不窮,信用卡被盜都能引發(fā)周邊一系列的電話欺詐。電信欺詐案中,作案人可以克隆各種電話號碼。通過有線網(wǎng)絡(luò),黑客可以攻入大學(xué)的電信網(wǎng)絡(luò),把所有學(xué)生的電話信息都盜取后行騙。訂閱欺詐案中,顧客被騙瀏覽購物信息竊取支付密碼。

我們的目標(biāo)在于盡快地獲取每一次通話記錄,并且記錄詐騙電話的活躍和終止階段的信息,更新采集樣本。如果通過采集樣本,我們可以精準(zhǔn)預(yù)測出下一次的合規(guī)來電,通過已經(jīng)捕獲的來電號碼對比預(yù)測出來的數(shù)據(jù)校驗精準(zhǔn)性。我們將采集對比的合規(guī)電話標(biāo)記為0,而非0的預(yù)測來電則有可能為詐騙電話。

通過數(shù)據(jù)預(yù)處理的方法,我們可以定義出樣本為0的數(shù)據(jù)為主體數(shù)據(jù)。而非0數(shù)據(jù)為噪聲數(shù)據(jù)。通過邏輯回歸等分布函數(shù)等噪聲數(shù)據(jù)的處理,可以預(yù)測出在一周或者一日之內(nèi)非0數(shù)據(jù)的可能來電情況。

但是實(shí)際情況遠(yuǎn)比樣本計算復(fù)雜得多。我們很難通過簡單的狀態(tài)判斷來決策主體變量和非主體變量的預(yù)測情況一定是符合現(xiàn)實(shí)場景的。

從統(tǒng)計學(xué)角度來說,我們將一通電話定義為:一組隨機(jī)向量X=(X1,…,XK)

X1表示通話持續(xù)時長、X2表示通話頻次(每周一天,每天一小時)X3表示通話率,X4表示號碼歸屬地(例如:國家、地區(qū)、城市、行政區(qū)層級劃分)。

當(dāng)所有可以采集的通話歷史信息收集到后。一個合法的呼叫者i在通訊數(shù)據(jù)上會出現(xiàn)一個多元分布視圖,y軸為Ci,n ,x軸為Xi,n.詐騙分子有個a數(shù)據(jù)與多元分布矩陣F完全不同。

4. 結(jié)語

計算是處理海量數(shù)據(jù)分析的關(guān)鍵,統(tǒng)計學(xué)還有很多計算處理海量數(shù)據(jù)的方法要向計算機(jī)科學(xué)學(xué)習(xí)。

與此同時,統(tǒng)計學(xué)也將新的要求提出給了計算機(jī)學(xué)科。例如計算機(jī)的數(shù)據(jù)挖掘需要提高。

統(tǒng)計學(xué)原理是推動數(shù)據(jù)挖掘提取分析的關(guān)鍵原則。但是這不代表統(tǒng)計學(xué)具有數(shù)據(jù)探索意義。

數(shù)據(jù)分塊,尤其是當(dāng)數(shù)據(jù)量巨大的時候,如何更好地利用數(shù)據(jù),使數(shù)據(jù)更為有意義有作用是需要計算機(jī)科學(xué)采用更為有力的技術(shù)和模型構(gòu)建方法的。

大量數(shù)據(jù)產(chǎn)生的更多問題遠(yuǎn)遠(yuǎn)不止分析能夠解決,需要統(tǒng)計學(xué)和計算機(jī)科學(xué)雙方一同發(fā)展,兩者結(jié)合應(yīng)用來處理。傳統(tǒng)統(tǒng)計學(xué)與數(shù)學(xué)緊密相連,數(shù)學(xué)對于分析海量數(shù)據(jù)有重要作用。概率學(xué)則在每一步統(tǒng)計分析建模中起到關(guān)鍵作用。

總之,我們還有很多需要進(jìn)步和研究的空間,更高效合理的結(jié)合統(tǒng)計學(xué)與計算機(jī)科學(xué)兩者,將數(shù)據(jù)智能的應(yīng)用場景結(jié)合到現(xiàn)實(shí)生活。

 

本文由 @手心的太陽 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!