聯系我們 | English | 開(kāi)發者中心
自(zì)動發貨解脫了(le)你(nǐ)的雙手,解脫了(le)你(nǐ)的束縛
數據造假的甄别在數據分析領域是一個熱門(mén)的話(huà)題,也(yě)是對(duì)數據分析師的一項挑戰。分析數據造假的方法有很(hěn)多種。我們在前面的系列文(wén)章中曾經介紹過兩種檢驗作(zuò)弊流量的方法。一種是根據曆史經驗及分布情況的多維度交叉檢驗,另一種是使用(yòng)随機森林(lín)模型根據已知(zhī)作(zuò)弊流量的特征對(duì)新流量進行分類及預測。
本篇文(wén)章介紹一種神奇的數據檢驗方法,本福德定律(Benford's Law)。本福德定律是一種用(yòng)途廣泛的數據檢驗方法,在安然公司破産和(hé)伊朗大(dà)選選票甄别中都曾被使用(yòng)到(dào)。本福德定律通過自(zì)然生成的數字中1到(dào)9的使用(yòng)頻率對(duì)數據進行檢驗。如果你(nǐ)的數據具備一定規模,沒有人工(gōng)設定的最大(dà)值和(hé)最小(xiǎo)值,并且數據本身受人爲因素影響較小(xiǎo)。那麽就可以使用(yòng)本福德定律對(duì)數據進行檢驗,甄别數據是否經過人爲修飾。
本福德定律及公式
本福德定律中自(zì)然生成的數字首位爲1的概率爲30.10%,2的概率爲17.61%,依次遞減,首位爲9的概率僅爲4.58%。依據這(zhè)一期望概率值我們可以對(duì)數據進行檢驗。以下(xià)是本福德定律的計(jì)算(suàn)公式。通過這(zhè)一公式可以計(jì)算(suàn)出1-9中每個數字出現(xiàn)數據首位的概率。
舉例來(lái)說,對(duì)于數字9下(xià)面的公式可以計(jì)算(suàn)出一組自(zì)然生成的數字中9出現(xiàn)在數字首位的概率是多少。
我們使用(yòng)本福德定律公式逐一計(jì)算(suàn)了(le)數字1-9出現(xiàn)在首位的概率。以下(xià)是每個數字出現(xiàn)的概率值。後面會(huì)根據這(zhè)一期望的概率值對(duì)數據是否進行過人工(gōng)修改進行甄别。
通過圖表可以更較直觀的看(kàn)到(dào)本福德定律中每個數字出現(xiàn)的頻率以及不同數字間的差異。與我們想象的不同,數字出現(xiàn)的頻率并不是均勻分布的。1出現(xiàn)的次數爲30.10%而9出現(xiàn)的次數僅爲4.58%。
下(xià)面我們将使用(yòng)本福德定律對(duì)工(gōng)作(zuò)中常見的數據進行檢驗,甄别數據是否經過人爲修飾。
廣告展現(xiàn)量數據檢驗
首先檢驗一組廣告曝光數據。下(xià)面是某廣告一段時(shí)間的曝光量數據。我們将每條展現(xiàn)量數據的第一個數字提取出來(lái),通過本福德定律對(duì)這(zhè)組數據進行檢驗。
第一步計(jì)算(suàn)展現(xiàn)量數據中數字1-9出現(xiàn)的次數。第二步計(jì)算(suàn)所有展現(xiàn)量數據的條目,展現(xiàn)量數據爲474條。第三步計(jì)算(suàn)數字1-9出現(xiàn)次數的頻率。第四步使用(yòng)本福德定律計(jì)算(suàn)出數字1-9出現(xiàn)頻率的期望值。
将曝光量數據和(hé)本福德定律的期望值繪制到(dào)圖表中進行對(duì)比,可以發現(xiàn)曝光量數據首位數字出現(xiàn)的頻率與本福德定律整體上(shàng)基本一緻。在數字2,3和(hé)5上(shàng)略有差異。這(zhè)個柱狀圖能(néng)說明(míng)什(shén)麽?表明(míng)數據符合本福德定律?三個數據點上(shàng)的差異又說明(míng)什(shén)麽?數據中存在人爲修飾嗎?
單從(cóng)實際概覽值和(hé)圖表上(shàng)我們無法辨别數據是否經過人爲修飾。要準确的判斷數據是否爲自(zì)然生成還需要計(jì)算(suàn)兩個指标,分别爲KS值和(hé)截止值。然後對(duì)兩個指标進行對(duì)比。如果KS值低(dī)于截止值,那麽可以判定數據爲自(zì)然生成,沒有經過人工(gōng)修飾。否則就可能(néng)有造假的風(fēng)險。
KS值是數據的實際概率值與期望概率值差異的最大(dà)值,截止值是1.36除以數據條目數的平方根。我們對(duì)前面的數據表計(jì)算(suàn)KS值和(hé)截止值。第五步,計(jì)算(suàn)實際概率值與期望概率值的差異。這(zhè)裏我們取差異的絕對(duì)值以避免負數的産生。第六步,計(jì)算(suàn)K-S值,經過計(jì)算(suàn)K-S值爲0.043,也(yě)就是數字5出現(xiàn)頻率的差異。第七步,計(jì)算(suàn)截止值,這(zhè)裏的曝光數據共有474條,因此截止值爲0.053。第八步,對(duì)比K-S值與截止值,K-S值小(xiǎo)于截止值。因此數據屬于自(zì)然生成。沒有經過人爲修飾。
廣告點擊量數據檢驗
按照前面的方法,我們對(duì)同一組廣告的點擊量數據進行檢驗。在下(xià)面的柱狀圖中,藍色爲本福德定律的期望概率值,綠色爲廣告點擊量的首位數字分布情況。可以發現(xiàn)在數字1,3和(hé)4上(shàng)實際值與期望值之間存在較大(dà)的差異。尤其是在數字3上(shàng)。但(dàn)僅根據這(zhè)幾個差異點我們還不能(néng)判斷數據是否經過人工(gōng)修飾。
進一步計(jì)算(suàn)K-S值和(hé)截止值并進行對(duì)比。K-S值爲數據點間的最大(dà)差異值,這(zhè)裏是0.115。截止值經過計(jì)算(suàn)爲0.054。K-S值明(míng)顯大(dà)于截止值。因此可以判斷點擊量數據是經過人工(gōng)修飾的可能(néng),需要進一步進行檢驗。
貸款金(jīn)額數據檢驗
除了(le)廣告數據以外(wài),本福德定律還可以在很(hěn)多場景下(xià)對(duì)數據進行檢驗。如貸款金(jīn)額的數據。下(xià)面是一組貸款金(jīn)額首位數字分布與本福德定律逾期分布的對(duì)比圖。兩者的趨勢一緻,差異也(yě)較小(xiǎo)。
通過計(jì)算(suàn)K-S值和(hé)截止值并進行對(duì)比,K-S值0.019小(xiǎo)于截止值0.022。說明(míng)貸款金(jīn)額數據爲自(zì)然生成,不存在人工(gōng)修飾。
Excel随機數檢驗
最後,我們人工(gōng)生成一組”假數據”,看(kàn)看(kàn)本福德定律的檢驗結果。這(zhè)裏使用(yòng)Excel的随機數函數生成100個随機數。并與本福德定律的期望分布進行對(duì)比。很(hěn)明(míng)顯,Excel生成的随機數在首位數字上(shàng)爲均勻分布。與本福德定律的期望分布相差甚遠。
計(jì)算(suàn)并對(duì)比K-S值和(hé)截止值也(yě)再次證明(míng)了(le)均勻分布的數據爲人工(gōng)生成。K-S值0.201大(dà)于截止值0.116。
本福德定律加強版
本福德定律除了(le)計(jì)算(suàn)首位數字出現(xiàn)的概率,還有個加強版,可以計(jì)算(suàn)第二位數字甚至第三位數字出現(xiàn)的概率,并通過這(zhè)些(xiē)這(zhè)些(xiē)期望值對(duì)數據進行更加深入和(hé)嚴格的檢驗。下(xià)面是計(jì)算(suàn)第二位數字出現(xiàn)概率的公式。d1表示第一位出現(xiàn)的數字,d2表示第二位出現(xiàn)的數字。
如果我們要計(jì)算(suàn)第二位數字爲6的期望值,将數字6代入公式中,如下(xià)面截圖所示。分别計(jì)算(suàn)1-9每個數字與第二位數字6進行組合時(shí)的概率,再進行加總就是數字6作(zuò)爲第二位出現(xiàn)數字的期望概率值。
在Excel中實際計(jì)算(suàn)下(xià),藍色部分爲首位數字和(hé)出現(xiàn)的概率。後面依次是第二位數字從(cóng)0-9依次與首位數字組合出現(xiàn)的概率值。我們按列進行彙總就是每個第二位數字出現(xiàn)的概率。
再進一步還可以計(jì)算(suàn)第三位數字出現(xiàn)的概率。方法與計(jì)算(suàn)第二位數字出現(xiàn)的方法類似,隻是更爲負責一些(xiē)。下(xià)面是計(jì)算(suàn)公式。将0-9的10個數字分别與前兩位的各種數字組合在一起計(jì)算(suàn),然後把每種情況單一數字出現(xiàn)的概率進行彙總,就是這(zhè)個數字出現(xiàn)在第三位的期望值了(le)。
以第三位數字是0爲例,藍色列表示第一位數字的值,由于第一位不能(néng)爲0,所以數字範圍爲1-9。第一行黑色背景爲第二位數字的值,從(cóng)0-9。計(jì)算(suàn)各種組合情況下(xià)第三位數字爲0的概率,并進行彙總。最終0.1018就是0作(zuò)爲第三位數字出現(xiàn)的概率值。
我們按照同樣的方法計(jì)算(suàn)了(le)0-9在第三位出現(xiàn)的概率,并與前面計(jì)算(suàn)的首位和(hé)第二位數字出現(xiàn)概率進行彙總生成了(le)下(xià)面的數據檢驗表。通過這(zhè)個概率分布表可以更加深入的對(duì)數據的真實性進行檢驗。
聯系我們 | English | 開(kāi)發者中心