淘寶相關(guān)工作人員透漏,在反作弊的評測中,評測算法上線前的準(zhǔn)確率時,使用最多的是單純隨機抽樣和分層抽樣。這兩種方法都屬于隨機抽樣方法,也就是照隨機的原則,即保證總體中每個單位都有同等機會被抽中的原則抽取樣本的方法。 

一、    反作弊算法評測概況

反作弊,簡單理解就是“打擊作弊”,對使用各種作弊手段達到搜索排名靠前的行為進行處理。目前有標(biāo)題濫用關(guān)鍵詞、虛假交易、廣告商品等11類作弊類型,具體請參考淘寶幫派http://bangpai.taobao.com/group/thread/400769-271003118.htm。

在淘寶海量的寶貝中,要把有作弊行為的寶貝識別出來,不可能靠人肉case by case的尋找,而是通過總結(jié)寶貝的特征,用算法來實現(xiàn)批量處理。而算法是否可靠,則需要人工來驗證,當(dāng)人工驗證的準(zhǔn)確率達到預(yù)期的指標(biāo)后,算法才能上線生效,對作弊寶貝進行處理。

二、    為什么用隨機抽樣

在前面說到,隨機抽樣是“保證總體中每個單位都有同等機會被抽中”的抽樣方法。在一個算法中,寶貝是通過同一個算法邏輯來識別的,大家都“生而平等”,想要知道這些寶貝的狀況,用到隨機抽樣中的單純隨機抽樣和分層抽樣即可。

三、    具體操作方法舉例

1.       單純隨機抽樣

單純隨機抽樣:從總體中抽取一定比例的樣本。比如算法A,召回了5萬寶貝(召回:即算法識別了5萬作弊寶貝,稱作召回),我們從中抽取1%的樣本量進行評測,來估算算法的準(zhǔn)確率。

這種抽樣方式適合召回數(shù)量不多,算法邏輯較為單一,召回總體無法再區(qū)分的評測。

2.       分層抽樣

分層抽樣:先依據(jù)一種或幾種特征將總體分為若干個子總體,每一子總體稱作一個層;然后從每層中隨機抽取一個子樣本,這些子樣本合起來就是總體的樣本。稍微不同的是,一般的分層抽樣重視的是整個樣本的評測結(jié)果,而算法評測中,更重視單個子樣本的評測結(jié)果。這是在算法準(zhǔn)確率評測中使用最頻繁的抽樣方法。

適用場景1:算法邏輯一致,分層變量清晰且相對獨立。

拿“標(biāo)題濫用關(guān)鍵詞”的算法來說,算法邏輯中濫用的關(guān)鍵詞有“非”(非檀木匠),“比”(比江南布衣美),“不是”(不是百麗/達芙尼),這里分層就可以以關(guān)鍵為依據(jù)分成3個子總體,3個子總體各自抽自身數(shù)量的1%,合成一個總樣本。當(dāng)然每個子樣本都設(shè)有一個下限,當(dāng)1%不足下限時,自然補足,這樣相對能保證評測結(jié)果的可信度。(為何是1%的比例,又說來話長,是根據(jù)經(jīng)驗在人力與置信度之間取的平衡點,暫不墜述。)

 

適用場景2:算法邏輯一致,分層變量本身有連續(xù)性。

“標(biāo)題濫用關(guān)鍵詞”分層后,各子總體之間比較獨立,沒有連續(xù)性。而“虛假交易”算法的分層維度往往是數(shù)值,有一定的連續(xù)性。如,根據(jù)識別特征的不同,不同數(shù)值水平的寶貝或賣家會體現(xiàn)出明顯的差異性,所以需要分閾值區(qū)間進行數(shù)據(jù)提取。

   像這種連續(xù)性的變量,應(yīng)該怎么來分層呢?總不能有50個變量值我們分50個子總體來進行評測與統(tǒng)計。所以在目前的評測中,我們一般用到2種劃分方法。

(1)分層后,每個子總體的召回數(shù)量相近。

假設(shè)以下1-10是一個連續(xù)的變量:


從表格可以看出,以“每個子總體的召回數(shù)量相近”的原則來分層的話,區(qū)間應(yīng)該是:1,(2,5],6以上。當(dāng)然,臨界點的數(shù)據(jù)能取到一個舒適的數(shù)值就最好不過了,比如,取5的倍數(shù)、10的倍數(shù)等,這也是為什么上表不取“變量6”為臨界點的原因。

(2)借助算法的其他維度分層。

假設(shè)算法中有一個主變量,有一個輔助變量,則可以根據(jù)輔助變量來分層:

 

總得來說,分層抽樣的好處在于:

A.        清晰的看到子總體個自的算法準(zhǔn)確率,其中一個子總體沒有達到指標(biāo)時,可以更有針對性的進行算法調(diào)優(yōu),來達到預(yù)期的指標(biāo),免去了對整個召回大動干戈。

B.        假設(shè)其中一類無法達到指標(biāo),又沒有調(diào)優(yōu)的空間,可以暫時不處理,先處理已達到指標(biāo)的類型。免去了因一種類型導(dǎo)致整體準(zhǔn)確率未達到指標(biāo)而無法上線的情況。

C.        當(dāng)算法召回量過于龐大,需要較長的時間停留在評測環(huán)節(jié)時,可以用分層的方法,把召回分成幾個部分,評一部分,流動到下一環(huán)節(jié),逐步在線上生效,不至于將“戰(zhàn)線”拖得太長。

     以上是今天所詮釋的內(nèi)容,我們做淘寶賣家不容易可是作為淘寶本身也同樣不內(nèi)容、望年底馭寶網(wǎng)絡(luò)能再接再厲、GO啦。