說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請撥打電話 400 685 0732
全網(wǎng)監(jiān)測海量數(shù)據(jù)按需發(fā)布監(jiān)測預(yù)警
實時把握輿情動態(tài)精準追溯信息源頭
前篇文章,提到了內(nèi)容農(nóng)場與鏈接農(nóng)場,這些都是相對較為傳統(tǒng)的作弊方式。至于其他,后面有時間我們再一一羅列。既然有作弊,為了維持良好的展現(xiàn)結(jié)果,搜索引擎也會有反作弊。
那么,搜索引擎會通過怎樣的方式進行反作弊處理呢?
總的來說,會有以下三種思路:
1、信任傳播模型
前段時間同事A跟我說了一件事兒,他的姐姐B在國外留學,然后B在qq上跟A說洗衣服把手機,銀行卡什么的全部洗了,讓A給B的老媽打電話寄點錢來,A立刻執(zhí)行,B的老媽也深信不疑,在即將打出的那一刻,B的一個電話,挽救了即將發(fā)生的損失。
細思恐極。
其實,這也是一個信任傳播模型,直接在QQ上跟B的媽媽說,B的媽媽必然不會完全相信,但是經(jīng)由A的口一傳,立刻不一般。因為,A在B的媽媽的信任名單中。
OK,由此而來,是一種反作弊的思路。
在海量的網(wǎng)頁數(shù)據(jù)中,通過技術(shù)或人工的手段,獲取值得完全值得信任的網(wǎng)頁設(shè)置為白名單。白名單中網(wǎng)頁的信任值由鏈接順著向外擴散而遞減或者衰減。然后,設(shè)定一個值,高于此值,是OK的網(wǎng)頁,低于此值,不好意思,你作弊了。
2、不信任傳播模型
這個,其實跟種思路是及其類似的,找到一群作弊的網(wǎng)頁,然后通過鏈接關(guān)系分析不信任分值。
一點需要注意的是,信任分值,是通過鏈接正向傳遞的,不信任分值是通過鏈接反向傳遞的。舉個例子:
A為垃圾頁面,則指向A的鏈接B是垃圾頁面的概率比A指向的鏈接C的概率要大的多。
3、異常發(fā)現(xiàn)模型
所謂異常,可以是作弊頁面的特征,也可以是正常頁面的特征。
集合了這些特征,再由此來判定一個頁面是否作弊或者是否正常,也是蠻OK的一件事情。
來個簡單的識別鏈接農(nóng)場的小例子:
鏈接農(nóng)場中的鏈接關(guān)系,是由設(shè)計者精心布置的,由此一來,必然會有些違背自然的特征,諸如:
1)、出鏈與入鏈的統(tǒng)計分布規(guī)律:正常的頁面出鏈與入鏈滿足Power-law分布,作弊的鏈接違反該分布;
2)、作弊的鏈接的Url網(wǎng)址往往過長,包含較多的點畫線及數(shù)字等;
3)、諸如入鏈及出鏈的增長率等,正常網(wǎng)頁和作弊網(wǎng)頁在這些變化模式上是不同的。
推薦閱讀
說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請撥打電話 400 685 0732