說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請撥打電話 400 685 0732
全網(wǎng)監(jiān)測海量數(shù)據(jù)按需發(fā)布監(jiān)測預(yù)警
實(shí)時(shí)把握輿情動(dòng)態(tài)精準(zhǔn)追溯信息源頭
看過這篇文章后,你或許可以明白以下兩件事兒:
1、一個(gè)單頁面網(wǎng)站,為啥頁面上都是出鏈,被指向的鏈接也很少,但是卻有很好的排名;
2、網(wǎng)站頁面上是不是沒有出鏈(指向外部的)才是的?
看完上述,有興趣沒?好吧,不管你有木有興趣,哥要繼續(xù)了。
在一些電視劇上,或許大家會(huì)經(jīng)常看到這樣的場景,男豬腳A為了了解或者認(rèn)識(shí)某個(gè)人,某件事兒,往往會(huì)去當(dāng)?shù)氐穆灭^飯店向店小二打聽、或者直接找到當(dāng)?shù)氐牡仡^蛇去了解情況。 無它,只是因?yàn)樗麄兿袷且粋€(gè)當(dāng)?shù)馗鞣N事情各種人的活向?qū)?、活地圖,他們可能對這些事情的始末了解的不夠詳盡,但是必然知道和這件事兒有牽連的人或者物。
所謂調(diào)查事情的始末,一張關(guān)系+事件網(wǎng)而已。
這種事情放到搜索引擎算法上,理所應(yīng)當(dāng)?shù)耐瑯映闪ⅲ徊贿^角色道具全部發(fā)生了轉(zhuǎn)換:男豬腳A變成了廣大的搜索引擎用戶,關(guān)系與事件網(wǎng)變成了鏈接組成的各種關(guān)系,而店小二與地頭蛇變成了我們看到的各種讓人倍感疑惑的站點(diǎn)。
將這些聯(lián)系起來的,是HITS算法。
先來看看百度百科的解釋。
HITS算法:一個(gè)網(wǎng)頁重要性的分析的算法,根據(jù)一個(gè)網(wǎng)頁的入度(指向此網(wǎng)頁的超鏈接)和出度(從此網(wǎng)頁指向別的網(wǎng)頁)來衡量網(wǎng)頁的重要性。其直觀的意義是如果一個(gè)網(wǎng)頁的重要性很高,則他所指向的網(wǎng)頁的重要性也高。一個(gè)重要的網(wǎng)頁被另一個(gè)網(wǎng)頁所指,則表明指向它的網(wǎng)頁重要性也會(huì)高。指向別的網(wǎng)頁定義為Hub值,被指向定義為Authority值。
如果你木有看懂,木得關(guān)系,哥來繼續(xù)給你說一下。
對于任何一個(gè)頁面來說,其本身必然有兩種屬性:目錄屬性(還有人喜歡叫做樞紐)+權(quán)威屬性,大小而已。
目錄屬性即他本身會(huì)有出鏈,也會(huì)更像一個(gè)導(dǎo)航,告訴讀者想看到關(guān)于某件事兒更詳細(xì)的信息可以點(diǎn)鏈接出去查看;權(quán)威屬性即每個(gè)頁面都是基于某個(gè)主題所闡述的,這個(gè)頁面也必然會(huì)有基于該主題的權(quán)威值,大小而已。
了解了這個(gè),開始繼續(xù)看下它是怎么運(yùn)用到搜索引擎算法中去的。 在前面介紹搜索引擎原理的文章中,我們介紹過搜索引擎是怎么處理頁面并返回結(jié)果的,HITS算法正是在此基礎(chǔ)之上開展起來的。
下面來看詳細(xì)的步驟。
1、查找根集合
將查詢q提交給基于關(guān)鍵字查詢的檢索系統(tǒng),從返回結(jié)果頁面的集合中取前n個(gè)網(wǎng)頁(如n=200),作為根集合(root set),記為S,則S滿足:
1.1、S中的網(wǎng)頁數(shù)量較少;
1.2、S中的網(wǎng)頁是與查詢q相關(guān)的網(wǎng)頁;
1.3、S中的網(wǎng)頁包含較多的權(quán)威(Authority)網(wǎng)頁。
2、拓展相關(guān)頁面
有了一些牛逼的權(quán)威頁面,開始拓展相關(guān)頁面。其維度也只有兩種:指向權(quán)威頁面的和權(quán)威頁面指向的。
要明白為什么這么拓展頁面,需要先理解一句話: 一個(gè)權(quán)威頁被多個(gè)目錄頁指向,說明這個(gè)權(quán)威頁很權(quán)威;一個(gè)目錄頁指向了多個(gè)權(quán)威頁,說明這個(gè)目錄頁很目錄。
先解釋一下:哥不是純心跟您玩繞口令,自己先理解一下。
3、計(jì)算頁面的權(quán)威值和目錄值
有了一個(gè)相關(guān)的子集,也理解了上述的意思,開始計(jì)算各個(gè)頁面的目錄值和權(quán)威值。 計(jì)算公式很簡單: 先來給個(gè)初始子集的集合P={p1,p2,p3…pn},然后根據(jù)這些頁面之間的鏈接關(guān)系建立起一個(gè)矩陣:
如果頁面1有鏈接指向頁面2,則a12的值即為1,反之,則為0。
a頁面的權(quán)威值即為指向它的所有目錄頁面的目錄值之和;
a頁面的目錄值則為它指向的所有權(quán)威頁面的權(quán)威值之和。
4、返回結(jié)果
按照頁面的目錄值和權(quán)威值返回結(jié)果。
好了,聰明的同志應(yīng)該也可以看到,這個(gè)算法很好的反應(yīng)出了人際關(guān)系中的一些特點(diǎn),也能很好的反應(yīng)出了互聯(lián)網(wǎng)關(guān)系的一些特點(diǎn)。
它也會(huì)有一些比較惡心的不足之處,比如耗時(shí)(在返回結(jié)果之后再計(jì)算,會(huì)增加用戶等待的時(shí)間),會(huì)發(fā)生主題漂移(不考慮內(nèi)容,只考慮鏈接會(huì)造成本來在說A事情,可能結(jié)果變成了有一部分在說B事情)等等。
當(dāng)然,從中我們可以看到一個(gè)事實(shí),那是其實(shí)搜索引擎的算法并木有傳說中的那么神秘,很多也是基于人際關(guān)系為原型計(jì)算出來的(前面的PR算法也一樣),因?yàn)楫吘?,搜索引擎算法工程師也是人,相比較來說,他們的優(yōu)勢在于怎么通過一系列的算法將這一原理變成機(jī)器可以讀懂的現(xiàn)實(shí)。
推薦閱讀
說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請撥打電話 400 685 0732