WJMonitor輿情之聲

企業(yè)大數(shù)據(jù)智能輿情監(jiān)測(cè)管理解決方案

全網(wǎng)監(jiān)測(cè)海量數(shù)據(jù)按需發(fā)布監(jiān)測(cè)預(yù)警

實(shí)時(shí)把握輿情動(dòng)態(tài)精準(zhǔn)追溯信息源頭

獲取驗(yàn)證碼

企業(yè)采購(gòu) 個(gè)人使用

首頁(yè) > 網(wǎng)站優(yōu)化 > SEO每日一博 > HITS——基于頁(yè)面屬性的鏈接算法

HITS——基于頁(yè)面屬性的鏈接算法

時(shí)間:2013-06-25 02:06:00

看過(guò)這篇文章后，你或許可以明白以下兩件事兒：

1、一個(gè)單頁(yè)面網(wǎng)站，為啥頁(yè)面上都是出鏈，被指向的鏈接也很少，但是卻有很好的排名；

2、網(wǎng)站頁(yè)面上是不是沒(méi)有出鏈（指向外部的）才是的？

看完上述，有興趣沒(méi)？好吧，不管你有木有興趣，哥要繼續(xù)了。

在一些電視劇上，或許大家會(huì)經(jīng)常看到這樣的場(chǎng)景，男豬腳A為了了解或者認(rèn)識(shí)某個(gè)人，某件事兒，往往會(huì)去當(dāng)?shù)氐穆灭^飯店向店小二打聽、或者直接找到當(dāng)?shù)氐牡仡^蛇去了解情況。無(wú)它，只是因?yàn)樗麄兿袷且粋€(gè)當(dāng)?shù)馗鞣N事情各種人的活向?qū)?、活地圖，他們可能對(duì)這些事情的始末了解的不夠詳盡，但是必然知道和這件事兒有牽連的人或者物。

所謂調(diào)查事情的始末，一張關(guān)系+事件網(wǎng)而已。

這種事情放到搜索引擎算法上，理所應(yīng)當(dāng)?shù)耐瑯映闪ⅲ徊贿^(guò)角色道具全部發(fā)生了轉(zhuǎn)換：男豬腳A變成了廣大的搜索引擎用戶，關(guān)系與事件網(wǎng)變成了鏈接組成的各種關(guān)系，而店小二與地頭蛇變成了我們看到的各種讓人倍感疑惑的站點(diǎn)。

將這些聯(lián)系起來(lái)的，是HITS算法。

先來(lái)看看百度百科的解釋。

HITS算法：一個(gè)網(wǎng)頁(yè)重要性的分析的算法，根據(jù)一個(gè)網(wǎng)頁(yè)的入度（指向此網(wǎng)頁(yè)的超鏈接）和出度（從此網(wǎng)頁(yè)指向別的網(wǎng)頁(yè)）來(lái)衡量網(wǎng)頁(yè)的重要性。其直觀的意義是如果一個(gè)網(wǎng)頁(yè)的重要性很高，則他所指向的網(wǎng)頁(yè)的重要性也高。一個(gè)重要的網(wǎng)頁(yè)被另一個(gè)網(wǎng)頁(yè)所指，則表明指向它的網(wǎng)頁(yè)重要性也會(huì)高。指向別的網(wǎng)頁(yè)定義為Hub值,被指向定義為Authority值。

如果你木有看懂，木得關(guān)系，哥來(lái)繼續(xù)給你說(shuō)一下。

對(duì)于任何一個(gè)頁(yè)面來(lái)說(shuō)，其本身必然有兩種屬性：目錄屬性（還有人喜歡叫做樞紐）+權(quán)威屬性，大小而已。

目錄屬性即他本身會(huì)有出鏈，也會(huì)更像一個(gè)導(dǎo)航，告訴讀者想看到關(guān)于某件事兒更詳細(xì)的信息可以點(diǎn)鏈接出去查看；權(quán)威屬性即每個(gè)頁(yè)面都是基于某個(gè)主題所闡述的，這個(gè)頁(yè)面也必然會(huì)有基于該主題的權(quán)威值，大小而已。

了解了這個(gè)，開始繼續(xù)看下它是怎么運(yùn)用到搜索引擎算法中去的。在前面介紹搜索引擎原理的文章中，我們介紹過(guò)搜索引擎是怎么處理頁(yè)面并返回結(jié)果的，HITS算法正是在此基礎(chǔ)之上開展起來(lái)的。

下面來(lái)看詳細(xì)的步驟。

1、查找根集合

將查詢q提交給基于關(guān)鍵字查詢的檢索系統(tǒng)，從返回結(jié)果頁(yè)面的集合中取前n個(gè)網(wǎng)頁(yè)(如n=200)，作為根集合(root set)，記為S，則S滿足：

1.1、S中的網(wǎng)頁(yè)數(shù)量較少；

1.2、S中的網(wǎng)頁(yè)是與查詢q相關(guān)的網(wǎng)頁(yè)；

1.3、S中的網(wǎng)頁(yè)包含較多的權(quán)威(Authority)網(wǎng)頁(yè)。

2、拓展相關(guān)頁(yè)面

有了一些牛逼的權(quán)威頁(yè)面，開始拓展相關(guān)頁(yè)面。其維度也只有兩種：指向權(quán)威頁(yè)面的和權(quán)威頁(yè)面指向的。

要明白為什么這么拓展頁(yè)面，需要先理解一句話：一個(gè)權(quán)威頁(yè)被多個(gè)目錄頁(yè)指向，說(shuō)明這個(gè)權(quán)威頁(yè)很權(quán)威；一個(gè)目錄頁(yè)指向了多個(gè)權(quán)威頁(yè)，說(shuō)明這個(gè)目錄頁(yè)很目錄。

先解釋一下：哥不是純心跟您玩繞口令，自己先理解一下。

3、計(jì)算頁(yè)面的權(quán)威值和目錄值

有了一個(gè)相關(guān)的子集，也理解了上述的意思，開始計(jì)算各個(gè)頁(yè)面的目錄值和權(quán)威值。計(jì)算公式很簡(jiǎn)單：先來(lái)給個(gè)初始子集的集合P={p₁，p₂，p₃…p_n}，然后根據(jù)這些頁(yè)面之間的鏈接關(guān)系建立起一個(gè)矩陣：

如果頁(yè)面1有鏈接指向頁(yè)面2，則a₁₂的值即為1，反之，則為0。

a頁(yè)面的權(quán)威值即為指向它的所有目錄頁(yè)面的目錄值之和；

a頁(yè)面的目錄值則為它指向的所有權(quán)威頁(yè)面的權(quán)威值之和。

4、返回結(jié)果

按照頁(yè)面的目錄值和權(quán)威值返回結(jié)果。

好了，聰明的同志應(yīng)該也可以看到，這個(gè)算法很好的反應(yīng)出了人際關(guān)系中的一些特點(diǎn)，也能很好的反應(yīng)出了互聯(lián)網(wǎng)關(guān)系的一些特點(diǎn)。

它也會(huì)有一些比較惡心的不足之處，比如耗時(shí)（在返回結(jié)果之后再計(jì)算，會(huì)增加用戶等待的時(shí)間），會(huì)發(fā)生主題漂移（不考慮內(nèi)容，只考慮鏈接會(huì)造成本來(lái)在說(shuō)A事情，可能結(jié)果變成了有一部分在說(shuō)B事情）等等。

當(dāng)然，從中我們可以看到一個(gè)事實(shí)，那是其實(shí)搜索引擎的算法并木有傳說(shuō)中的那么神秘，很多也是基于人際關(guān)系為原型計(jì)算出來(lái)的（前面的PR算法也一樣），因?yàn)楫吘?，搜索引擎算法工程師也是人，相比較來(lái)說(shuō)，他們的優(yōu)勢(shì)在于怎么通過(guò)一系列的算法將這一原理變成機(jī)器可以讀懂的現(xiàn)實(shí)。

產(chǎn)品與服務(wù)

WJMonitor輿情之聲 WJInsight品牌洞察 SEO搜索引擎優(yōu)化網(wǎng)絡(luò)口碑營(yíng)銷信息流推廣

精品亚洲一区二区三区在线观看,在线观看国产精品日韩av,ass亚洲熟妇毛茸茸pics,髙清国产性猛交xxxand

WJMonitor輿情之聲

HITS——基于頁(yè)面屬性的鏈接算法

相關(guān)資訊

產(chǎn)品與服務(wù)

最新文章

熱門文章