說明:如果您有任何疑問或想咨詢其他業(yè)務請撥打電話 400 685 0732
全網(wǎng)監(jiān)測海量數(shù)據(jù)按需發(fā)布監(jiān)測預警
實時把握輿情動態(tài)精準追溯信息源頭
搜索引擎系統(tǒng)概述
本次培訓內(nèi)容主要包括搜索引擎系統(tǒng)概述、搜索引擎系統(tǒng)、搜索引擎分析系統(tǒng)、搜索引擎索引系統(tǒng)和搜索引擎查詢系統(tǒng)六大板塊。搜索引擎的服務方式可以分為三種:目錄式搜索引擎、全文搜索引擎和元搜索引擎。
搜索引擎系統(tǒng)
目前萬維網(wǎng)的結(jié)構(gòu)是一個蝴蝶結(jié)結(jié)構(gòu),位于蝴蝶結(jié)兩端的分別是目錄型網(wǎng)頁和權威型網(wǎng)頁,目錄型網(wǎng)頁是蜘蛛爬取的入口,即種子站點,它擁有大量的導出鏈接,而導入鏈接卻比較少。我們網(wǎng)站中的一些內(nèi)容頁便是權威型頁面,它們擁有很多的導入鏈接,卻鮮有導出鏈接。剩下的蝴蝶結(jié)的主體便是互聯(lián)網(wǎng)多數(shù)的頁面。
蜘蛛的爬行抓取策略分為廣度抓取和深度抓取,廣度抓取是先抓取層級比較低比較重要的目錄頁等,然后再去抓取下一層級的。而深度抓取便是沿著一個分類進行深層次的抓取,直到這個分類全部抓取結(jié)束,然后繼續(xù)抓取下一分類。
Robots協(xié)議是寫給蜘蛛看的標準,可以規(guī)定蜘蛛哪些頁面可以抓取哪些不可以抓取。
搜索引擎分析系統(tǒng)
互聯(lián)網(wǎng)上的頁面是由動態(tài)頁面和靜態(tài)頁面組成的,靜態(tài)頁面指的是html頁面,html預言是超文本標記語言,它是由形形的標簽組成的。
因為中文不像英文單詞一樣中間有空格,所以中文搜索引擎需要應用中文分詞技術P(S)=P(W1W2W3……Wn)=P(W1)*P(W2|W1)*P(Wt|W1W2……Wt-1),互聯(lián)網(wǎng)是喜歡原創(chuàng)的東西的,為了避免大量的抄襲文章的出現(xiàn),搜索引擎會運用Shingle查重算法。鏈接是一個網(wǎng)站對另一個網(wǎng)站的信任投票,PR算法:PR(A) = (1-d)+ d(PR(t1)/C(t1)+ … + PR(tn)/C(tn))。
搜索引擎索引系統(tǒng)
索引分為正排索引和倒排索引,正排索引是把互聯(lián)網(wǎng)中的文章編號,然后運用分詞技術,統(tǒng)計出每篇文章中有哪些關鍵詞。倒排索引是在正排索引的基礎上,將關鍵詞編號,然后統(tǒng)計出這些關鍵詞對應了哪些文章。這樣當我們在搜索引擎上檢索關鍵詞的時候,搜索引擎便可以輕松的將包含這些關鍵詞的文章頁面返回給我們。
搜索引擎查詢系統(tǒng)
當我們在搜索引擎當中查詢一個詞的時候,搜索引擎會調(diào)用布爾模型算法返回包含我們查詢詞的頁面,這些頁面是經(jīng)過權重計算(內(nèi)容+鏈接+用戶點擊)排序過的,呈現(xiàn)出的結(jié)果包括url、標題、描述、快照日期和圖片。
中心思想
搜索的本質(zhì)的將雜亂無章的信息通過合理的分類整合變得有序,并通過用戶的需求按照內(nèi)容質(zhì)量的程度呈現(xiàn)給用戶。搜索引擎會預先抓取互聯(lián)網(wǎng)上的網(wǎng)頁建立網(wǎng)頁庫,然后運用正排索引和倒排索引建立一個索引庫,用戶在搜索引擎查找信息時,再通過查詢系統(tǒng)呈現(xiàn)給用戶。
做seo的目的是將網(wǎng)站優(yōu)化的更合理,排到更好的位置將更好的內(nèi)容呈現(xiàn)給用戶。我們應該從原理層面去理解搜索引擎,掌握它的每一個環(huán)節(jié),這樣才能夠?qū)⒐ぷ髯龅酶谩?/p>
心得
做搜索引擎優(yōu)化不僅要知其然還必須要知其所以然,只有真正明白了搜索引擎原理,我們才能更好的做好SEO。
百度更喜歡原創(chuàng)的內(nèi)容,我們要明白何為原創(chuàng),這要理解分詞技術和去重算法,不然即使是你自己寫的一篇文章,也可能會被搜索引擎誤判為抄襲。關鍵詞出現(xiàn)的頻率和位置,以及相關詞的密度,都是影響一篇文章質(zhì)量的重要因素。
發(fā)外鏈有三重意義,一是為網(wǎng)站獲得更多的信任投票,而且只有與網(wǎng)站內(nèi)容相關的網(wǎng)站的外鏈才能夠傳遞更高的權重。二是為蜘蛛提供更多的入口,有利于蜘蛛抓取網(wǎng)站更多更的內(nèi)容。是為用戶提供一個入口,用戶可能會通過點擊鏈接而進入網(wǎng)站。
百度是一家商業(yè)機構(gòu),它擁有自己的盈利模式,而這一切的基礎便是搜索引擎良好的用戶體驗,百度是十分重視用戶體驗的,所以無論搜索引擎的算法如何變,都會是圍繞著用戶體驗為中心的。我們只有圍繞著用戶體驗進行優(yōu)化,才能使我們的網(wǎng)站更加符合百度的標準,而不會因為過度優(yōu)化被百度降權。比如網(wǎng)站的扁平化設計,更利于蜘蛛的抓取,更加利于百度的收錄,而從另一方面來說扁平化的設計也更利于簡化用戶的搜索流程,更利于用戶找到自己所需的內(nèi)容。
推薦閱讀
說明:如果您有任何疑問或想咨詢其他業(yè)務請撥打電話 400 685 0732