eeuss影院www免费影院,欧美一级特黄aaaaaa在线看片 ,久久夜色精品国产

關(guān)于百度搜索引擎工作原理知識，有不少站長SEO還沒有認(rèn)真閱讀和理解，本文解讀百度蜘蛛抓取系統(tǒng)與建庫索引，讓SEOer對百度蜘蛛的收錄索引建庫有更多了解。

解讀百度蜘蛛抓取系統(tǒng)與建庫索引

一，搜索引擎蜘蛛抓取系統(tǒng)的基本框架

互聯(lián)網(wǎng)信息爆發(fā)式增長，如何有效的獲取并利用這些信息是搜索引擎工作中的首要環(huán)節(jié)。數(shù)據(jù)抓取系統(tǒng)作為整個搜索系統(tǒng)中的上游，主要負(fù)責(zé)互聯(lián)網(wǎng)信息的搜集、保存、更新環(huán)節(jié)，它像蜘蛛一樣在網(wǎng)絡(luò)間爬來爬去，因此通常會被叫做 “spider”。例如我們常用的幾家通用搜索引擎蜘蛛被稱為：Baiduspdier、Googlebot、Sogou Web Spider 等。

蜘蛛抓取系統(tǒng)是搜索引擎數(shù)據(jù)來源的重要保證，如果把 web 理解為一個有向圖，那么 spider 的工作過程可以認(rèn)為是對這個有向圖的遍歷。從一些重要的種子 URL 開始，通過頁面上的超鏈接關(guān)系，不斷的發(fā)現(xiàn)新 URL 并抓取，盡最大可能抓取到更多的有價值網(wǎng)頁。對于類似百度這樣的大型 spider系統(tǒng)，因為每時每刻都存在網(wǎng)頁被修改、刪除或出現(xiàn)新的超鏈接的可能，因此，還要對 spider 過去抓取過的頁面保持更新，維護(hù)一個URL庫和頁面庫。

下圖為蜘蛛抓取系統(tǒng)的基本框架圖，其中包括鏈接存儲系統(tǒng)、鏈接選取系統(tǒng)、dns 解析服務(wù)系統(tǒng)、抓取調(diào)度系統(tǒng)、網(wǎng)頁分析系統(tǒng)、鏈接提取系統(tǒng)、鏈接分析系統(tǒng)、網(wǎng)頁存儲系統(tǒng)。Baiduspider即是通過這種系統(tǒng)的通力合作完成對互聯(lián)網(wǎng)頁面的抓取工作。

解讀百度蜘蛛抓取系統(tǒng)與建庫索引

二，百度蜘蛛主要抓取策略類型

上圖看似簡單，但其實百度蜘蛛在抓取過程中面對的是一個超級復(fù)雜的網(wǎng)絡(luò)環(huán)境，為了使系統(tǒng)可以抓取到盡可能多的有價值資源并保持系統(tǒng)及實際環(huán)境中頁面的一致性同時不給網(wǎng)站體驗造成壓力，會設(shè)計多種復(fù)雜的抓取策略。以下做簡單介紹：

1. 抓取友好性

互聯(lián)網(wǎng)資源龐大的數(shù)量級，這就要求抓取系統(tǒng)盡可能的高效利用帶寬，在有限的硬件和帶寬資源下盡可能多的抓取到有價值資源。這就造成了另一個問題，耗費被抓網(wǎng)站的帶寬造成訪問壓力，如果程度過大將直接影響被抓網(wǎng)站的正常用戶訪問行為。因此，在抓取過程中就要進(jìn)行一定的抓取壓力控制，達(dá)到既不影響網(wǎng)站的正常用戶訪問又能盡量多的抓取到有價值資源的目的。

通常情況下，最基本的是基于 ip 的壓力控制。這是因為如果基于域名，可能存在一個域名對多個 ip（很多大網(wǎng)站）或多個域名對應(yīng)同一個 ip（小網(wǎng)站共享 ip）的問題。實際中，往往根據(jù) ip 及域名的多種條件進(jìn)行壓力調(diào)配控制。同時，站長平臺也推出了壓力反饋工具，站長可以人工調(diào)配對自己網(wǎng)站的抓取壓力，這時百度 spider 將優(yōu)先按照站長的要求進(jìn)行抓取壓力控制。

對同一個站點的抓取速度控制一般分為兩類：

其一，一段時間內(nèi)的抓取頻率；

其二，一段時間內(nèi)的抓取流量。同一站點不同的時間抓取速度也會不同。

例如夜深人靜月黑風(fēng)高時候抓取的可能就會快一些，也視具體站點類型而定，主要思想是錯開正常用戶訪問高峰，不斷的調(diào)整。對于不同站點，也需要不同的抓取速度。

三，新鏈接重要程度判斷

在建庫環(huán)節(jié)前，百度蜘蛛會對頁面進(jìn)行初步內(nèi)容分析和鏈接分析，通過內(nèi)容分析決定該網(wǎng)頁是否需要建索引庫，通過鏈接分析發(fā)現(xiàn)更多網(wǎng)頁，再對更多網(wǎng)頁進(jìn)行抓取——分析——是否建庫 & 發(fā)現(xiàn)新鏈接的流程。理論上，百度蜘蛛會將新頁面上所有能 “看到” 的鏈接都抓取回來，那么面對眾多新鏈接，

百度蜘蛛根據(jù)什么判斷哪個更重要呢？

兩方面：

1，對用戶的價值

內(nèi)容獨特，百度搜索引擎喜歡原創(chuàng)唯一的內(nèi)容
主體突出，切不要出現(xiàn)網(wǎng)頁主體內(nèi)容不突出而被搜索引擎誤判為空短頁面不抓取
內(nèi)容豐富
廣告適當(dāng)

2，鏈接重要程度

目錄層級——淺層優(yōu)先
鏈接在站內(nèi)的受歡迎程度

解讀百度蜘蛛抓取系統(tǒng)與建庫索引

四，百度優(yōu)先建重要庫的原則

百度蜘蛛抓了多少頁面并不是最重要的，重要的是有多少頁面被建索引庫，即我們常說的 “建庫”。眾所周知，搜索引擎的索引庫是分層級的，優(yōu)質(zhì)的網(wǎng)頁會被分配到重要索引庫，普通網(wǎng)頁會待在普通庫，再差一些的網(wǎng)頁會被分配到低級庫去當(dāng)補(bǔ)充材料。目前 60% 的檢索需求只調(diào)用重要索引庫即可滿足，這也就解釋了為什么有些網(wǎng)站的收錄量超高流量卻一直不理想。

那么，哪些網(wǎng)頁可以進(jìn)入優(yōu)質(zhì)索引庫呢。其實總的原則就是一個：對用戶的價值。包括卻不僅于：

有時效性且有價值的頁面：在這里，時效性和價值是并列關(guān)系，缺一不可。有些站點為了產(chǎn)生時效性內(nèi)容頁面做了大量采集工作，產(chǎn)生了一堆無價值面頁，也是百度不愿看到的 .
內(nèi)容優(yōu)質(zhì)的專題頁面：專題頁面的內(nèi)容不一定完全是原創(chuàng)的，即可以很好地把各方內(nèi)容整合在一起，或者增加一些新鮮的內(nèi)容，比如觀點和評論，給用戶更豐富全面的內(nèi)容。
高價值原創(chuàng)內(nèi)容頁面：百度把原創(chuàng)定義為花費一定成本、大量經(jīng)驗積累提取后形成的文章。千萬不要再問我們偽原創(chuàng)是不是原創(chuàng)。
重要個人頁面：這里僅舉一個例子，科比在新浪微博開戶了，即使他不經(jīng)常更新，但對于百度來說，它仍然是一個極重要的頁面。

五，哪些網(wǎng)頁無法建入索引庫

上述優(yōu)質(zhì)網(wǎng)頁進(jìn)了索引庫，那其實互聯(lián)網(wǎng)上大部分網(wǎng)站根本沒有被百度收錄。并非是百度沒有發(fā)現(xiàn)他們，而是在建庫前的篩選環(huán)節(jié)被過濾掉了。

那怎樣的網(wǎng)頁在最初環(huán)節(jié)就被過濾掉了呢：

重復(fù)內(nèi)容的網(wǎng)頁：互聯(lián)網(wǎng)上已有的內(nèi)容，百度必然沒有必要再收錄。
主體內(nèi)容空短的網(wǎng)頁

有些內(nèi)容使用了百度蜘蛛無法解析的技術(shù)，如 JS、AJAX 等，雖然用戶訪問能看到豐富的內(nèi)容，依然會被搜索引擎拋棄
加載速度過慢的網(wǎng)頁，也有可能被當(dāng)作空短頁面處理，注意廣告加載時間算在網(wǎng)頁整體加載時間內(nèi)。
很多主體不突出的網(wǎng)頁即使被抓取回來也會在這個環(huán)節(jié)被拋棄。

部分作弊網(wǎng)頁

更多關(guān)于百度蜘蛛抓取系統(tǒng)原理與索引建庫，請前往百度站長論壇查看文檔。

本文鏈接：http://www.sztqnet.com/article/977.html

亚洲免费成人网,99久久er这里只有精品17,欧美一级毛片兔费播放,亚洲国产精品久久日

解读百度蜘蛛抓取系统与建库索引

一，搜索引擎蜘蛛抓取系統(tǒng)的基本框架

二，百度蜘蛛主要抓取策略類型

三，新鏈接重要程度判斷

四，百度優(yōu)先建重要庫的原則

五，哪些網(wǎng)頁無法建入索引庫

相關(guān)文章推薦

蜘蛛技巧最新文章

蜘蛛外鏈文章推薦

超級蜘蛛工具

您可能感興趣的文章

亚洲免费成人网,99久久er这里只有精品17,欧美一级毛片兔费播放,亚洲国产精品久久日

解读百度蜘蛛抓取系统与建库索引

一，搜索引擎蜘蛛抓取系統(tǒng)的基本框架

二，百度蜘蛛主要抓取策略類型

三，新鏈接重要程度判斷

四，百度優(yōu)先建重要庫的原則

五，哪些網(wǎng)頁無法建入索引庫

相關(guān)文章推薦

蜘蛛技巧最新文章

蜘蛛外鏈文章推薦

超級蜘蛛工具

您可能感興趣的文章

三，新鏈接重要程度判斷

四，百度優(yōu)先建重要庫的原則

五，哪些網(wǎng)頁無法建入索引庫