亚洲免费成人网,99久久er这里只有精品17,欧美一级毛片兔费播放,亚洲国产精品久久日

  • 歡迎使用超級蜘蛛查,網(wǎng)站外鏈優(yōu)化,收藏快捷鍵 CTRL + D

解读百度蜘蛛抓取系统与建库索引


關(guān)于百度搜索引擎工作原理知識,有不少站長SEO還沒有認(rèn)真閱讀和理解,本文解讀百度蜘蛛抓取系統(tǒng)與建庫索引,讓SEOer對百度蜘蛛的收錄索引建庫有更多了解。

解讀百度蜘蛛抓取系統(tǒng)與建庫索引

一,搜索引擎蜘蛛抓取系統(tǒng)的基本框架

互聯(lián)網(wǎng)信息爆發(fā)式增長,如何有效的獲取并利用這些信息是搜索引擎工作中的首要環(huán)節(jié)。數(shù)據(jù)抓取系統(tǒng)作為整個搜索系統(tǒng)中的上游,主要負(fù)責(zé)互聯(lián)網(wǎng)信息的搜集、保存、更新環(huán)節(jié),它像蜘蛛一樣在網(wǎng)絡(luò)間爬來爬去,因此通常會被叫做 “spider”。例如我們常用的幾家通用搜索引擎蜘蛛被稱為:Baiduspdier、Googlebot、Sogou Web Spider 等。

蜘蛛抓取系統(tǒng)是搜索引擎數(shù)據(jù)來源的重要保證,如果把 web 理解為一個有向圖,那么 spider 的工作過程可以認(rèn)為是對這個有向圖的遍歷。從一些重要的種子 URL 開始,通過頁面上的超鏈接關(guān)系,不斷的發(fā)現(xiàn)新 URL 并抓取,盡最大可能抓取到更多的有價值網(wǎng)頁。對于類似百度這樣的大型 spider系統(tǒng),因為每時每刻都存在網(wǎng)頁被修改、刪除或出現(xiàn)新的超鏈接的可能,因此,還要對 spider 過去抓取過的頁面保持更新,維護(hù)一個URL庫和頁面庫。

下圖為蜘蛛抓取系統(tǒng)的基本框架圖,其中包括鏈接存儲系統(tǒng)、鏈接選取系統(tǒng)、dns 解析服務(wù)系統(tǒng)、抓取調(diào)度系統(tǒng)、網(wǎng)頁分析系統(tǒng)、鏈接提取系統(tǒng)、鏈接分析系統(tǒng)、網(wǎng)頁存儲系統(tǒng)。Baiduspider即是通過這種系統(tǒng)的通力合作完成對互聯(lián)網(wǎng)頁面的抓取工作。

解讀百度蜘蛛抓取系統(tǒng)與建庫索引

二,百度蜘蛛主要抓取策略類型

上圖看似簡單,但其實百度蜘蛛在抓取過程中面對的是一個超級復(fù)雜的網(wǎng)絡(luò)環(huán)境,為了使系統(tǒng)可以抓取到盡可能多的有價值資源并保持系統(tǒng)及實際環(huán)境中頁面的一致性同時不給網(wǎng)站體驗造成壓力,會設(shè)計多種復(fù)雜的抓取策略。以下做簡單介紹:

1. 抓取友好性

互聯(lián)網(wǎng)資源龐大的數(shù)量級,這就要求抓取系統(tǒng)盡可能的高效利用帶寬,在有限的硬件和帶寬資源下盡可能多的抓取到有價值資源。這就造成了另一個問題,耗費被抓網(wǎng)站的帶寬造成訪問壓力,如果程度過大將直接影響被抓網(wǎng)站的正常用戶訪問行為。因此,在抓取過程中就要進(jìn)行一定的抓取壓力控制,達(dá)到既不影響網(wǎng)站的正常用戶訪問又能盡量多的抓取到有價值資源的目的。

通常情況下,最基本的是基于 ip 的壓力控制。這是因為如果基于域名,可能存在一個域名對多個 ip(很多大網(wǎng)站)或多個域名對應(yīng)同一個 ip(小網(wǎng)站共享 ip)的問題。實際中,往往根據(jù) ip 及域名的多種條件進(jìn)行壓力調(diào)配控制。同時,站長平臺也推出了壓力反饋工具,站長可以人工調(diào)配對自己網(wǎng)站的抓取壓力,這時百度 spider 將優(yōu)先按照站長的要求進(jìn)行抓取壓力控制。

對同一個站點的抓取速度控制一般分為兩類:

其一,一段時間內(nèi)的抓取頻率;

其二,一段時間內(nèi)的抓取流量。同一站點不同的時間抓取速度也會不同。

例如夜深人靜月黑風(fēng)高時候抓取的可能就會快一些,也視具體站點類型而定,主要思想是錯開正常用戶訪問高峰,不斷的調(diào)整。對于不同站點,也需要不同的抓取速度。

三,新鏈接重要程度判斷

在建庫環(huán)節(jié)前,百度蜘蛛會對頁面進(jìn)行初步內(nèi)容分析和鏈接分析,通過內(nèi)容分析決定該網(wǎng)頁是否需要建索引庫,通過鏈接分析發(fā)現(xiàn)更多網(wǎng)頁,再對更多網(wǎng)頁進(jìn)行抓取——分析——是否建庫 & 發(fā)現(xiàn)新鏈接的流程。理論上,百度蜘蛛會將新頁面上所有能 “看到” 的鏈接都抓取回來,那么面對眾多新鏈接,

百度蜘蛛根據(jù)什么判斷哪個更重要呢?

兩方面:

1,對用戶的價值

  1. 內(nèi)容獨特,百度搜索引擎喜歡原創(chuàng)唯一的內(nèi)容

  2. 主體突出,切不要出現(xiàn)網(wǎng)頁主體內(nèi)容不突出而被搜索引擎誤判為空短頁面不抓取

  3. 內(nèi)容豐富

  4. 廣告適當(dāng)

2,鏈接重要程度

  1. 目錄層級——淺層優(yōu)先

  2. 鏈接在站內(nèi)的受歡迎程度

解讀百度蜘蛛抓取系統(tǒng)與建庫索引

四,百度優(yōu)先建重要庫的原則

百度蜘蛛抓了多少頁面并不是最重要的,重要的是有多少頁面被建索引庫,即我們常說的 “建庫”。眾所周知,搜索引擎的索引庫是分層級的,優(yōu)質(zhì)的網(wǎng)頁會被分配到重要索引庫,普通網(wǎng)頁會待在普通庫,再差一些的網(wǎng)頁會被分配到低級庫去當(dāng)補(bǔ)充材料。目前 60% 的檢索需求只調(diào)用重要索引庫即可滿足,這也就解釋了為什么有些網(wǎng)站的收錄量超高流量卻一直不理想。

那么,哪些網(wǎng)頁可以進(jìn)入優(yōu)質(zhì)索引庫呢。其實總的原則就是一個:對用戶的價值。包括卻不僅于:

  1. 有時效性且有價值的頁面:在這里,時效性和價值是并列關(guān)系,缺一不可。有些站點為了產(chǎn)生時效性內(nèi)容頁面做了大量采集工作,產(chǎn)生了一堆無價值面頁,也是百度不愿看到的 .

  2. 內(nèi)容優(yōu)質(zhì)的專題頁面:專題頁面的內(nèi)容不一定完全是原創(chuàng)的,即可以很好地把各方內(nèi)容整合在一起,或者增加一些新鮮的內(nèi)容,比如觀點和評論,給用戶更豐富全面的內(nèi)容。

  3. 高價值原創(chuàng)內(nèi)容頁面:百度把原創(chuàng)定義為花費一定成本、大量經(jīng)驗積累提取后形成的文章。千萬不要再問我們偽原創(chuàng)是不是原創(chuàng)。

  4. 重要個人頁面:這里僅舉一個例子,科比在新浪微博開戶了,即使他不經(jīng)常更新,但對于百度來說,它仍然是一個極重要的頁面。

五,哪些網(wǎng)頁無法建入索引庫

上述優(yōu)質(zhì)網(wǎng)頁進(jìn)了索引庫,那其實互聯(lián)網(wǎng)上大部分網(wǎng)站根本沒有被百度收錄。并非是百度沒有發(fā)現(xiàn)他們,而是在建庫前的篩選環(huán)節(jié)被過濾掉了。

那怎樣的網(wǎng)頁在最初環(huán)節(jié)就被過濾掉了呢:

  1. 重復(fù)內(nèi)容的網(wǎng)頁:互聯(lián)網(wǎng)上已有的內(nèi)容,百度必然沒有必要再收錄。

  2. 主體內(nèi)容空短的網(wǎng)頁

    • 有些內(nèi)容使用了百度蜘蛛無法解析的技術(shù),如 JS、AJAX 等,雖然用戶訪問能看到豐富的內(nèi)容,依然會被搜索引擎拋棄

    • 加載速度過慢的網(wǎng)頁,也有可能被當(dāng)作空短頁面處理,注意廣告加載時間算在網(wǎng)頁整體加載時間內(nèi)。

    • 很多主體不突出的網(wǎng)頁即使被抓取回來也會在這個環(huán)節(jié)被拋棄。

  3. 部分作弊網(wǎng)頁

更多關(guān)于百度蜘蛛抓取系統(tǒng)原理與索引建庫,請前往百度站長論壇查看文檔。


本文鏈接:http://www.sztqnet.com/article/977.html

超級蜘蛛工具

  • 網(wǎng)站鏈接HTTP狀態(tài)批量檢測_在線批量檢測網(wǎng)站鏈接狀態(tài)_超級蜘蛛查
  • 百度關(guān)鍵詞排名查詢_網(wǎng)站關(guān)鍵詞排名批量查詢_超級蜘蛛查
  • 百度收錄查詢_在線百度收錄批量查詢_超級蜘蛛查
  • 域名IP地址批量查詢_在線批量查詢網(wǎng)站IP地址_超級蜘蛛查
  • 超級外鏈發(fā)布工具_(dá)在線免費批量發(fā)布SEO外鏈_超級蜘蛛查
  • 網(wǎng)頁蜘蛛模擬抓取測試工具_(dá)超級蜘蛛工具_(dá)超級蜘蛛查