搜索引擎抓取您的網站以將內容放入其索引中。您的網站越大,抓取時間越長。抓取您網站所花費的時間非常重要。如果您的網站有1,000頁或更少,那么這不是您需要考慮的主題。如果您打算發展您的網站,在本文中,我們將介紹爬網效率以及您可以采取的措施。所有搜索引擎都以相同的方式抓取。
百度會在網絡上的某個位置找到指向您網站的鏈接。
此時,該URL是虛擬堆的開始。之后這個過程非常簡單:百度蜘蛛從那一堆中獲取一頁;它抓取頁面并索引所有內容以供在百度中使用;然后它將該頁面上的所有鏈接添加到堆中。在抓取過程中,百度蜘蛛可能會遇到重定向。它被重定向到的URL在堆上。
您的主要目標是確保百度蜘蛛可以訪問該網站上的所有網頁。第二個目標是確保快速抓取新內容和更新內容。良好的網站架構將幫助您實現這一目標。盡管如此,您仍然可以很好地維護您的網站。
在談論爬行時,一個重要的概念是爬行深度的概念。假設您有1個鏈接,從您的網站上的1個網站到1個網頁。此頁面鏈接到另一個,另一個,另一個,等等.百度蜘蛛將繼續爬行一段時間。但在某些時候,它會決定不再需要繼續爬行。當這一點時,取決于指向第一頁的鏈接的重要性。
這似乎是理論上的,所以讓我們看一個實際的例子。如果您有10,000個帖子,則所有帖子都屬于同一類別,并且每頁顯示10篇文章。這些頁面僅鏈接到“下一個”和“上一個”。百度需要抓取1,000頁深度才能獲得這10,000個帖子中的第一個。在大多數網站上,它不會這樣做。
這就是為什么重要的是:使用類別/標簽和其他分類法進行更細粒度的細分。不要過度使用它們。根據經驗,標記僅在連接3個以上內容時才有用。此外,請確保優化這些類別檔案。
鏈接到帶有數字的更深層頁面,因此百度蜘蛛可以更快地到達目的地。假設你鏈接第1頁的第1頁到第10頁并繼續這樣做。在上面的示例中,最深的頁面只有100次點擊遠離主頁。
保持您的網站快速。您的網站越慢,抓取的時間就越長。
您的站點應具有一個或多個XML站點地圖。這些XML站點地圖告訴百度您網站上存在哪些網址。一個好的XML站點地圖還會指示您上次更新特定URL的時間。大多數搜索引擎會比其他搜索引擎更頻繁地抓取XML站點地圖中的URL。
在百度搜索控制臺中,XML站點地圖為您提供了額外的好處。對于每個站點地圖,百度都會向您顯示錯誤和警告。您可以通過為不同類型的URL創建不同的XML站點地圖來實現此目的。這意味著您可以查看網站上哪些類型的網址出現問題最多。
1.許多404和其他錯誤
當它抓取您的網站時,百度會遇到錯誤。它通常只是從堆中挑選下一頁。如果您在抓取過程中網站上有很多錯誤,百度蜘蛛會放慢速度。這樣做是因為它害怕它通過爬得太快而導致錯誤。為防止百度蜘蛛放慢速度,您需要盡可能多地修復錯誤。
百度會在其網站站長工具中向您報告所有這些錯誤,360和搜狗也是如此。我們之前已經在百度搜索控制臺和360網站管理員工具中介紹了錯誤 。
您不會是我們看到的第一個客戶端,它在百度搜索控制臺中有3,000個實際URL和20,000個錯誤。不要讓您的網站成為該網站。至少每個月定期修復這些錯誤。
2.301重定向過多
我最近在一個剛剛完成域遷移的網站上進行咨詢。該網站很大,所以我使用我們的一個工具來運行網站的完整抓取,看看我們應該修復什么。很明顯我們有一個大問題。此站點上的一大組URL始終鏈接到沒有尾部斜杠。如果您使用不帶尾部斜杠的此類URL,則會重定向301。您將被重定向到帶有斜杠的版本 。如果您網站上的一個或兩個網址存在問題則無關緊要。實際上這通常是主頁的問題。如果這是您網站上250,000個網址的問題,那么這就成了一個更大的問題。百度蜘蛛不必抓取250,000個網址,而是抓取500,000個網址。這不是很有效率。
這就是為什么在更改網址時應始終嘗試更新網站中的鏈接的原因。如果不這樣做,隨著時間的推移,您將獲得越來越多的301重定向。這會降低您的抓取速度和用戶速度。大多數系統需要一秒鐘來服務器重定向。這會在頁面加載時間上再增加一秒。
3.蜘蛛陷阱
如果您的網站在百度眼中更具權威性,那么有趣的事情就會發生。即使很明顯鏈接沒有意義,百度也會抓取它。給百度虛擬相當于一個無限螺旋樓梯,它將繼續前進。