搜索引擎蜘蛛抓取體驗,聽上去是一個新名詞,其實它和用戶體驗一樣,很早就出現在SEO行業(yè)里面了。搜索引擎蜘蛛抓取體驗,可能是潛伏在資深SEOER腦海里的一個詞。
什么是搜索引擎蜘蛛抓取體驗呢?
良好的代碼結構,良好的URL結構。相信很多站長都有采集經驗,很多CMS都帶有采集功能。
我們知道搜索引擎抓有抓取份額,它是搜索引擎蜘蛛花在一個網站上的抓取頁面的總的時間上限。對于特定網站,搜索引擎蜘蛛花在這個網站上的總時間是相對固定的,不會無限制地抓取網站所有頁面。
決定抓取需求的主要有兩個因素。一是頁面權重,網站上有多少頁面達到了基本頁面權重,搜索引擎就想抓取多少頁面。二是索引庫里頁面是否太久沒更新了。說到底還是頁面權重,權重高的頁面就不會太久不更新。頁面權重和網站權重又是息息相關的,提高網站權重,就能使搜索引擎愿意多抓取頁面。
搜索引擎蜘蛛抓取體驗和你寫采集規(guī)則是一樣的,一個網站有良好的代碼結構,良好的URL結構,你可以輕易寫出采集規(guī)則,順利完成這個網站內容采集工作。
URL,一個網站的URL如果很復雜,經過幾次302或301跳轉后才能到達目的頁面。這樣的URL,如果你要用CMS寫采集規(guī)則,是不是增加了采集規(guī)則的難度。有些URL甚至通過JS跳轉,才能到達內容頁面,這些URL鏈接,請問該如何寫采集規(guī)則。
代碼結構,一個網站的列表頁面和內容頁面,代碼非常復雜。有可能是word編輯的內容,直接復制到網站后臺編輯器,直接發(fā)布。一個列表頁面,可能是JS,iframe嵌入頁面,這樣的代碼結構,該如何寫采集規(guī)則?你可能就直接放棄采集這個網站。搜索引擎蜘蛛也一樣,可能計劃來1萬次抓取的,由于分析效率太低,它可能只能來1000次。
如果SEOER有編程經驗,通過對代碼復雜的分析,針對網站寫出采集規(guī)則是沒問題的。那么,搜索引擎蜘蛛呢?搜索引擎蜘蛛該如何來抓取這些內容,搜索引擎蜘蛛可不會針對某個網站寫采集規(guī)則。
如果一個網站的搜索引擎蜘蛛狀態(tài)碼40%都是302?筆者仔細看了他網站的鏈接結構,都是/xxxx結尾的,訪問后鏈接后面自動加了/,變?yōu)?xxxx/。搜索引擎蜘蛛訪問/xxxx后通過302跳轉,到了/xxxx/。請問,這樣的跳轉訪問,搜索引擎蜘蛛抓取體驗是怎么樣的?答案很明確,造成了蜘蛛多訪問一次,如果這個網站有100萬頁面,蜘蛛就會多訪問100萬次,才能抓取到目標內容。
所以,一個良好的URL規(guī)則,和代碼規(guī)則,可以很大程度提高百度抓取體驗,提高收錄幾率。