很多站長都會遇到這個問題,網站開發完成上線后,百度一直不收錄。即使收錄也只是收錄個首頁,內頁很難快速被收錄。如何解決這個問題?搜索引擎的進化在互聯網早期,網站數量有限,所以人工整理是可行的,比如就有DMOZ這樣的人工編輯的網站數據庫,分門別類的整理好各種網址。
后來全球網站數量爆炸性增長,人工整理就不現實了,于是有了網絡爬蟲(也叫蜘蛛)代替人工去訪問抓取網站,這就是最原始的搜索引擎。雖然互聯網是一個網狀結構,但是抓取整個互聯網上的所有網站還是有難度的,首先要解決的問題就是如何發現這些網站。
為了解決這個問題,搜索引擎都會有一個基礎的網站數據庫,從這里的網站開始爬取,希望能抓取整個互聯網上的信息。而且依靠鏈接之間的引用關系和使用的鏈接文本來計算網頁的權重,從而能對搜索結果排序。比如Google的PageRank算法。
Yahoo算是非常早的搜索引擎,它就使用DMOZ的網站作為爬蟲的抓取起點,而且懷疑Google也使用DMOZ數據,因為10多年前做網站時,大家都希望自己的網站能被DMOZ收錄,甚至賄賂DMOZ的編輯人員。
還有那時候大家都拼命交換友情鏈接,PR值高的網站就是大爺。這背后對應著網站的收錄速度和排名高低。
一個新網站,如果有PR值高的網站給你加友情鏈接,很快網站就可以被抓取收錄。早期互聯網內容貧乏,隨便做個網站,找有權重的網站交換友情鏈接,這些搜索引擎爬蟲都如饑似渴的抓取收錄。可現在互聯網上的內容太多了(Google的總索引頁面數477億左右)),搜索引擎也變得越來越挑剔,所以新站起流量越來越難了。
用新注冊的域名做網站,從被百度收錄到有排名需要很長的時間。
就像你遇到一個陌生人,你完全不知道他的底細,考核觀察的時間就會很長。
所以希望網站快速被收錄,建議花錢買老域名,而且最好選域名注冊歷史久、沒有不良記錄、各大搜索引擎還有殘留索引記錄的為佳。
什么叫“沒有不良記錄”?
域名沒有做過黃、賭、毒、醫療等違法或灰色行業。
多點擊一些網頁快照,看看年初的月份,再看看近期的快照。還有一點就是,查看快照時候,右鍵查看下頁面源碼,看底部的友情鏈接部分有沒有違法網站,避免選擇被黑過的網站。
而且如果一個域名長達一年多沒有做過網站,可能也要放棄。關于購買老域名,可以上聚名網或其他提供老域名搶注或交易的網站,平均價格在100-200之間。
基礎的域名數據,比如百度權重,各個搜索引擎的收錄情況,可以使用愛站SEO助手或自己寫程序抓取。以上技巧很實用,前段時間跟一個朋友學的。
投懷送抱法
1、主動推送:最為快速的提交方式。
適用場景:把網站當天新產生的鏈接通過這種方式推給百度,保證新鏈接可以及時被百度收錄。
在站長平臺后臺點擊“網頁抓取”->“鏈接提交”可以看到具體的使用說明,百度提供有curl、php和ruby等樣例代碼。
2、自動推送:最為方便的提交方式。
使用方法:將自動推送的JS代碼加到網站每個頁面里,當有用戶訪問這個頁面時,頁面鏈接就會自動推送給百度。可以配合主動推送使用。
3、Sitemap:傳統提交方式。
很多網站CMS都提供生成Sitemap的功能,如果沒有的話,需要借助工具或自己寫代碼生成。通過Sitemap告訴百度蜘蛛哪些網頁希望被抓取。
百度Sitemap支持3種格式:txt文本格式、xml格式、Sitemap索引格式。
如果是小網站,頁面數量小于5萬,可以使用txt或xml格式的sitemap文件放到網站根目錄下就可以。
如果是網頁數量超過5萬,可以網址拆分成5萬為一組的xml文件,然后放到Sitemap索引文件中,通過站長平臺提交給百度。
具體格式參考百度官方說明:Sitemap提交工具站長資訊百度站長平臺
Sitemap提交方式收錄速度慢于主動推送。
4、手動提交:最偷懶的后臺提交方式。
通過百度站長后臺手動提交,一次只能提交20個網址。
但這里有原創提交入口,原創內容可以通過這里提交。
主動提交Sitemap有利于百度對你網站內容的識別抓取,但不一定會收錄所有網址,頁面質量高才會收錄。
重復提交沒有用,反而會浪費主動推送配額。
有專門的移動版Sitemap格式,需要按百度要求格式制作提交.
搜索引擎雖然越來越高級,但是爬蟲(蜘蛛)的基本原理并沒有大變化。
想要頁面被收錄,就需要蜘蛛訪問抓取頁面,如果沒有蜘蛛光顧,網站被收錄就無從談起。
所以主動推廣,交換鏈接依然是加快收錄的有效手段。
如果你有一個百度抓取頻率很高的網站,在主要頁面上增加鏈接文本指向新站,引導蜘蛛抓取你的新站。還有些人會用一些黑帽手法,比如蜘蛛池,利用抓取的漏洞把百度蜘蛛困在資源站中,最后導出外鏈到新站以加快收錄。