百度蜘蛛抓取量,顧名思義就是指百度蜘蛛每天抓取大家網(wǎng)站的網(wǎng)頁(yè)數(shù)量。據(jù)所知,百度蜘蛛抓取的目標(biāo)有兩種:一是這個(gè)站點(diǎn)產(chǎn)生的新網(wǎng)頁(yè),另一種是百度以前抓取過(guò)但是需要更新的網(wǎng)頁(yè)。
如果不是很好理解的話,這里為大家舉例說(shuō)明下:
比如一個(gè)站點(diǎn)已經(jīng)被百度收錄了2w,那么百度會(huì)給出一個(gè)時(shí)間段,比如15天,然后平均一下,每天到這個(gè)站點(diǎn)上面抓2W/15的這樣一個(gè)數(shù)字,當(dāng)然具體的數(shù)字肯定不是這個(gè),這個(gè)就是百度內(nèi)部的數(shù)據(jù)了。
下面具體為大家介紹下影響網(wǎng)站百度蜘蛛抓取量的因素。
對(duì)于中小型站點(diǎn),由于在安全技意識(shí)上比較欠缺, 技術(shù)上也比較薄弱,因此網(wǎng)站被黑被篡改的現(xiàn)象非常常見(jiàn)。一般被黑有常見(jiàn)幾種情況,一種是網(wǎng)站域名被黑,一種是標(biāo)題被篡改,還有一種是在頁(yè)面里面加了很多的黑鏈。 對(duì)于一般網(wǎng)站來(lái)說(shuō),域名被黑被劫持,就是域名被進(jìn)行設(shè)置了301跳轉(zhuǎn),跳轉(zhuǎn)到指定的垃圾網(wǎng)站。而這種跳轉(zhuǎn)被百度發(fā)現(xiàn)了的話,那么對(duì)于你站點(diǎn)的抓取就會(huì)降低,甚至于被懲罰降權(quán)。
另外網(wǎng)站內(nèi)容的質(zhì)量也是很重要的,如果蜘蛛抓取了我們網(wǎng)站10萬(wàn)條內(nèi)容,最后只有100條或者更少的內(nèi)容被建庫(kù)了,那么百度蜘蛛對(duì)于網(wǎng)站的抓取量還會(huì)下降。因?yàn)榘俣葧?huì)認(rèn)為我們的站點(diǎn)質(zhì)量很差,沒(méi)必要去抓取更多。 所以特別提醒:大家在建站初期的時(shí)候就需要注意內(nèi)容質(zhì)量,不要采集內(nèi)容,這對(duì)于網(wǎng)站的發(fā)展來(lái)說(shuō)存在潛在的隱患。
①網(wǎng)頁(yè)的大小會(huì)影響抓取,百度建議網(wǎng)頁(yè)的大小在1M以內(nèi),當(dāng)然類似大的門(mén)戶網(wǎng)站,如新浪另說(shuō)。
②代碼質(zhì)量、機(jī)器的性能及帶寬。這些都會(huì)影響到抓取的質(zhì)量。代碼質(zhì)量不用多說(shuō),蜘蛛本身也屬于按照程序執(zhí)行,你的代碼質(zhì)量很差,很難讀懂,蜘蛛自然不會(huì)浪費(fèi)時(shí)間去解讀。 機(jī)器性能和帶寬同樣如此,服務(wù)器配置太差,帶寬不夠會(huì)導(dǎo)致蜘蛛抓取網(wǎng)站出現(xiàn)困難,會(huì)嚴(yán)重影響蜘蛛抓取的積極性。
百度抓取都是按照ip進(jìn)行去抓取的,比如百度規(guī)定在一個(gè)ip上一天可以抓取了2000w個(gè)頁(yè)面,而在這個(gè)站點(diǎn)上有50W個(gè)站點(diǎn),那么平均下來(lái)抓取每個(gè)站點(diǎn)的數(shù)量會(huì)分的很少。同時(shí)還需要注意看一看同ip上面有沒(méi)有大站,如果有大站的話,本來(lái)就被分得很少的抓取量又會(huì)被大站分走不少。