雖然百度放出了打擊采集網站的算法,百度到底是喜歡原創文章的網站還是采集文章的網站?但給我的感覺是沒有真正落實下去的。不僅如此,對于那些辛辛苦苦原創的站長來說,有時候做出來的效果還沒有人家輕輕松松的采集效果來的好。
所以今天我們就來和大家分析一下網站如何采集文章做SEO!
對于一個網站來說,內容是十分重要的,除非你是付費玩家(SEM),不用做內容也可以獲得不錯的排名。而對于我們這些草根站長來說,內容就像是蓋樓的地基一樣,得先將地基打好,才能夠蓋起一棟棟摩天大樓。
那么想要利用采集文章來優化網站的話,建議大家對網站優化的幾個要點著重了解一下,首先是網站的TDK書寫,網站的TDK書寫是十分重要的,
當百度蜘蛛進來你的網站以后,首先抓取的就是該網頁的TDK。
可能有些朋友不知道TDK是啥,它主要就是網頁的三大標簽,標題(title)、關鍵字(keywords)以及描述(description),所以大家在發布文章的時候一定要合理的去設置它們。
第二點就是網頁內鏈錨文本,由于我們是選擇采集文章來做的優化,所以每天發布的文章是非常多的,這時候就可能會有較多的百度蜘蛛前來抓取網站的內容。
而我們就是要利用好百度蜘蛛會不斷深入爬行的這么一個特點,通過對網站文章的內部鏈接設置,使其不斷的在我們網站里邊爬行、抓取,這樣的話有利于我們網站整體權重的提升。
第三點是關于網站內部的評論模塊,雖然可能說前期沒有人會在我們的網站下方評論,但我們可以自己去評論呀,對于評論模塊其實百度蜘蛛也會去抓取,那么我們應該如何利用好評論呢?
可以利用評論來增加一下關鍵詞的密度,百度對于頁面的關鍵詞密度也是有所考核的,我們在站長工具里面看到推薦的密度在2%-8%之間,
采集文章的本質就是搬運,而在互聯網上搬運文章莫過于兩種方法:
手動復制的話需要耗費過多的時間以及精力,得上各大網站去尋找自己想要的文章,再去復制收集,不過手動搬運的話也是有好處的,就是我們可以更精確的找到自己想要的文章。
關于小說采集站的玩法其實就是類似采集軟件的,采集軟件可以根據我們所提供的關鍵詞全網自動收集,并且對于自媒體網站的文章還會有顯示出閱讀量、評論數等等。
利用采集軟件的話有利于我們對數據的分析,例如哪個文章比較多人看,比較招人喜歡。這些我們都可以通過數據分析出來,再將其搬運至我們的網站中。
1、采集流程原理
目前采集通常有兩種方式:
1)定向采集:按原點分類,設定條件采集,有站有什么就采什么,再過濾處理!
2)泛采集:通用爬蟲采集
我們這里用的是:據于關鍵詞基礎上,指定N個站點,定向采集
原理:借用搜索引擎指令 site: domain keyword
原理圖
2、內容處理
1)標題
方法一:精簡原始標題
步驟如下:
對原始標題分詞
去除停止詞
獲取詞綴詞性
去除修飾詞,如形容詞、副詞、介詞…,保留原標題主謂賓,獲取句子主干
通常基于jieba分詞或nltk實現,要刪除的修飾詞可以預先分析大量的標題來提取,追加到字典中。。
如:阿里巴巴部分產品頁的title就是這樣處理的,把用戶發布的產品名中一些無關大雅的詞綴干掉,提取主干放到title標簽中
方法二:插入搜索詞
步驟如下:
搭建xunsearch或其他的開源搜索,對采集標題創建索引
用提前準備好的搜索詞(就是要做的那些詞)依次到搜索接口中搜索
對搜索結果中出現的標題前方插入當前搜索詞
我要做的詞有“電動車電池正確使用方法”
比如匹配出來原標題
“不要再讓過度放電毀了你的電動車電池”
“黃山一男子用拆線搭線的方式偷走電瓶車”
………………..
則標題前插入關鍵詞:
“[電動車電池正確使用方法] 不要再讓過度放電毀了你的電動車電池”
或“[電動車電池正確使用方法] 黃山一男子用拆線搭線的方式偷走電瓶車”
當然也可以:“{插入的搜索詞}{精簡后的原始標題}”
方法三:插入當前標題已包含搜索詞的衍生詞、相關搜索詞
步驟如下:
抓取標題已包含搜索詞的百度相關搜索或下拉框,
標題中插入相關搜索或下拉框的詞
如:“[{百度相關搜索詞1}]{原始標題}”、“[{下拉框推薦詞1}{原始標題}]”
也可以: [{百度相關搜索詞1}]{精簡后的原始標題}”、“[{下拉框推薦詞1}{精簡后的原始標題}]”
2)正文內容
正文的處理主要是針對重復性,盡量降低與原始內容的相似性
正文開頭、結尾處插入隨機文本
方法一:提前準備一些能夠通用的文本模板,隨機調用,替換關鍵詞
方法二:正文中隨機截一段文字
方法三:隨機調出N條相關文章標題和概要,放到首尾
修改正文內容
基于textrank算法提取文本摘要,放到正文前面。
為了防止字數過少,可以提前用k-means和tf-idf,找出當前文章的相似文章,可以提取它們正文字數最長的段落的摘要,加到當前的文章中用作字數上的補全。
聚合頁面
聚合頁面就是由詞根挖出來的10個擴展詞,每個擴展詞生成一個列表頁或其他形式的聚合頁面,頁面內容就是對應這個詞采集的20篇內容。
這是最簡單的模型
通常模型
以擴展詞”電動車電池正確使用方法”為例子
聚合頁面 要采集內容有:
怎樣保護充電器嗎?
怎樣延長蓄電池壽命?
電動車電池充電環境要求?
這種模型通常機器+工人先預設好模型再采集內容,再處理組合。
擴展詞:九江適合逛街的地方
標題:關鍵字組合,
內容:聚合頁面,內容組合