百度和google在處理死鏈接的效率上差別很大。尤其對于被黑而導(dǎo)致掛上大量垃圾頁面的站點來說,如何盡快清除這些垃圾收錄很成問題。
google一般對于失效的垃圾頁面,處理速度較快,蜘蛛大量爬行到404頁面后,便會停止收錄這些頁面,并逐步在索引上將其刪除。而百度則會效率低很多,以本站為例,一年前被掛了個垃圾頁,生成了大量的垃圾動態(tài)頁面,發(fā)現(xiàn)后將該頁面刪除,搜索引擎收錄的垃圾頁在google很快就消失了,從日志看,百度蜘蛛也是每天到訪,肯定也抓取不到之前的垃圾頁面,但收錄卻遲遲不刪除。
也許百度也意識到了自身處理死鏈存在一定問題,所以特別在百度站長工具中提供了死鏈提交的功能:
提交死鏈的注意事項:
1、將提交的鏈接頁面狀態(tài)設(shè)置為404 ,尤其要注意404頁面設(shè)置好以后,要避免404頁面返回200狀態(tài)碼;
2、定期新增死鏈,用新xml文件提交最佳,不要在已有xml中更新;(這是因為txt的文本由于沒有代碼分隔,不規(guī)范的URL、帶連接符或參數(shù)的URL等有可能會造成抓取錯誤)
3、每個地址文件最多包含50,000個網(wǎng)址且需小于10MB;(這與sitemap的要求是一樣的)
4、如果驗證了網(wǎng)站的主域,那么Sitemap文件中可包含該網(wǎng)站主域下的所有網(wǎng)址。(二級域名的死鏈也可以在此提交)
提交死鏈的操作流程并不復(fù)雜,可參考百度官方死鏈提交工具幫助,但對于死鏈文件卻沒有現(xiàn)成的工具可使用,那么如何制作百度死鏈的xml文件呢?
1、在搜索引擎site收錄到的失效頁面,全部貼到excel中
2、前后補齊xml格式所必須的標(biāo)簽,參考下圖
3、復(fù)制到編輯器中,按xml格式補齊相應(yīng)代碼,參考XML格式及規(guī)范說明
4、完成死鏈文件并上傳到網(wǎng)站根目錄
5、在站長工具后臺提交并后期管理