- 工信部備案號 滇ICP備05000110號-1
- 滇公安備案 滇53010302000111
- 增值電信業(yè)務經(jīng)營許可證 B1.B2-20181647、滇B1.B2-20190004
- 云南互聯(lián)網(wǎng)協(xié)會理事單位
- 安全聯(lián)盟認證網(wǎng)站身份V標記
- 域名注冊服務機構許可:滇D3-20230001
- 代理域名注冊服務機構:新網(wǎng)數(shù)碼
頁面出現(xiàn)抓取異常是很危險的!出現(xiàn)抓取異常若不及時解決,不僅僅會對您的站點帶來流量損失,
嚴重的情況下蜘蛛還可能降低您的站點的評價,在抓取、索引、排序上都可能會受到一定程度的負面影響
應該運用好百度站長平臺的抓取異常
從那些方面來找出收錄頁面在百度中的錯誤
1.服務器錯誤
返回碼中返回503(其含義是“Service Unavailable”),這樣百度spider會過段時間再來嘗試抓取這個鏈接,如果網(wǎng)站已空閑,則會被成功抓取。
造成服務器錯誤的原因有多種:網(wǎng)站處于正在進行維護;該網(wǎng)站有程序出現(xiàn)批量錯誤。最好的解決辦法就是找出程序的錯誤并做出適當?shù)男薷模绻蔷W(wǎng)站正在進行維護,請采用百度站長平臺的閉站保護進行規(guī)范后然后再進行操作。
2.訪問被拒絕
訪問被拒絕最主要的問題就是百度蜘蛛發(fā)起抓取網(wǎng)頁的時候,httpcode返回的都是403狀態(tài)碼,這樣同樣會造成百度蜘蛛抓取不到規(guī)范的網(wǎng)頁。造成訪問被拒絕的原因也有多種:網(wǎng)站權限受限制;IP地址被拒絕;服務器流量超負荷。這幾種錯誤原因解決辦法也很容易,找出網(wǎng)頁所在目錄給與百度蜘蛛足夠的權限去抓取頁面,查看百度蜘蛛的IP地址是否被封禁,服務器流量過大的話那就升級服務器。
3.找不到頁面
找不到頁面最主要的問題就是百度蜘蛛發(fā)起抓取網(wǎng)頁的時候,httpcode返回的都是404狀態(tài)碼,這種錯誤是網(wǎng)頁最主要的,幾乎所有的網(wǎng)站都有這種頁面存在。造成找不到頁面的原因可以列舉一大把:過期的團購網(wǎng)頁;誤刪數(shù)據(jù)庫;論壇垃圾帖子刪除。其實這些問題能夠輕而易舉的就解決了,建立合適的404頁面,遇到404狀態(tài)碼就返回404頁面。
4.其他錯誤
其他錯誤包括的項目就比較多了,但問題大概還是差不多的,就是百度蜘蛛抓起網(wǎng)頁的時候httpcode返回的4XX狀態(tài)碼,除了403和404之外的其他狀態(tài)碼。這種問題的來源也是蠻多的:請求的URL太長【參數(shù)太多】;要求驗證身份;不支持的媒體類型;瀏覽器不接收所請求的頁面。解決這些問題比較復雜,URL過長的話需要解決參數(shù)的排序位置,身份驗證的就要從部分網(wǎng)站權限控制和其他程序問題來控制了,媒體類型盡量做到每個類型就覆蓋到自己的網(wǎng)站
運用好百度站長平臺的抓取異常這個欄目選項,你就能找到百度蜘蛛在抓取網(wǎng)頁的時候遇到的瓶頸,解決掉這些對蜘蛛爬取的有阻攔的問題,你就能把所有在百度已經(jīng)收錄的頁面統(tǒng)計出來,然后根據(jù)不同的問題解決掉就可以了
售前咨詢
售后咨詢
備案咨詢
二維碼
TOP