手机看片精品高清国产日韩,色先锋资源综合网,国产哺乳奶水91在线播放,乱伦小说亚洲色图欧洲电影

如何設置nginx防范爬蟲鏈接資源

2017-04-10 02:29:31 9527

方法一:修改虛擬站點加入下列代碼

if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot")

{

return 403;

}

blob.png 方法二:網站更目?下增加Robots.txt,放在站點根目錄下

1.當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。百度官方建議,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。

當然,如果搜索引擎不遵守約定的Robots協議,那么通過在網站下增加robots.txt也是不起作用的。(在正式環境中,可以適當允許搜索引擎抓取收錄)

2.如:Robots.txt文件內容

User-agent: *

Crawl-delay: 500

Disallow: /wuyou/

Disallow: /php/

Disallow: /wuyou_admin/

Disallow: /actions/

3.解析:文件寫法

User-agent: *   這里的*代表的所有的搜索引擎種類,*是一個通配符

Disallow: /admin/   這里定義是禁止爬尋admin目錄下面的目錄

Disallow: /require/   這里定義是禁止爬尋require目錄下面的目錄

Disallow: /ABC/    這里定義是禁止爬尋ABC目錄下面的目錄

Disallow: /cgi-bin/*.htm  禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。

Disallow: /*?*    禁止訪問網站中所有包含問號 (?) 的網址

Disallow: /.jpg$   禁止抓取網頁所有的.jpg格式的圖片

Disallow: /ab/adc.html   禁止爬取ab文件夾下面的adc.html文件。

Allow: /cgi-bin/   這里定義是允許爬尋cgi-bin目錄下面的目錄

Allow: /tmp     這里定義是允許爬尋tmp的整個目錄

Allow: .htm$   僅允許訪問以".htm"為后綴的URL

Allow: .gif$    允許抓取網頁和gif格式圖片

sitemap:      網站地圖 告訴爬蟲這個頁面是網站地圖


提交成功!非常感謝您的反饋,我們會繼續努力做到更好!

這條文檔是否有幫助解決問題?

非常抱歉未能幫助到您。為了給您提供更好的服務,我們很需要您進一步的反饋信息:

在文檔使用中是否遇到以下問題: