手机看片精品高清国产日韩,色先锋资源综合网,国产哺乳奶水91在线播放,乱伦小说亚洲色图欧洲电影

robots.txt文件的運(yùn)用

2016-01-13 17:28:37 10084

    1.Robots協(xié)議(也稱為爬蟲協(xié)議、機(jī)器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。

    2.Robots協(xié)議用來告知搜索引擎哪些頁面能被抓取,哪些頁面不能被抓取;可以屏蔽一些網(wǎng)站中比較大的文件,如:圖片,音樂,視頻等,節(jié)省服務(wù)器帶寬;可以屏蔽站點(diǎn)的一些死鏈接。方便搜索引擎抓取網(wǎng)站內(nèi)容;設(shè)置網(wǎng)站地圖連接,方便引導(dǎo)蜘蛛爬取頁面。

    3.當(dāng)一個(gè)搜索蜘蛛訪問一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。百度官方建議,僅當(dāng)您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時(shí),才需要使用robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容,請勿建立robots.txt文件。

    4.文件寫法

user-agent: *   這里的*代表的所有的搜索引擎種類,*是一個(gè)通配符

disallow: /admin/   這里定義是禁止爬尋admin目錄下面的目錄

disallow: /require/   這里定義是禁止爬尋require目錄下面的目錄

disallow: /ABC/   這里定義是禁止爬尋ABC目錄下面的目錄

disallow: /cgi-bin/*.htm   禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)

disallow: /*?*   禁止訪問網(wǎng)站中所有包含問號 (?) 的網(wǎng)址

disallow: /.jpg$   禁止抓取網(wǎng)頁所有的.jpg格式的圖片

disallow:/ab/adc.html   禁止爬取ab文件夾下面的adc.html文件。

allow: /cgi-bin/   這里定義是允許爬尋cgi-bin目錄下面的目錄

allow: /tmp   這里定義是允許爬尋tmp的整個(gè)目錄

allow: .htm$   僅允許訪問以".htm"為后綴的URL

allow: .gif$   允許抓取網(wǎng)頁和gif格式圖片

sitemap:   網(wǎng)站地圖 告訴爬蟲這個(gè)頁面是網(wǎng)站地圖

    [摘抄自百度百科]

提交成功!非常感謝您的反饋,我們會(huì)繼續(xù)努力做到更好!

這條文檔是否有幫助解決問題?

非常抱歉未能幫助到您。為了給您提供更好的服務(wù),我們很需要您進(jìn)一步的反饋信息:

在文檔使用中是否遇到以下問題: