网站建设新闻banner图片

网站Robots该如何做?

来源:深圳网站建设     时间:2017-11-20

网站Robots该如何做?

网站Robots该如何做,有哪些文件夹哪些文件是不能让蜘蛛抓取的,因为会增加蜘蛛的工作量,且会被蜘蛛视为垃圾文件,这样的话对网站是有不利的伤害,所以下面的代码是写入了哪些需要抓取哪些不需要抓取的意思。示例如下


 
文件写法
 
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符,User-agent:BaiduSpider规定百度蜘蛛
Disallow:该项用于描述不希望被抓取和索引的一个URL
 
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
 
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
 
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
 
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
 
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
 
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
 
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
 
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
 
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
 
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
 
Allow: .gif$ 允许抓取网页和gif格式图片
 
查询方法:域名/robots.txt

(1)禁止所有搜索引擎访问网站的任何部分。
 
User-agent: *
 
Disallow: /
 
(2)允许所有的robots访问,无任何限制。
 
User-agent: *
 
Disallow:
 
或者
 
User-agent: *
 
Allow: /
 
Disallow和Allow可以同时使用,例如,需要拦截子目录中的某一个页面之外的其他所有页面,可以这么写:
 
User-agent: *
 
Disallow: /AAA.net/
 
Allow: /AAA.net/index.html
 
这样说明了所有蜘蛛只可以抓取/AAA.net/index.html的页面,而/AAA.net/文件夹的其他页面则不能抓取。

以上写法是做为Robots的协议写法,可以设置文件的被蜘蛛访问权限以及不被访问的权限。
 
返回列表
 品牌网站建设,为您量身定制      深圳 · 龙岗 深航网站建设
地址:深圳龙岗区坂田发达路佳兆业商品雅园2期D栋2306
联系:18926028981 传真:18926028981
邮编:518000
深圳市深航世纪科技有限公司
关于我们 | 联系我们
Copyright © 2013-2017 Hangdos. 深航科技 版权所有