广州凡科互联网科技有限公司

营业时间
MON-SAT 9:00-18:00

全国服务热线
4008-888-888

公司门店地址
广州市海珠区工业大道北67号凤凰创意园

Robots 限制蜘蛛抓取频率,抓取时间

日期:2020-11-08 浏览:
国内的搜索引擎蜘蛛
     百度蜘蛛:baiduspider 搜狗蜘蛛:sogou spider 有道蜘蛛:YodaoBot和OutfoxBot 搜搜蜘蛛: Sosospider 国外的搜索引擎蜘蛛
     google蜘蛛: googlebot yahoo蜘蛛:Yahoo! Slurp alexa蜘蛛:ia_archiver bing蜘蛛(MSN):msnbot bing蜘蛛(MSN):msnbot robots.txt内容格式非常简单,用文本文件的每一行代表一个约定。
       User-Agent: 适用下列规则的漫游器 Allow: 充许被抓取的网页 Disallow: 要拦截的网页 Robots.txt的两个常用符号 “*”: 匹配0或多个任意字符(也有所有的意思) “$”:匹配行结束符。 禁止某一蜘蛛抓取:
     User-agent: 蜘蛛名(上面介绍得有) Disallow: / 只充许某一蜘蛛抓取:
     User-agent: 蜘蛛名(上面介绍得有) Disallow: User-agent: * Disallow: / robots.txt扩展协议 robots协议中除allow,disallow外,其扩展协议中还有Request-rate,Crawl-delay,Visit-time等,可以通过率这些协议来限制蜘蛛访问的频率,访问的时间等。 一、Crawl-delay 这个协议可以指定蜘蛛两次抓取时间的间隔值。
     语法:Crawl-delay:XX
     "XX",是指两间抓取的间隔时间,单位为秒。如果蜘蛛的抓取频率太高可以指定这个值,来减轻服务器的负担。
     二、Visit-time 指定蜘蛛的访问时间。
     语法:Visit-time:0930-1630
     开头的文本行指定每天允许网络蜘蛛采集的时间段,格式为mmss-mmss,例如0930-1630
     三、Request-rate 指定采集的频率
     语法:Request-rate:1/5 0600-0845
     指定同一个网络蜘蛛每多少秒采集一次网页和采集时间段,例如1/5 0600-0845。
     四、禁止指定类型后缀的文件抓取
     Disallow: .jpg$ 禁止抓取的格式
     Disallow: .jpeg$ 
     Disallow: .gif$
     Disallow: .png$
     Disallow: .bmp$
     Disallow: .jpg$ 禁止抓取的格式
     Disallow: .jpeg$ 
     Disallow: .gif$
     Disallow: .png$
     Disallow: .bmp$ 另外,在网页中增加名字为“robots”的meta标签,也可以让某些网络蜘蛛不采集这一页。不过,这也只是某些网络蜘蛛认同,不是大家都认同的标准。示例如下。 meta name="robots" content="noindex,nofollow" / ============================================================== 例1.禁止所有搜索引擎访问网站的任何部分
User-agent: * 
Disallow: / 例2.允许所有的robot访问 (或者也可以建一个空文件 "/robots.txt")
User-agent: * 
Allow: / 
另一种写法是 
User-agent: * 
Disallow: 例3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider 
Disallow: / 例4. 仅允许Baiduspider访问您的网站
User-agent: Baiduspider 
Allow: / 例5. 禁止spider访问特定目录 
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成 "Disallow: /cgi-bin/ /tmp/"。
User-agent: * 
Disallow: /cgi-bin/ 
Disallow: /tmp/ 
Disallow: /~joe/ 例6. 允许访问特定目录中的部分url
User-agent: * 
Allow: /cgi-bin/see 
Allow: /tmp/hi 
Allow: /~joe/look 例7. 使用"*"限制访问url 
禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
User-agent: * 
Disallow: /cgi-bin/*.htm 例8. 使用"$"限制访问url 
仅允许访问以".htm"为后缀的URL。
User-agent: * 
Allow:/ .htm$ 例9. 禁止访问网站中所有的动态页面
User-agent: * 
Disallow: /*?* 例10. 禁止Baiduspider抓取网站上所有图片 
仅允许抓取网页,禁止抓取任何图片。
User-agent: Baiduspider 
Disallow: /.jpg$ 
Disallow: / .jpeg$ 
Disallow:/ .gif$ 
Disallow:/ .png$ 
Disallow: /.bmp$ 例11. 仅允许Baiduspider抓取网页和。gif格式图片 
允许抓取网页和gif格式图片,不允许抓取其他格式图片
User-agent: Baiduspider 
Allow: .gif$ 
Disallow: /.jpg$ 
Disallow:/ .jpeg$ 
Disallow:/ .png$ 
Disallow: /.bmp$ 例12. 仅禁止Baiduspider抓取。jpg格式图片
User-agent: /Baiduspider 
Disallow:/ .jpg$


网站知识

联系方式丨CONTACT

  • 全国热线:4008-888-888
  • 传真热线:010-88888888
  • Q Q咨询:2639601583
  • 企业邮箱:2639601583@qq.com

首页
电话
短信
联系