如何理解linux中web服务器爬虫协议robot-创新互联

这期内容当中小编将会给大家带来有关如何理解linux中web服务器爬虫协议robot,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

创新互联公司主营沈阳网站建设的网络公司,主营网站建设方案,成都APP应用开发,沈阳h5成都小程序开发搭建,沈阳网站营销推广欢迎沈阳等地区企业咨询

robots.txt常用配置内容总结:(提示直接放在web根目录下即可,可以使用百度站长工具robot工具测试)
User-agent: Baiduspider
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: Googlebot
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: 360Spider


Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: msnbot


Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: Sosospider


Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: YoudaoBot


Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
root@ubuntu:/var/www# cat robots.txt
User-agent: Baiduspider
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: Googlebot
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: 360Spider


Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: msnbot


Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: Sosospider


Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: YoudaoBot


Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: bingbot 


Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: Sogou web spider/4.0
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: *
Disallow: /

上述就是小编为大家分享的如何理解linux中web服务器爬虫协议robot了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注创新互联-成都网站建设公司行业资讯频道。


本文名称:如何理解linux中web服务器爬虫协议robot-创新互联
网址分享:http://bzwzjz.com/article/hdgdh.html

其他资讯

Copyright © 2007-2020 广东宝晨空调科技有限公司 All Rights Reserved 粤ICP备2022107769号
友情链接: 教育网站设计方案 网站制作 响应式网站建设 营销网站建设 响应式网站设计 成都网站建设 手机网站制作 自适应网站建设 成都网站建设流程 成都网站建设 专业网站建设 成都网站设计 品牌网站建设 网站设计制作报价 成都营销网站制作 四川成都网站制作 成都网站建设 成都网站建设 移动网站建设 成都响应式网站建设 企业网站设计 成都网站制作公司