1. 首页 > SEO优化

robots.txt爬虫协议怎么写?robotstxt文件有什么作用?

robots.txt是什么?robots.txt是一种存放于网站根目录下的ASCII编码的文本文件,robots.txt主要作用是禁止搜索引擎哪些内容不会获取,哪些是可以被获取,那些搜索引擎可以来爬取网站,那些搜索引擎不可以来爬取网站的功能。在网站优化中robots.txt文件有着重要作用,那么robots.txt爬虫协议怎么写?
robots.txt爬虫协议怎么写?robotstxt文件有什么作用?
robots.txt爬虫协议十种用法写法:
1. 允许所有的搜索引擎访问
User-agent: * 
Allow: /
或者 
User-agent: *
 Disallow:

2. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /

3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /

4. 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Disallow:

5. 禁止搜索引擎访问特定目录
User-agent: *
Disallow: /seo/
Disallow: /tbyy/
Disallow: /tmyy/

6. 允许访问特定目录中的部分url
User-agent: *
Allow: /seo/
Allow: /tbyy/
Allow:/tmyy/

7. 使用”*”限制访问url
禁止访问/seo/目录下的所有的含htm为后缀的URL(包含子目录)。
User-agent: *
Disallow: /seo/*.htm

8. 使用”$”限制访问url
仅允许访问以tm为后缀的URL
User-agent: *
Allow: .htm$
Disallow: /

9. 禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*

10. 禁止Baiduspider抓取网站上所有图片
仅允许抓取网页,禁止抓取任何图片。
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

robots.txt爬虫协议是包括谷歌百度等在内的所有搜索引擎都有遵守的君子协定,说不抓去就不抓取。但还是不排除会有很多小的搜索引擎会恶意越过这层界限!robots.txt协议修改生效一般是一周左右时间。
  文章来源:三九号

本文由发布,不代表三九号立场,转载联系作者并注明出处:http://www.xzsuanming.com.cn/seo/151.html

如何彻底清除网站全部死链
« 上一篇 2022-08-11
网站优化外链怎么布局效果才更明显
下一篇 » 2022-08-12

相关推荐

留言与评论(共有 0 条评论)
   
验证码:

联系我们

在线咨询:点击这里给我发消息

QQ号:1825815618

工作日:9:30-18:30,节假日休息