robots.txt文件注意事项

  1. 各种大型网站robots.txt:
    1. 百度
    2. 淘宝
    3. 京东
    4. 网易新闻
    5. 新浪微博
    6. 必应中国站
    7. 谷歌中国站
    8. GitHub
    9. 优酷
    10. bilibili
  2. 注意事项:
    1. User-agent、Disallow、Allow、Sitemap首字母要大写,后面的小写
    2. :必须是英文冒号,并且与后面内容中间有空格
    3. “*”匹配0或多个任意字符,“$”匹配行结束符
    4. robots.txt必须放置在一个站点的根目录下
  3. 常见设置格式:
    1. 允许所有搜索引擎访问网站所有部分
      User-agent: *
      Disallow: 
      或者
      User-agent: *
      Allow: /
      
    2. 禁止所有搜索引擎访问网站所有部分
      User-agent: *
      Disallow: /
      
    3. 禁止某个搜索引擎访问,比如百度
      User-agent: Baiduspider
      Disallow: /
      
    4. 禁止除百度以外所有搜索引擎访问
      User-agent: Baiduspider
      Disallow: 
      User-agent: *
      Disallow: /
      
    5. 禁止搜索引擎访问网站中的某个目录
      User-agent: *
      Disallow: /admin/
      Disallow: /css/
      Allow: /Users/
      Allow: /test/
      
    6. 限制搜索引擎访问某个后缀的域名,禁止访问/test/目录下的所有以".html"为后缀的URL(包含子目录)
      User-agnet: *
      Disallow: /html/*.html
      
    7. 仅允许搜索引擎访问某目录下某个后缀的文件,使用“$”
      User-agent: *
      Disallow: /
      Allow: .php$
      
    8. 禁止索引网站中所有的动态页面(限制是有“?”的域名,例如index.asp?id=1)
      User-agent: *
      Disallow: /*?*
      
    9. 禁止抓取特定资源文件
      User-agent: *
      Disallow: .jpg$
      Disallow: .jpeg$
      Disallow: .gif$
      Disallow: .png$
      Disallow: .bmp$
      
    10. 文件中还可以写入sitemap文件的链接,比如
      Sitemap: http://www.***.com/sitemap.xml
      
    11. Crawl-delay 指令:几大抓取工具支持Crawl-delay参数,设置为多少秒,以等待同服务器之间连续请求,如:
      User-agent:
      *Crawl-delay:10
      
    12. 要防止所有搜索引擎显示您网站的快照,请将此元标记置入网页的 部分:<meta name="robots" content="noarchive">要允许其他搜索引擎显示快照,但仅防止搜索引擎显示,请使用以下标记:
      <meta name="Baiduspider" content="noarchive">

参考资料:百度百科百度文库

feihu分享到:

          

You may also like...

Scroll Up