什么是robots,robots文件介绍、作用及写法

  互传乐晨网专注互联网新人学习分享(觉得老手的可以绕开哈),今天要分享的是SEO专业术语中的robots文件;那么,什么是robots、robots文件以及robots文件作用、写法呢?robots文件应该放在哪里呢?下面乐晨就为各位新手朋友分享一下
 
什么是robots,robots文件介绍、作用及写法
 
  Robots别称spider,主要作用是网站跟爬虫间的协议;搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。
 
  robots文件(robots.txt)介绍
 
  百度百科解说:robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。
 
  简单来说就是一个以robots命名的txt格式的文本文件,是网站跟爬虫间的协议(你可以理解为搜索引擎蜘蛛抓取的规则),当搜索引擎发现一个新的站点时,首先会检查该站点是否存在robots文件,如果存在,搜索引擎则会跟据robots文件规定的规则来确定可以访问该站点的范围。
 
  robots文件的作用
 
  1.网站内的部分目录或内容如果不希望搜索引擎抓取,如WordPress的后台文件wp-admin,管理仪表盘或其他页面,这些对搜索引擎无用的页面就可以借助robots文件来告诉搜索引擎不要抓取此目录下的内容,这样就可以让有限带宽的蜘蛛深入抓取更多需要被抓取收录的页面。
 
  2.屏蔽一些动态链接,统一网站链接类型,集中权重。
 
  3.禁止搜索引擎收录网站,以保障网站的安全。比如一些网站是客户管理系统,只需要公司员工登录即可,属于并不想公开的私密信息,为了防止信息泄露就可以使用robots文件进行屏蔽抓取。
 
  robots文件放在哪里?
 
  robots文件应该放在网站根目录下。
 
  举例来说,当robots访问一个网站时,首先会检查该网站中是否存在这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。
 
  robots文件常用写法示例(完整版)
 
  robots文件用法举例:
 
  1.允许所有的robot访问
 
  User-agent:*Allow:/或者User-agent:*Disallow:
 
  2.禁止所有搜索引擎访问网站的任何部分
 
  User-agent:*
 
  Disallow:/
 
  3.仅禁止Baiduspider访问您的网站
 
  User-agent:Baiduspider
 
  Disallow:/
 
  4.仅允许Baiduspider访问您的网站
 
  User-agent:Baiduspider
 
  Disallow:
 
  5.禁止spider访问特定目录
 
  User-agent:*
 
  Disallow:/cgi-bin/
 
  Disallow:/tmp/
 
  Disallow:/~joe/
 
  6.允许访问特定目录中的部分url
 
  User-agent:*
 
  Allow:/cgi-bin/see
 
  Allow:/tmp/hi
 
  Allow:/~joe/look
 
  Disallow:/cgi-bin/
 
  Disallow:/tmp/
 
  Disallow:/~joe/
 
  7.使用”*”限制访问url
 
  禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
 
  User-agent:*
 
  Disallow:/cgi-bin/*.htm
 
  8.使用”$”限制访问url
 
  仅允许访问以”.htm”为后缀的URL。
 
  User-agent:*
 
  Allow:.htm$
 
  Disallow:/
 
  例9.禁止访问网站中所有的动态页面
 
  User-agent:*
 
  Disallow:/*?*
 
  10.禁止Baiduspider抓取网站上所有图片
 
  仅允许抓取网页,禁止抓取任何图片。
 
  User-agent:Baiduspider
 
  Disallow:.jpg$
 
  Disallow:.jpeg$
 
  Disallow:.gif$
 
  Disallow:.png$
 
  Disallow:.bmp$
 
  11.仅允许Baiduspider抓取网页和.gif格式图片
 
  允许抓取网页和gif格式图片,不允许抓取其他格式图片
 
  User-agent:Baiduspider
 
  Allow:.gif$
 
  Disallow:.jpg$
 
  Disallow:.jpeg$
 
  Disallow:.png$
 
  Disallow:.bmp$
 
  12.仅禁止Baiduspider抓取.jpg格式图片
 
  User-agent:Baiduspider
 
  Disallow:.jpg$
 
  关于SEO专业术语_robots文件今天分享到此结束,感谢你的阅读!喜欢贵站的话,可以Ctrl+D收藏我们的网站,我们唯一的网址:www.ilechen.com。

  【特别声明】
 
  如非注明,互传乐晨网文章均为原创,转载请标明出处!
 
  本文链接:http://www.ilechen.com/seozx/170.html
 
  如果你觉得文章对你有帮助,且想要跟同伴一起交流探讨的话;欢迎你分享!

上一篇:什么是灰帽SEO,灰帽行为有哪些?
下一篇:什么是锚文本?锚文本与内链的区别?