更新时间:2019-12-27 18:49点击:
	同时也需要注意的是,网站动态的路径也要用robots进行屏蔽,在这个前提需要做的是,要了解每个文件下的数据是用来做什么用的,代表什么意思,自己下面也知道如何运用robots进行操作。
	
	 
	
	
	一:什么是Robots。
	
	Robots.txt文件是我们用来规范搜索引擎蜘蛛在索引网站时的索引范围。防止搜索引擎索引我们网站的私密文件。
	
	注意事项:
	
	1) 必须放在根目录下。
	
	2) 文件名必须全部小写。
	
	3) 如果允许全部抓取,也需要建立一个空的Robots.txt文件。
	
	4) Robots.txt禁止的文件仍然有可能出现在搜索结果中。如需完全禁止需要用Meta Robots属性。
	
	5) Robots只是一种规则,需要搜索引擎的配合。如若搜索引擎不遵守则无意义。
	
	二:Robots.txt文件的语法规则。
	
	1) Robots.txt中的记录是以空行来分开的,每行的格式如下:
	
	“:
	
	”
	
	表示定义域,
	表示开放空格,表示定义域值。
	
	定义域有三种1)User-agent该项定义域用来描述搜索引擎名称。
	
	常见搜索引擎名称:
	
	名称 搜索引擎
	
	Baiduspider 百度:http://www.baidu.com
	
	Scooter Vista:http://www.altavista.com
	
	ia_archiver Alexa:http://www.alexa.com
	
	Googlebot 谷歌:http://www.google.com
	
	FAST-WebCrawler Fast:http://www.alltheweb.com
	
	MSNBOT Msn:http://search.msn.com
	
	2)Disallow该项定义域用来描述希望不被索引的URL路径。
	
	3)Allow该项定义域用来描述可以被索引的URL路径(由于缺省值是允许索引所以该项定义域会很少使用到)。
	
	Disallow与Allow这两定义域的域值可以是一条完整路径也可以是路径的非空前缀。第三部分当中的具体实例用法当中就是探讨这两定义域的域值。
	
	三:Robots.txt文件的具体实例用法。
	
	例1. 禁止所有搜索引擎访问网站的任何部分
	
	User-agent: *
	Disallow: /
	
	例2. 允许所有的robot访问网站的任何部分
	
	User-agent: *
	Disallow:
	
	例3. 仅禁止Baiduspider访问您的网站
	
	User-agent: Baiduspider
	
	Disallow: /
	
	例4. 仅允许Baiduspider访问您的网站
	
	User-agent: Baiduspider
	Disallow:
	
	User-agent: *
	Disallow: /
	
	例5. 禁止spider访问特定目录
	
	User-agent: *
	Disallow: /cgi-bin/
	Disallow: /tmp/
	Disallow: /data/
	
	注意事项:1)三个目录要分别写。2)请注意最后要带斜杠。3)带斜杠与不带斜杠的区别。
	
	例6. 允许访问特定目录中的部分url
	
	我希望a目录下只有b.htm允许访问,怎么写?
	
	User-agent: *
	Allow: /a/b.htm
	Disallow: /a/
	注:允许收录优先级要高于禁止收录。
	
	从例7开始说明通配符的使用。通配符包括("$" 结束符;
	   "*"任意符)
	
	例7. 禁止访问网站中所有的动态页面
	
	User-agent: *
	Disallow: /*?*
	
	例8. 禁止搜索引擎抓取网站上所有图片
	
	User-agent: *
	Disallow: /*.jpg$
	Disallow: /*.jpeg$
	Disallow: /*.gif$
	Disallow: /*.png$
	Disallow: /*.bmp$
	
	其他很多情况呢,需要具体情况具体分析。只要你了解了这些语法规则以及通配符的使用,相信很多情况是可以解决的。
	
	四:Robots Meta标签
	
	什么是Robots Meta标签。
	
	Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots Meta标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots Meta标签也是放在页面的
	
	中,专门用来告诉搜索引擎如何抓取该页的内容。
	Robots Meta标签各项属性详细说明。
	
	Noindex - 阻止页面被列入索引。
	
	Nofollow - 阻止对于页面中任何超级链接进行索引。
	
	Noarchive - 不保存该页面的网页快照。
	
	Nosnippet - 不在搜索结果中显示该页面的摘要信息,同时不保存该页面的网页快照。
	
	Noodp - 在搜索结果中不使用Open Directory Project中的描述信息作为其摘要信息。
 
 