robots.txt文件的格式有哪些？要怎么用

robots.txt文件的格式

robots文件往往放置于根目录下，包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示：
"<field>:<optional space><value><optionalspace>"

在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow和Allow行,详细情况如下：

User-agent：

该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中，如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则对任何robot均有效，在"robots.txt"文件中，"User-agent:*"这样的记录只能有一条。如果在"robots.txt"文件中，加入"User-agent:SomeBot"和若干Disallow、Allow行，那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。

Disallow：

该项的值用于描述不希望被访问的一组URL，这个值可以是一条完整的路径，也可以是路径的非空前缀，以Disallow项的值开头的URL不会被 robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help/index.html，而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html，不能访问/help/index.html。"Disallow:"说明允许robot访问该网站的所有url，在"/robots.txt"文件中，至少要有一条Disallow记录。如果"/robots.txt"不存在或者为空文件，则对于所有的搜索引擎robot，该网站都是开放的。

Allow：

该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL 是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的，所以Allow通常与Disallow搭配使用，实现允许访问一部分网页同时禁止访问其它所有URL的功能。

使用"*"and"$"：Baiduspider支持使用通配符"*"和"$"来模糊匹配url。
"*" 匹配0或多个任意字符

"$" 匹配行结束符。

最后需要说明的是：百度会严格遵守robots的相关协议，请注意区分您不想被抓取或收录的目录的大小写，百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配，否则robots协议无法生效。

阅读本文的人还可以阅读：

网站为什么流量异常？网站流量异常10大原因（1）

什么是抓取异常？网站抓取异常的原因

什么是百度抓取异常？抓取异常对网站的影响有哪些

内容管家

6系统

搜外友链

文章分类

robots.txt文件的格式有哪些？要怎么用

与本文相关的文章

搜外会员SEO交流群(免费)

小程序运营交流群(免费)

搜外会员SEM竞价交流群(免费）

夫唯学员SEO交流群(VIP)

扫码获取资源

近期修订文章

近期发布文章

跟夫唯老师系统学习群站SEO
成为互联网运营推广大咖

内容管家

6系统

搜外友链

文章分类

robots.txt文件的格式有哪些？要怎么用

与本文相关的文章

搜外会员SEO交流群(免费)

小程序运营交流群(免费)

搜外会员SEM竞价交流群(免费）

夫唯学员SEO交流群(VIP)

扫码获取资源

近期修订文章

近期发布文章

跟夫唯老师系统学习群站SEO 成为互联网运营推广大咖

跟夫唯老师系统学习群站SEO
成为互联网运营推广大咖