最近有人问笔者——为什么我坚持每天更新内容,却不被百度收录?
我的第一反应是网站是否因为收集内容等非法操作而被黑。
后来经过仔细调查,发现原来是这个网站的robots文件写错了导致的。
事情是这样的,网站的许多页面URL是动态URL,因此出于某种原因,设置了Disallow,这导致网站上的许多信息页面和内容页面没有被抓取。
提交后,重新生成的robots文件恢复正常。
说到这里,肯定有很多人会问,那么robots文件怎么写才算标准呢?
今天傻瓜就给大家讲讲SEO中robots文件的编写规范。
Robots.txt是存储在网站根目录中的纯文本文件。虽然它的设置很简单,但它的功能非常强大。它可以指定搜索引擎蜘蛛只抓取指定的内容,或者禁止搜索引擎蜘蛛抓取网站的部分或全部内容。
如何使用:
Robots.txt文件应该放在网站的根目录下,并且可以通过互联网访问。
例如,如果您的网站地址是http://www.biomart.cn/,,文件必须能够通过。
Http://www.biomart.cn/robots.txt打开它,看到了里面的东西。
格式:
用户代理:
用于描述搜索引擎蜘蛛的名称。在“Robots.txt”文件中,如果有多个用户代理记录表明多个搜索引擎蜘蛛将受到此协议的限制,则该文件必须至少有一个用户代理记录。如果该项的值设置为*,则该协议对任何搜索引擎蜘蛛都有效。在“Robots.txt”文件中,只能有一个类似“用户代理:*”的记录。
不允许:
用于描述您不想访问的URL。该URL可以是完整路径或一部分。机器人不会访问任何以Disallow开头的URL。
例如:
示例1:“Disallow:/help”表示不允许/help.html和/help/index.html被搜索引擎蜘蛛抓取。
示例2:“不允许:/help/”表示允许搜索引擎蜘蛛抓取/help.html,但不允许抓取/help/index.html..
示例3:空白的不允许记录意味着网站的所有页面都允许被搜索引擎抓取,“/robots.txt”文件中必须至少有一条不允许记录。如果“/robots.txt”是一个空文件,则该网站对所有搜索引擎蜘蛛开放,可以对其进行爬网。
#:Robots.txt协议中的注释器。
综合示例:
示例1:禁止所有搜索引擎蜘蛛通过“/robots.txt”爬取目录“/bin/cgi/”和目录“/tmp/”以及文件/foo.html。设置方法如下:
用户代理:*
不允许:/bin/cgi/
不允许:/tmp/
不允许:/foo.html
示例2:只允许一个搜索引擎爬取“/robots.txt”,而禁止其他搜索引擎爬取。例如,仅允许名为“slurp”的搜索引擎蜘蛛抓取,而拒绝其他搜索引擎蜘蛛抓取“/cgi/”目录中的内容。设置方法如下:
用户代理:*
不允许:/cgi/
用户代理:slurp
不允许:
示例3:不允许任何搜索引擎抓取我的网站,设置方法如下:
用户代理:*
禁止:/
例4:只有一个搜索引擎被禁止抓取我的网站。例如,只有名为“slurp”的蜘蛛被禁止爬行。设置方法如下:
用户代理:slurp
禁止:/
版权声明:本文内容由网民自发贡献,文章观点仅代表作者本人。本站仅提供信息存储空间服务,不具有所有权,不承担相关法律责任。如果您发现任何涉嫌抄袭的内容,请发送电子邮件至365161286@qq.com进行举报。一经核实,本网站将被立即删除。
转载请注明来自专注于seo技术、教程和推广-小龙SEO培训教程,本文标题:“百度速度慢怎么办?”
发表评论