WordPress seo之robots.txt的写法

wordpress技巧13年前 (2011)发布 admin
2,978 1

WordPress seo之robots.txt的写法

robots.txt是一个纯文本文件,robots.txt文件用以告诉搜索引擎哪些网页可以收录,哪些不允许收录。搜索引擎蜘蛛spider(Googlebot/Baiduspider)来访问你的网站页面的时候,首先会查看你的网站根目录下是否有robots.txt文件,如果有则按照里面设置的规则权限对你网站页面进行抓取和索引。WordPress seo之robots.txt的写法

如果你没有主动为你的wordpress博客建立robots.txt ,那么在你的域名根目录下是不存在robots.txt文件的,不过你可以通过诸如yoursite.com/robots.txt的方式访问这个虚拟的robots.txt页面,这个虚拟的页面大概实在你在建立wordpress博客时,勾选了允许搜索引擎的抓取,wordpress自动生成的。

“robots.txt”这个文件名必须为小写!否则搜索引擎不会识别!

何苦呢还没有为自己的wordpress博客写过robots.txt,今天转载一篇关于“WordPress seo之robots.txt的写法”文章吧。何苦呢看了,觉得还是很有用的。

以下是转载内容:

robots.txt的简单介绍

robots.txt是一个纯文本文件,robots.txt文件用以告诉搜索引擎哪些网页可以收录,哪些不允许收录。搜索引擎蜘蛛 spider(Googlebot/Baiduspider)来访问你的网站页面的时候,首先会查看你的网站根目录下是否有robots.txt文件,如果有则按照里面设置的规则权限对你网站页面进行抓取和索引。

robots.txt的作用介绍

  1. 通过设置屏蔽搜索引擎访问不必要被收录的网站页面,可以大大减少因spider抓取页面所占用的网站带宽,小网站不明显,大型网站就很明显了。
  2. 设置robots.txt可以指定google或百度不去索引哪些网址,比如我们通过url重写将动态网址静态化为永久固定链接之后,就可以通过robots.txt设置权限,阻止Google或百度等搜索引擎索引那些动态网址,从而大大减少了网站重复页面,对SEO优化起到了很明显的作用。

robots.txt写法注意事项

  1. 如果你的站点对所有搜索引擎公开,则不用做这个文件或者robots.txt为空就行。
  2. robots.txt必须放置在一个站点的根目录下,在子目录下无效。如:通过http://yourdomain/robots.txt 可以成功访问到,则说明本站的放置正确。
  3. robots.txt,User-agent,Disallow等必须注意大小写,不能变化。
  4. User-agent,Disallow等后面的冒号必须是英文状态下的,冒号后面可以空一格,也可以不空格。
  5. User-agent表示搜索引擎spider:星号“*”代表所有spider,Google的spider是“Googlebot”,百度是“Baiduspider”。
  6. Disallow:表示不允许搜索引擎访问和索引的目录。至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写:Disallow: / (注:只是差一个斜

最简单开放的robots.txt写法

不作任何限制,Wordpress站内链接结构比较合理,作为一般博客,完全开放就可以了,代码:

User-agent: *
Disallow:

允许所有蜘蛛访问,允许访问所有内容。Wordpress只要模板中链接设计合理,没有需要限制的特殊内容,推荐使用这种写法。

最简单严格robots.txt写法

User-agent: *
Disallow: /wp-*
#Allow: /wp-content/uploads/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?s=

乐思蜀认为最合理的写法


User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: http://www.yoursite.com/sitemap.xml

允许所有搜索引擎抓取,逐一列举需要限制的目录,限制抓取搜索结果,并包含你的域名的sitemap.xml地址。

李是谁的写法

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-
Allow: /wp-content/uploads/
Disallow: /category/
Disallow: /date/
Disallow: /page/
Disallow: /tag/
Disallow: */trackback/
Disallow: */feed/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.cgi$
Disallow: /*?*
Disallow: /?s=
Sitemap: http://www.baibudu.com/sitemap.xml
# BEGIN XML-SITEMAP-PLUGIN
Sitemap: http://www.baibudu.com/sitemap.xml.gz
# END XML-SITEMAP-PLUGIN

其实robots.txt并没有固定格式,大家想怎么写就怎么写,每个人都有自己的经验和技巧,最主要就是要防止自己的隐私也被搜索引擎抓取了就好。

如果大家还想进一步了解,可以查看Google和百度对robots.txt文件的介绍: Google robotstxt,百度 robots.txt。

robots.txt协议并不是一个规范,而是很多搜索引擎约定俗成的,所以每个搜索引擎遵守robots.txt的方式也不一样,在你修改robots.txt文件时,可以用Google管理员工具检测一下robots.txt是否符合规范,登录后访问“工具 -> 分析 robots.txt”,检查文件有效性。

ps:不过,有些搜索引擎是不怎么遵循robots.txt的,例如百度。

以上“WordPress seo之robots.txt的写法”内容 转载自:稍有删节增减调整 可以前往这里围观之!

http://www.baibudu.com/wordpress-blog-and-its-pros-and-cons-of-writing-robotstxt/

© 版权声明

相关文章

1 条评论

您必须登录才能参与评论!
立即登录
  • lionshuang
    lionshuang 游客

    有收获,原来robots.txt缺省是虚拟的啊,我说咋找不到文件呢。