WordPress seo之robots.txt的写法
WordPress seo之robots.txt的写法
robots.txt是一个纯文本文件,robots.txt文件用以告诉搜索引擎哪些网页可以收录,哪些不允许收录。搜索引擎蜘蛛spider(Googlebot/Baiduspider)来访问你的网站页面的时候,首先会查看你的网站根目录下是否有robots.txt文件,如果有则按照里面设置的规则权限对你网站页面进行抓取和索引。
如果你没有主动为你的wordpress博客建立robots.txt ,那么在你的域名根目录下是不存在robots.txt文件的,不过你可以通过诸如yoursite.com/robots.txt的方式访问这个虚拟的robots.txt页面,这个虚拟的页面大概实在你在建立wordpress博客时,勾选了允许搜索引擎的抓取,wordpress自动生成的。
“robots.txt”这个文件名必须为小写!否则搜索引擎不会识别!
何苦呢还没有为自己的wordpress博客写过robots.txt,今天转载一篇关于“WordPress seo之robots.txt的写法”文章吧。何苦呢看了,觉得还是很有用的。
以下是转载内容:
robots.txt的简单介绍
robots.txt是一个纯文本文件,robots.txt文件用以告诉搜索引擎哪些网页可以收录,哪些不允许收录。搜索引擎蜘蛛 spider(Googlebot/Baiduspider)来访问你的网站页面的时候,首先会查看你的网站根目录下是否有robots.txt文件,如果有则按照里面设置的规则权限对你网站页面进行抓取和索引。
robots.txt的作用介绍
- 通过设置屏蔽搜索引擎访问不必要被收录的网站页面,可以大大减少因spider抓取页面所占用的网站带宽,小网站不明显,大型网站就很明显了。
- 设置robots.txt可以指定google或百度不去索引哪些网址,比如我们通过url重写将动态网址静态化为永久固定链接之后,就可以通过robots.txt设置权限,阻止Google或百度等搜索引擎索引那些动态网址,从而大大减少了网站重复页面,对SEO优化起到了很明显的作用。
robots.txt写法注意事项
- 如果你的站点对所有搜索引擎公开,则不用做这个文件或者robots.txt为空就行。
- robots.txt必须放置在一个站点的根目录下,在子目录下无效。如:通过http://yourdomain/robots.txt 可以成功访问到,则说明本站的放置正确。
- robots.txt,User-agent,Disallow等必须注意大小写,不能变化。
- User-agent,Disallow等后面的冒号必须是英文状态下的,冒号后面可以空一格,也可以不空格。
- User-agent表示搜索引擎spider:星号“*”代表所有spider,Google的spider是“Googlebot”,百度是“Baiduspider”。
- Disallow:表示不允许搜索引擎访问和索引的目录。至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写:Disallow: / (注:只是差一个斜
最简单开放的robots.txt写法
不作任何限制,Wordpress站内链接结构比较合理,作为一般博客,完全开放就可以了,代码:
User-agent: *
Disallow:
允许所有蜘蛛访问,允许访问所有内容。Wordpress只要模板中链接设计合理,没有需要限制的特殊内容,推荐使用这种写法。
最简单严格robots.txt写法
User-agent: *
Disallow: /wp-*
#Allow: /wp-content/uploads/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?s=
乐思蜀认为最合理的写法
User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: http://www.yoursite.com/sitemap.xml
允许所有搜索引擎抓取,逐一列举需要限制的目录,限制抓取搜索结果,并包含你的域名的sitemap.xml地址。
李是谁的写法
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-
Allow: /wp-content/uploads/
Disallow: /category/
Disallow: /date/
Disallow: /page/
Disallow: /tag/
Disallow: */trackback/
Disallow: */feed/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.cgi$
Disallow: /*?*
Disallow: /?s=
Sitemap: http://www.baibudu.com/sitemap.xml
# BEGIN XML-SITEMAP-PLUGIN
Sitemap: http://www.baibudu.com/sitemap.xml.gz
# END XML-SITEMAP-PLUGIN
其实robots.txt并没有固定格式,大家想怎么写就怎么写,每个人都有自己的经验和技巧,最主要就是要防止自己的隐私也被搜索引擎抓取了就好。
如果大家还想进一步了解,可以查看Google和百度对robots.txt文件的介绍: Google robotstxt,百度 robots.txt。
robots.txt协议并不是一个规范,而是很多搜索引擎约定俗成的,所以每个搜索引擎遵守robots.txt的方式也不一样,在你修改robots.txt文件时,可以用Google管理员工具检测一下robots.txt是否符合规范,登录后访问“工具 -> 分析 robots.txt”,检查文件有效性。
ps:不过,有些搜索引擎是不怎么遵循robots.txt的,例如百度。
以上“WordPress seo之robots.txt的写法”内容 转载自:稍有删节增减调整 可以前往这里围观之!
http://www.baibudu.com/wordpress-blog-and-its-pros-and-cons-of-writing-robotstxt/
有收获,原来robots.txt缺省是虚拟的啊,我说咋找不到文件呢。