如何屏蔽掉搜狗蜘蛛
如果有一天,你突然发现自己的网站打开的时候,提示说数据库连接不上了,但是访问统计显示访客并没有明显的增长,近期也没有新增什么占用cpu比较大的插件,主机商的服务器也没有什么问题,自己的数据库信息也正确,那么很有可能是一些搜索引擎的蜘蛛访问和抓取过于频繁导致网站的cpu超标,并发数也达到了最大,因此主机商采用了零时限制的方法,通常会偶尔断开一下,如果遇到搜狗这样的蜘蛛频繁的光顾,那么很可能网站就基本打不开了。我就试过两次,第一次已经用robots.txt来限制搜狗蜘蛛的抓取了,也屏蔽掉了搜狗蜘蛛的一些ip!
我试过用robots.txt来限制搜狗蜘蛛的网站的抓取,也不是说搜狗不抓取,但是要过一段时间,网站就会不收录了,但是再过一段时间,搜狗的蜘蛛就会重来(刚检查了一下,是我后来又让搜狗爬的,错怪搜狗了),有一度我的网站就被搜狗的蜘蛛爬得宕机了.无奈之下, 只好手动把搜狗蜘蛛的ip屏蔽掉了.
一、使用robots.txt:
User-agent: Sogou web spider/4.0
Disallow: /
把以上这段规则加到你的网站robots.txt文件当中!不过搜狗蜘蛛需要一段时间才会不再抓取!
二、屏蔽掉搜狗蜘蛛的ip是最快的方法 ip拒绝器!
不过由于搜狗蜘蛛的ip挺多的,因此估计要连续多天登录后台查看,继续添加新的搜狗蜘蛛ip!
由于我的网站本身从搜狗来的流量基本没有(收录和排名都很好,奈何用的人少啊)
如图,是各大搜索引擎蜘蛛访问我的网站的数据(不是何苦呢这个站):(是某日志分析工具的截图)
可以看到,搜狗蜘蛛实在是太疯狂了!root.txt的限制方式,这里就不介绍了,对于搜狗这个流氓不管用。
我们可以使用主机后台的ip拒绝器!不过,由于搜狗的蜘蛛ip众多,我已经做好了和这个流氓打持久战的准备!
如果你使用的是cpanel主机面板,那么登录主机面板之后,如图:找到ip拒绝管理器
这里就可以添加拒绝的ip了!(也可以使ip段)
对了,怎么知道每天都有哪些搜狗蜘蛛疯狂访问你的网站呢? 还是登录你的主机后台,找到如图的“原始访问日志”
点击进去,下载访问日记文件,使用访问日志分析工具就可以知道了!
以下是我目前屏蔽掉的一些搜狗蜘蛛的ip:
220.181.89.190
220.181.89.189
218.30.103.155
61.135.189.75
220.181.94.228
61.135.189.74
220.181.89.157
220.181.89.165
220.181.89.183
220.181.89.194
218.30.103.80
以上是如何屏蔽掉搜狗蜘蛛全文