今天无意间发现我的两个站点访問速度都非常缓慢登录后台看了 ECS 服务器才发现 CUP 的使用率经常达到 99-100%,看了日志才发现 yisouspider(一搜蜘蛛现在应该是属于神马的)蜘蛛正在疯狂爬行,就算是我在 robots.txt 设置了禁止爬行的路径也被爬行了如果是凌晨爬行就不说了,竟然是在大疯狂爬行分钟可以搞瘫我们的站点,度娘┅下发现有很多人都在吐槽这个
UC社区神马搜索中给出的解释:
robots.txt 是搜索引擎访问网站时要访问的第一个文件以确定哪些网页是允许或禁止抓取的。yisouspider遵守robots.txt协议如您希望完全禁止神马访问或对部分目录禁止访问,您可以通过 robots.txt 文件来设置内容限定
如果您开通了 CNZZ 云推荐服务,协議中默认支持 yisouspider 抓取会忽略 robots.tx 文件协议的限制。
robots.txt 必须放在网站根目录下且文件名要小写。
- #禁止指定 UA 及 UA 为空的访问
然后在网站相关配置中嘚
保存后,执行如下命令平滑重启 nginx 即可:
站点就是使用这个方法成功屏蔽爬虫 yisouspider 访问。设置好之后我的 ECS 服务器 CPU 的使用率立马就降下来了。
根据百度统计给出的数据我的站点来自神马搜索的不多,所以权衡之下只能禁止 yisouspider 蜘蛛爬行了要不然我的站点经常被它搞瘫了就得不償失了。如果你的服务器比较给力不会被搞瘫的话,就没必要禁止它了
PS:请允许我用小心之心揣测,以前使用虚拟主机每个月都会出現资源耗尽最大的问题很有可能就会被 yisouspider 蜘蛛爬行导致的。
修改网站目录下的.htaccess添加如下代码即可(2 种代码任选):
找到如下类似位置,根据以下代码 新增 / 修改然后重启 Apache 即可:
将如下方法放到贴到网站入口文件 index.php 中的第一个 <?php 之后即可:
下面是网络上常见的垃圾 UA 列表,仅供参考同时也欢迎你来补充。
我查了下Crawl-delay是搜索引擎爬虫的抓起延迟时間单位是秒,但这东西是雅虎搞出来的其他搜索引擎根本不支持,百度根本不支持