不明爬虫大量占用服务器资源,3类爬虫3种策略

2019-11-09 19:07:49  19 浏览  0 评论   赞

搜索引擎的爬虫最好解决,效果最明显,在站长平台进行设置就可以了;链接分析的爬虫通常会遵守robots.txt协议;内容采集的爬虫最无耻,最难解决

不明爬虫大量占用服务器资源,3类爬虫3种策略

图414-1:加载中

网页打开缓慢,偶尔还会出现502错误,毫无疑问服务器的压力太大了,无法及时有效的返回用户的请求,在排除不是服务器配置不足的可能性外,可能就是短时间内访问量大量攀升。可能性当然是很多的了,比如DDOS攻击就是网络攻击的常见手段,今天我们仅仅讨论由于爬虫大量抓取页面内容导致的服务器资源被大量占用,下面分三种情况进行讨论。

搜索引擎的爬虫

搜索引擎的爬虫_不明爬虫大量占用服务器资源,3类爬虫3种策略

图414-2:各种蜘蛛

搜索引擎的爬虫都是经过全网实践后优化的产品,一般不会出现因为搜索引擎的爬虫大量抓取导致服务器资源被大量占用的情况,如果确实出现了这种情况,处理起来是很简单的。首先所有的搜索引擎爬虫都是举着身份牌进出网站的,只要根据爬虫的UA标识就可以判断是不是搜索引擎的爬虫,并且从UA标识中能够判断是哪一种搜索引擎,以及搜索引擎的哪一种爬虫。如果想进一步判断的话,可以根据爬虫的IP地址进行判断,一般来说搜索引擎是会在自己的官网中将爬虫的所有IP地址写出来,告诉站长遇到这些IP的访问请求不要拒绝,使得爬虫能够顺利的抓取页面的内容。

如果经过查看确实是搜索引擎的爬虫大量的占用了服务器的资源,可以采用下面的方法方法。每一个搜索引擎都会有一个站长平台,在站长平台中验证了自己的站点后,就可以在这个平台中看到网站的各种信息,其中有一个就是抓取的频率和抓取的耗时,从抓取的频率可以知道每天搜索引擎抓取了多少次,抓取的耗时可以判断页面打开的速度,很显然如果服务器反应缓慢,抓取耗时会很长。大部分的站长平台可以设置抓取的频率,如果觉得抓取频率太高可以调低。

上面的方法是最安全、最有效、副作用最小的方法,除了这些方法外还有一些方法,副作用就很大了。比如:制作蜘蛛陷阱,让蜘蛛进入到陷阱中,上当后蜘蛛就会跳出了,合理的设置蜘蛛陷阱,不要让真实的用户也进入到陷阱中;反馈大量的重复页面,多次抓取到相同的页面,蜘蛛也就会放弃抓取了,同样这些页面是针对搜索引擎蜘蛛的,不能让真实的用户收到。

链接分析的爬虫

链接分析的爬虫_不明爬虫大量占用服务器资源,3类爬虫3种策略

图414-3:蜘蛛

什么是链接分析爬虫,指的就是那些不是搜索引擎的站点,这些站点往往提供一些与网站有关的信息,为了提供这些信息,免不了需要不断的对网站的内容进行抓取,专门学习过SEO的人应该知道几个这样的网站。这些网站虽然不是搜索引擎,但是在抓取这个环节和搜索引擎是很像的,往往也是和搜索引擎的蜘蛛一样是举着身份牌进出网站的,判断这些爬虫也是很简单的,这些爬虫的UA也和搜索引擎的爬虫一样是有身份特征的,找出这些特殊的UA,在网上搜一搜就可以知道是什么网站的爬虫了。

如果你觉得某个爬虫大量占用了服务器的资源,并且你觉得自己的网站没有必要被这个爬虫抓取,那么可以在robots.txt协议中直接将这个爬虫进行禁用。一般来说,这些爬虫都还是会遵守robots.txt协议的,遇到个别不听话的爬虫可以直接将IP地址加入到服务器的黑名单,使他无法访问你的网站,返回结果永远都是404。

内容采集的爬虫

内容采集的爬虫_不明爬虫大量占用服务器资源,3类爬虫3种策略

图414-4:某内容采集软件

如果遇到内容采集的爬虫那就倒了大霉了,只能说你的网站内容质量太高了,被别人盯上了,别人觉得转载几篇文章都不过瘾,要进行自动化的大量采集。内容采集的爬虫显然就是在抄袭你网站的内容,对方自己很清楚是在做坏事,因此他们的爬虫通常会伪装为真实的用户,甚至伪装为搜索引擎的爬虫,正因为有不法分子会将自己伪装为搜索引擎的蜘蛛,因此搜索引擎才会在自己的官方网站将自己蜘蛛的IP公布出来,避免被误伤。

内容采集的爬虫可以分为两种类型,下面分别进行讨论。

1、服务端型。爬虫是通过服务器的脚本完成的,通常是站长的后台专门有内容采集的功能,进行相关设置后,输入单一网址或者多个网址,就可以将网页中的内容采集出来,并且添加到自己的网站中,很显然这种方法是最简单、最高效的,所以内容采集的爬虫最多的情况就是这一种。这一种爬虫通常IP地址是固定的,只要在自己的网站中将IP封禁就可以了,虽然对方站长可以修改服务器的IP地址,但是至少可以给对方造成麻烦,麻烦多了只要不是太过执着的站长,可能也就不会再盯着你的网站不放了。

2、客户端型。在站长的个人电脑上面安装一个计算机程序,利用这个计算机程序下载别人网站的内容,然后上传到自己的网站中。个人电脑的IP地址往往是可以改变的,重启一次光猫IP地址就可以改变,所以面对这种情况处理起来就比较麻烦。一个比较冒险的做法是禁用IP地址段,因为IP地址改变后,很多时候改变的只是最后一个地址,前面的是不变的,但是这样可能会造成同一段IP的其他用户也不能访问你的网站。

一般来说,搜索引擎的爬虫和链接分析的爬虫都不太可能会大量占用服务器的资源,因为这些爬虫都是正规的,都是经过长期、大量的实践后优化的结果,他们自己也不希望被站长们封禁。最可能占用服务器大量资源的爬虫是内容采集的爬虫,他们可不关心会不会占用你的服务器资源,他们考虑的就是花费最小的精力、最短的时间抓取到最多的内容。

转载请注明:网创网 www.netcyw.cn/b414.html

赞 ()
发表评论
  • 昵称
  • 网址
(0) 个小伙伴发表了自己的观点
    暂无评论

Copyright © 2018-2019 小王子工作室 版权所有 滇ICP备14007766号-3 邮箱:yangzy187@126.com