【技术实现步骤摘要】
一种提高爬虫效率的方法、设备及介质
本专利技术涉及数据处理领域,更具体地,特别是指一种提高爬虫效率的方法、设备及可读介质。
技术介绍
网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。为提高工作效率,网络爬虫会采取一定的爬行策略。并行爬虫是并行运行多个进程的爬虫,能有效的提高工作效率。它的目标是最大化下载的速度,同时尽量减少并行的开销和下载重复的页面。爬虫获取指定信息的方法是正则表达式,正则匹配就是构造正则表达式,对字符串进行过滤。目前各类爬虫通过优化正则表达式、多线程并行运行爬虫、分布式爬虫等提高爬虫效率。但是,当爬虫获取信息的下载速度远大于根据正则表达式解析获取的内容的解析速度时,上述方法并不能有效提高爬虫的效率。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提出一种提高爬虫效率的方法、设备及介质,通过利用存储设备将网络下载和内容解析进行解耦,并将内容解析分成多次,有效节省了运行的时间,在下载速度远大于解析速度的情况下能够有效提高爬虫运行的效率。基于上述目的,本专利技术 ...
【技术保护点】
1.一种提高爬虫效率的方法,其特征在于,包括以下步骤:/n获取爬虫向网站发送请求后返回的响应信息;/n根据第一过滤规则对所述响应信息进行解析并过滤,以使得解析速度能够匹配获取所述响应信息的下载速度;/n将过滤后的响应信息下载到数据库;以及/n根据第二过滤规则对所述数据库中的响应信息进行解析并过滤。/n
【技术特征摘要】
1.一种提高爬虫效率的方法,其特征在于,包括以下步骤:
获取爬虫向网站发送请求后返回的响应信息;
根据第一过滤规则对所述响应信息进行解析并过滤,以使得解析速度能够匹配获取所述响应信息的下载速度;
将过滤后的响应信息下载到数据库;以及
根据第二过滤规则对所述数据库中的响应信息进行解析并过滤。
2.根据权利要求1所述的方法,其特征在于,所述根据第一过滤规则对所述响应信息进行解析并过滤还包括:
根据所述下载速度的变化动态调整所述第一过滤规则。
3.根据权利要求2所述的方法,其特征在于,所述根据所述下载速度的变化动态调整所述第一过滤规则还包括:
判断所述下载速度和所述解析速度的差值是否超过阈值。
4.根据权利要求1所述的方法,其特征在于,所述根据第一过滤规则对所述响应信息进行解析并过滤还包括:
根据解析出的内容中包括的新URL地址向相应的网站发送请求。
5.根据权利要求1所述的方法,其特征在于,还包括:
将根据第二过滤规则过滤后的响应信息存储到第二数据库。
6.一种计算机设备,其特征在于,包括:
至少一个处理器;以及
存...
【专利技术属性】
技术研发人员:马玉斌,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。