【技术实现步骤摘要】
分布式爬虫实现方法和装置
本专利技术涉及爬虫应用
,尤其是涉及一种分布式爬虫实现方法和装置。
技术介绍
通用网络爬虫是搜索引擎抓取系统的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。通用网络爬虫从互联网中搜集网页、采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。当前开源的爬虫管理平台主要是实现部署功能,如利用开发语言python语言写的爬虫监控SpiderKeeper,爬虫管理平台crawlab等。当爬取任务较大时,分布式部署可以明显的提高爬取速度,他们更多实现的是基于web页面去部署爬虫,点击启动,停止等去管理爬虫。但专利技术人经研究发现,当某个网站反爬策略变更时,爬虫总是爬取失败,页面上爬虫的状态会更新为退出,并不会及时通知爬虫的维护者,对一些数据实时性要求较高的任务来说,这样显然具有较大的不利影响。
技术实现思路
本专利技术的目的在于提供一种分布式爬 ...
【技术保护点】
1.一种分布式爬虫实现方法,其特征在于,所述方法包括:/n创建爬虫任务,并根据所述爬虫任务中的采集任务和解析任务分别确定对应分布的部署节点,其中,所述爬虫任务包括至少一个;/n启动所述爬虫任务,基于预先确定的警告规则和质量检测规则分别对所述采集任务和所述解析任务进行监控;/n若监控状态异常,则发出警告,并重新对所述爬虫任务进行分布部署;/n若监控状态正常,则持续运行所述爬虫任务,并将爬取数据写入数据库。/n
【技术特征摘要】
1.一种分布式爬虫实现方法,其特征在于,所述方法包括:
创建爬虫任务,并根据所述爬虫任务中的采集任务和解析任务分别确定对应分布的部署节点,其中,所述爬虫任务包括至少一个;
启动所述爬虫任务,基于预先确定的警告规则和质量检测规则分别对所述采集任务和所述解析任务进行监控;
若监控状态异常,则发出警告,并重新对所述爬虫任务进行分布部署;
若监控状态正常,则持续运行所述爬虫任务,并将爬取数据写入数据库。
2.根据权利要求1所述的分布式爬虫实现方法,其特征在于,所述方法还包括:
根据所述数据库统计爬取数量和爬取速度,并进行可视化展示。
3.根据权利要求1所述的分布式爬虫实现方法,其特征在于,根据所述爬虫任务中的采集任务和解析任务分别确定对应分布的部署节点的步骤,包括:
确定所述爬虫任务的任务类型;
将所述爬虫任务中IO密集型的采集任务分布式部署在采集器的多个节点,将所述爬虫任务中CPU密集型的解析任务分布式部署在解析器的多个节点,其中,每个所述节点共享消息队列中的任务信息。
4.根据权利要求1所述的分布式爬虫实现方法,其特征在于,基于预先确定的警告规则和质量检测规则分别对所述采集任务和所述解析任务进行监控的步骤,包括:
基于预先确定的警告规则和质量检测规则对所述采集任务的状态进行监控;
或者,
基于预先确定的警告规则和质量检测规则对所述解析任务的状态进行监控;
或者,
基于预先确定的警告规则和质量检测规则对所述采集任务和所述解析任务的状态进行监控。
5.根据权利要求4所述的分布式爬虫实现方法,其特征在于,基于...
【专利技术属性】
技术研发人员:任亮,傅雨梅,徐林,文齐辉,
申请(专利权)人:北京知因智慧科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。