【技术实现步骤摘要】
基于协调服务的分布式互联的数据采集方法与装置
本申请涉及数据挖掘,具体而言,涉及一种基于协调服务的分布式互联的数据采集方法、装置、存储介质与处理器。
技术介绍
目前,网络上流行的开源采集程序如webmagic,nutche等,对分布式的支持不足,采集策略较为复杂,数据采集复杂度高,效率低;采集需要进行编码,非开发人员无法使用;没有统一的管理监控平台,对采集程序无法进行管理监控;目前大部分分布式爬虫基于消息队列创建,爬虫功能不统一,无法管理定向采集程序;无法动态控制采集程序,人工成本高。在
技术介绍
部分中公开的以上信息只是用来加强对本文所描述技术的
技术介绍
的理解,因此,
技术介绍
中可能包含某些信息,这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。
技术实现思路
本申请的主要目的在于提供一种基于协调服务的分布式互联的数据采集方法、装置、存储介质与处理器,以解决现有技术中开源采集程序数据采集效率较低的问题。为了实现上述目的,根据本申请的一个方面,提供了一种基于协调服务的分布式互联的数据采 ...
【技术保护点】
1.一种基于协调服务的分布式互联的数据采集方法,其特征在于,包括:/n确定采集数据的类型;/n根据所述采集数据的类型配置采集规则;/n根据所述采集规则确定采集程序;/n根据所述采集规则和确定的所述采集程序采集数据。/n
【技术特征摘要】
1.一种基于协调服务的分布式互联的数据采集方法,其特征在于,包括:
确定采集数据的类型;
根据所述采集数据的类型配置采集规则;
根据所述采集规则确定采集程序;
根据所述采集规则和确定的所述采集程序采集数据。
2.根据权利要求1所述的方法,其特征在于,确定采集数据的类型之前,所述采集方法还包括:
启动协调服务,所述协调服务用于管理所述采集程序的采集配置信息以及所述采集程序的采集状态信息;
启动任务管理、采集管理、配置管理,所述配置管理包括配置规则;
根据所述配置规则,启动数据采集。
3.根据权利要求2所述的方法,其特征在于,所述任务管理包括任务列表,所述采集管理还包括服务器配置,所述配置管理包括代理配置和请求配置。
4.根据权利要求2所述的方法,其特征在于,所述协调服务管理所述采集状态信息,包括:
所述数据采集在启动时会向zookeeper提交所述数据采集所用的采集程序所在主机的ip地址信息以及程序监听的端口号信息;
将所述ip地址信息和所述端口号信息注册为临时节点,在注册服务与所述zookeeper连接中断时所述临时节点消失,以监控所述采集程序的采集状态信息。
5.根据权利要求4所述的方法,其特征在于,所述启动协调服务,还包括:所述采集程序提供所述采集状态信息的查询接口,以查询所述程序所在服务器的cpu以及内存。
6.根据权利要求3所述的方法,其特征在于,在根据所述采集规则和确定的所述采集程序采集数据之后,所述采集方法还包括:
采集服从所述协调服务中获取分配到的所述采集...
【专利技术属性】
技术研发人员:张炎红,贠瑞峰,刘彬彬,刘粉香,彭翔,
申请(专利权)人:智慧神州北京科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。