一种数据采集方法、装置和系统制造方法及图纸

技术编号:20724117 阅读:30 留言:0更新日期:2019-03-30 17:31
本发明专利技术实施例公开了一种数据采集方法、装置和系统,数据采集系统中包括主节点,多个子节点,以及数据库,主节点可以根据数据采集任务生成多个子任务,由于具有与主节点和多个子节点均相连的数据库,故主节点并不需要与子节点建立连接以便实时监控各个子节点的负载情况,而可以只需将生成的子任务以及数据采集任务对应的待采集目标队列保存到与子节点相连的该数据库中,子节点可以主动从该数据库中获取未处理的子任务进行处理,可见通过设置的数据库,解除了主节点和子节点之间的耦合,主节点不再需要消耗额外的系统资源来监控各个子节点的负载状态以及维护连接,降低了主节点的负担。

【技术实现步骤摘要】
一种数据采集方法、装置和系统
本专利技术涉及数据处理领域,特别是涉及一种数据采集方法、装置和系统。
技术介绍
目前很多数据处理、数据分析任务都需要依据通过在网络中采集的相关信息实现,对互联网数据进行采集需要通过特定的方式,例如网络爬虫就属于进行互联网数据采集的一种常用技术。用于进行互联网数据采集的分布式数据采集系统一般包括多台服务器,服务器之间采用的是主从式的架构方式,作为主节点的服务器与多台作为子节点的服务器之间需要保持心跳连接,通过心跳连接所传输的信息,主节点可以明确子节点的负载情况,当需要执行数据采集任务时,主节点可以选择负载较轻的子节点来处理。但是,为了维持数据采集系统,主节点需要消耗大量系统资源来实时监控各个子节点的负载情况以及维护与子节点之间的连接,导致主节点的负担过重。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种数据采集方法、装置和系统,主节点不再需要消耗额外的系统资源来监控各个子节点的负载状态以及维护连接,降低了主节点的负担。本专利技术实施例公开了如下技术方案:第一方面,本专利技术实施例提供了一种数据采集方法,应用于数据采集系统,所述数据采集系统包括主节点,本文档来自技高网...

【技术保护点】
1.一种数据采集方法,其特征在于,应用于数据采集系统,所述数据采集系统包括主节点,多个子节点,以及数据库,所述主节点和所述多个子节点均与所述数据库通信连接,所述方法包括:所述主节点根据数据采集任务生成多个子任务;所述主节点将所述多个子任务以及所述数据采集任务对应的待采集目标队列存储至所述数据库中,以便所述多个子节点从所述数据库获取子任务及其对应的目标对象进行数据采集;其中,所述待采集目标队列中记录有待采集数据对应的目标对象。

【技术特征摘要】
1.一种数据采集方法,其特征在于,应用于数据采集系统,所述数据采集系统包括主节点,多个子节点,以及数据库,所述主节点和所述多个子节点均与所述数据库通信连接,所述方法包括:所述主节点根据数据采集任务生成多个子任务;所述主节点将所述多个子任务以及所述数据采集任务对应的待采集目标队列存储至所述数据库中,以便所述多个子节点从所述数据库获取子任务及其对应的目标对象进行数据采集;其中,所述待采集目标队列中记录有待采集数据对应的目标对象。2.根据权利要求1所述的方法,其特征在于,还包括:所述主节点从所述数据库读取所述多个子任务被子节点处理的处理记录。3.根据权利要求1或2所述的方法,其特征在于,所述待采集目标队列包括待采集统一资源定位符URL队列,所述待采集URL队列中包括需要被采集数据的URL地址。4.根据权利要求1或2所述的方法,其特征在于,存储在所述数据库的所述多个子任务具有与用户标识之间的对应关系,所述用户标识是发送所述数据采集参数的用户的标识。5.一种数据采集装置,其特征在于,应用于数据采集系统,所述数据采集系统包括主节点,多个子节点,以及数据库,所述主节点和所述多个子节点均与所述数据库通信连接,所述装置包括生成单元和存储单元:所述生成单元,用于所述主节点根据数据采集任务生成多个子任务;所述存储单元,用于所述主节点将所述多个子任务以及所述数据采集任务对应的待采集目标队列存储至所述数据库中,以便所述多个子节点从所述数据库获取子任务及其对应的目标对象进行数据采集;其中,所述待采集目标队列中记录有待采集数据对应的目标对象。6.根据权利要求5所述的装置,其特征在于,还包括读取单元:所述读取单元,用于所述主节点从所述数据库读取所述多个子任务被子节点处理的处理记录。7.根据权利要求5或6所述的装置,其特征在于,所述待采集目标队列包括待采集统一资源定位符URL队列,所述待采集URL队列中包括需要被采集数据的URL地址。8.根据权利要求5或6所述的装置,其特征在于,存储在所述数据库的所述多个子任务具有与用户标识之间的对应关系,所述用户标识是发送所述数据采集参数的用户的标识。9.一种数据采集方法,其特征在于,应用于数据采集系统,所述数据采集系统包括主节点,多个子节点以及数据库,所述主节点和所述多个子节点均与所述数据库通信连接,目标子节点为所述多个子节点中的任意一个,所述方法包括:所述目标子节点从所述数据库中获取子任务,所述子任务为根据数据采集任务生成的多个子任务中未被处理的一个;所述目...

【专利技术属性】
技术研发人员:熊罗凯
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1