一种分布式的自动化采集的方法技术

技术编号:11616657 阅读:102 留言:0更新日期:2015-06-17 16:13
本发明专利技术公开了一种分布式的自动化采集的方法,该方法的步骤如下:将单机采集程序部署到各个服务器上;将其中一台服务器做为控制其它服务器的管理服务器,配置其它服务器地址;将要采集的地址,放入管理服务器数据库中,进行任务分配;管理服务器通过爬虫技术操作采集服务器的采集程序,采集什么类型的数据,都由管理服务器进行控制;将每月固定时间采集的工作,配置到管理服务器的数据库中,并设置定时任务;通过监控服务器系统,判断服务器的采集情况,将非正常采集的服务器信息发送给管理员,并将采集任务平均分配到其它空闲服务器。本发明专利技术可以避免整个系统崩溃的危险;减少了人力维护,并通过监控服务器系统,判断子节点的采集情况。

【技术实现步骤摘要】
【专利说明】
本专利技术涉及计算机数据处理
,具体地说是。
技术介绍
现实中,每时每刻都产生大量的数据,有些需要分析,有些需要存储,所有的这些需要处理的数据数量是庞大,具有相似性的,所以需要对这些大数据进行分析处理,提取需要的数据。数据采集需要数据是有相似性的,以便可以根据他们的规律提取相应的数据,采集的数据还要有采集提取的价值或用途。数据采集要具备采集的方法或方案,可以有计划和步骤进行采集,要具备采集的条件,比如设备和技术。面对几十台、上百台的服务器,如果采集人员每次都要进入服务器进行配置采集任务,操作采集程序,会面临很多问题: O维护量大,远程连接、重复性的配置,采集等。2)浪费服务器资源,不能充分利用每台服务器资源,由于人工不能及时发现服务器采集是否完成,所以不能及时执行下一步程序。3)错误率增加,由于人工需要大量的操作,配置信息的错误率也会增加。4)数据量大,采集类型、采集配置各不相同。不同的网站的数据显示方式不同,需要不同的配置方法。
技术实现思路
本专利技术的技术任务是提供。本专利技术的技术任务是按以下方式实现的,该方法的步骤如下: 步骤1:将单机采集程序部署到各个服务器上; 步骤2:将其中一台服务器做为控制其它服务器的管理服务器,配置其它服务器地址; 步骤3:将要采集的地址,放入管理服务器数据库中,进行任务分配; 步骤4:管理服务器通过爬虫技术操作采集服务器的采集程序,采集什么类型的数据,什么时候采集,什么时候结束,都由管理服务器进行控制;步骤5:将每月固定时间采集的工作,配置到管理服务器的数据库中,并设置定时任务; 步骤6:通过监控服务器系统,判断服务器的采集情况,将非正常采集的服务器信息发送给管理员,并将采集任务平均分配到其它空闲服务器。所述的步骤3中,进行任务分配是通过管理服务器根据各个服务器的采集速度决定的。所述的步骤6中将非正常采集的服务器信息通过邮件方式发送给管理员。本专利技术的和现有技术相比,能够平衡每台服务器的采集压力,提高效率。可以避免由于单个节点失效而使整个系统崩溃的危险。减少了人力维护,将配置好的采集内容由管理服务器分配任务,并通过监控服务器系统,判断子节点的采集情况。【附图说明】附图1为的流程框图。【具体实施方式】实施例1: 该方法的步骤如下: 步骤1:将单机采集程序部署到各个服务器上; 步骤2:将其中一台服务器做为控制其它服务器的管理服务器,配置其它服务器地址;步骤3:将要采集的地址,放入管理服务器数据库中,由管理服务器根据各个服务器采集速度,进行任务分配; 步骤4:管理服务器通过爬虫技术操作采集服务器的采集程序,采集什么类型的数据,什么时候采集,什么时候结束,都由管理服务器进行控制; 步骤5:将每月固定时间采集的工作,配置到管理服务器的数据库中,并设置定时任务; 步骤6:通过监控服务器系统,判断服务器的采集情况,将非正常采集的服务器信息通过邮件方式发送给管理员,并将采集任务平均分配到其它空闲服务器。实施例2: 每次的采集任务不一样,采集时间不一样,子节点地址的变化;通过以下步骤搭建平台: I)将单机采集程序部署到子节点上,启动采集程序。2)在管理服务器上配置好采集节点的地址,并测试通过。3)调用监控服务器系统的接口。4)部署数据节点。5)配置采集任务,测试通过。将部署在多台服务器上的单机采集程序进行统一管理,通过发送/接收消息的方式,分配和接收采集任务。平衡每台服务器的采集压力,将负载由单个节点转移到多个,从而提高效率。可以避免由于单个节点失效而使整个系统崩溃的危险。减少了人力维护,将配置好的采集内容由管理服务器分配任务,并通过监控服务器系统,判断子节点的采集情况。采用观察者模式,通过后台的管理,服务器根据后台设置的方案进行数据采集任务,并反馈给后台服务器的状态,实现对服务器的管理。通过上面【具体实施方式】,所述
的技术人员可容易的实现本专利技术。但是应当理解,本专利技术并不限于上述的几种【具体实施方式】。在公开的实施方式的基础上,所述
的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。【主权项】1.,其特征在于,该方法的步骤如下: 步骤1:将单机采集程序部署到各个服务器上; 步骤2:将其中一台服务器做为控制其它服务器的管理服务器,配置其它服务器地址; 步骤3:将要采集的地址,放入管理服务器数据库中,进行任务分配; 步骤4:管理服务器通过爬虫技术操作采集服务器的采集程序,采集什么类型的数据,什么时候采集,什么时候结束,都由管理服务器进行控制; 步骤5:将每月固定时间采集的工作,配置到管理服务器的数据库中,并设置定时任务; 步骤6:通过监控服务器系统,判断服务器的采集情况,将非正常采集的服务器信息发送给管理员,并将采集任务平均分配到其它空闲服务器。2.述的步骤3中,进行任务分配是通过管理服务器根据各个服务器的采集速度决定的。3.根据权利要求1所述的,其特征在于,所述的步骤6中将非正常采集的服务器信息通过邮件方式发送给管理员。【专利摘要】本专利技术公开了,该方法的步骤如下:将单机采集程序部署到各个服务器上;将其中一台服务器做为控制其它服务器的管理服务器,配置其它服务器地址;将要采集的地址,放入管理服务器数据库中,进行任务分配;管理服务器通过爬虫技术操作采集服务器的采集程序,采集什么类型的数据,都由管理服务器进行控制;将每月固定时间采集的工作,配置到管理服务器的数据库中,并设置定时任务;通过监控服务器系统,判断服务器的采集情况,将非正常采集的服务器信息发送给管理员,并将采集任务平均分配到其它空闲服务器。本专利技术可以避免整个系统崩溃的危险;减少了人力维护,并通过监控服务器系统,判断子节点的采集情况。【IPC分类】G06F11-30【公开号】CN104714875【申请号】CN201510106013【专利技术人】孙海峰, 王传超, 徐宏伟 【申请人】浪潮集团有限公司【公开日】2015年6月17日【申请日】2015年3月11日本文档来自技高网
...

【技术保护点】
一种分布式的自动化采集的方法,其特征在于,该方法的步骤如下:步骤1:将单机采集程序部署到各个服务器上;步骤2:将其中一台服务器做为控制其它服务器的管理服务器,配置其它服务器地址;步骤3: 将要采集的地址,放入管理服务器数据库中,进行任务分配;步骤4:管理服务器通过爬虫技术操作采集服务器的采集程序,采集什么类型的数据,什么时候采集,什么时候结束,都由管理服务器进行控制;步骤5:将每月固定时间采集的工作,配置到管理服务器的数据库中,并设置定时任务;步骤6:通过监控服务器系统,判断服务器的采集情况,将非正常采集的服务器信息发送给管理员,并将采集任务平均分配到其它空闲服务器。

【技术特征摘要】

【专利技术属性】
技术研发人员:孙海峰王传超徐宏伟
申请(专利权)人:浪潮集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1