数据采集与处理的方法与装置制造方法及图纸

技术编号:21552011 阅读:25 留言:0更新日期:2019-07-07 00:06
本发明专利技术涉及网络数据管理领域,具体涉及一种数据采集与处理的方法与装置。针对现有网络信息采集与处理的整体处理速度和系统的整体稳定性不佳的问题,本发明专利技术提供的网络信息采集与处理的装置,由配置管理模块、实时数据采集模块、实时数据处理模块、数据缓冲模块、数据存储模块组成,具有松散耦合性,扩展性强,易维护。本发明专利技术提供的网络信息采集与处理的方法,实时数据采集模块采用分布式集群采集方案,通过配置策略将采集任务分发给N(N>1)个程序去执行,实时数据处理模块采用分布式流式计算框架,通过N(N>1)个程序来完成对大量采集数据的计算与处理,可以确保数据处理速度更快。

Method and Device of Data Acquisition and Processing

【技术实现步骤摘要】
数据采集与处理的方法与装置
本专利技术涉及网络数据管理领域,具体涉及一种数据采集与处理的方法与装置。
技术介绍
随着当前IT环境中服务器、应用数量和类型的不断地增加,各IT实验室需要通过科学和高效的手段尽可能详细、实时和准确地获取整个架构中具体到每个服务器、每个系统甚至每个应用程序工作的细节,并会对所获取到的原始数据进行分析、绘图和统计,为后续的性能调优、建构调整以及各类型排错建立参考依据,因此,数据来源非常多,类型也很多样,存储和数据处理的需求量很大,对数据展现的要求也非常高,注重数据处理的高效性和可用性是当前IT监控领域的典型特征。传统的数据采集来源单一,存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库处理。传统的数据采集和处理主要包括配置管理模块、数据采集与处理模块和数据存储模块,参见图1,配置管理模块主要负责采集项管理及任务调度管理,通过可视化管理界面,对采集项及采集任务进行配置与调度,并把调度指令发送到数据采集与处理模块中;数据采集与处理模块主要负责对采集代理进行管理,根据采集任务向采集代理分发采集指标,同时将采集的数据进行计算与处理;数据存储模块主要负责对采集项、任务调度信息、采集数据信息进行持久化存储。对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度一致性和容错性,难以保证其可用性和扩展性。传统的大数据处理方法以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,减少数据移动带来的开销。因此,传统的数据处理方法已经不能适应大数据的需求。
技术实现思路
本专利技术针对现有技术的不足,提供一种数据采集与处理的方法与装置。本专利技术提供的网络信息采集与处理的装置,由配置管理模块、实时数据缓冲模块、实时数据采集模块、实时数据处理模块和存储模块组成。配置管理模块主要对实验任务、设备的基本信息、采集项的配置和场景发现策略配置进行管理;实时数据缓冲模块主要对各模块的通讯消息进行存储与分发,采用消息中间件来处理各模块之间的消息通讯及数据的缓存;实时数据采集模块主要负责根据采集频率对网络空间环境下的主机/服务器、路由器、交换机和防火墙的设备信息进行实时采集,同时根据告警状态自动进行变频采集,该模块基于分布式服务框架完成实时数据的并行采集;实时数据处理模块主要负责对采集得到的数据进行计算和处理,通过设定的阀值或者振幅来区分采集的信息是处于正常、报警还是预警状态,实时数据处理模块基于分布式流式计算技术,对实时数据采集模块采集的信息进行并行处理;存储模块包括数据库服务,主要是对数据进行持久化存储。优选的,实时数据采集模块由采集任务监听子模块、配置与分发子模块、采集子模块组成。(1)采集任务子模块主要负责实时获取任务状态信息,并对任务进行调度;(2)配置与分发子模块主要负责对采集任务监听子模块和采集子模块的初始化注册配置,并根据调度任务将采集指标分发到各采集子模块中;(3)采集子模块由N(N>1)个采集程序组成,主要负责与网络设备进行通讯,根据采集指标完成采集任务,将获取的采集数据信息进行存储。本专利技术提供的网络信息采集与处理的方法,包括以下步骤:(1)配置管理模块向存储模块发送管理请求,管理请求包括信息管理、网络设备管理、采集项配置管理、发现策略配置管理等;配置管理模块与存储模块建立数据库连接,执行数据操作,数据操作包括数据增加、数据删除、数据修改和数据查询,配置管理模块通过存储模块的缓存接口访问缓存数据;配置管理模块接收存储模块的数据库服务器或者缓存服务器返回的数据信息或状态信息,同时对采集的数据信息和记录信息通过可视化浏览器界面进行可视化展示,完成管理操作。配置管理模块基于实时数据缓冲模块的API通讯接口,向实时数据缓冲模块发送任务调度请求,任务调度请求包括任务的停止、暂停或启动;(2)实时数据采集模块基于实时数据缓冲模块的API通讯接口接收任务调度请求,并根据任务调度请求进行操作,如果是暂停或停止,实时数据采集模块将暂停或停止采集任务;如果是启动,实时数据采集模块启动采集任务,根据采集频率将采集项进行分发,通过分布式集群采集技术,由N(N>1)个程序进行同步采集;实时数据采集模块通过实时数据缓冲模块的API通讯接口,将采集的数据进行缓存;(3)实时数据处理模块基于实时数据缓冲模块的API通讯接口从消息队列中实时获取网络设备采集信息,通过分布式流式计算框架,采用N(N>1)个程序对采集项进行计算与处理,根据配置策略对网络设备采集的信息进行验证并记录,并通过预先设定的阀值或者振幅来验证网络设备采集的信息;通过阀值验证得到网络设备报警信息,通过振幅验证得到网络设备预警信息;实时数据处理模块通过实时数据缓冲模块API通讯接口将记录存储到消息队列中;实时数据采集模块基于实时数据缓冲模块API通讯接口获取记录,并根据记录状态,自动改变采集频率对场景发生的采集项进行采集;实时数据采集模块将采集的数据通过实时数据缓冲模块API通讯接口将记录存储到消息队列中;实时数据处理模块基于实时数据缓冲模块的API通讯接口从消息队列中实时获取采集信息;通过分布式流式计算框架,采用N(N>1)个程序对采集项进行计算与处理;根据配置策略对网络设备采集的信息进行验证并记录,并通过设置的阀值和振幅来验证获取网络设备状态:a)在没有达到阀值或者振幅范围内信息属于正常信息,为了方便历史信息查询,将正常信息保存到数据库,b)通过阀值验证得到网络设备报警信息,报警信息一方面会在可视化界面提供消息提醒,一方面根据报警状态进行自动变频率采集,c)通过振幅范围验证得到网络设备预警信息;基于可视化浏览器界面时,将预警信息进行展示。网络设备状态信息记录通过数据库接口保存到数据库中;(4)配置管理模块向数据存储模块发送数据查询请求,查询请求包括网络设备基本信息、记录信息、恢复信息等;数据存储模块根据请求完成数据查询操作返回数据信息;并基于可视化浏览器界面,以列表、图形化形式进行可视化展示,完成数据操作。优选的,步骤(2)具体如下:(i)采集任务监听子模块初始化,将监听端注册信息提交到配置与分发子模块中进行服务注册;(ii)采集子模块初始化,将采集端注册信息提交到配置与分发子模块中进行服务注册;(iii)采集任务监听子模块实时监听网络消息,实时获取任务状态信息,并根据任务进行调度;(iv)配置与分发子模块一方面对注册信息进行管理,一方面通过负载与集群配置规则,将任务采集指标向N(N>1)个采集程序进行分发;(v)采集子模块根据SNMP协议,将下发的采集指标进行数据采集,并对采集的数据信息进行持久化存储。本专利技术提供的网络信息采集与处理的装置,是由配置管理模块、实时数据采集模块、实时数据处理模块、数据缓冲模块、数据存储模块组成,具有松散耦合性,扩展性强,易维护。本专利技术提供的网络信息采集与处理的方法,基于大数据框架的设计,实时数据采集模块采用分布式集群采集方案,通过配置策略将采集任务分发给N(N>1)个程序去执行,可以确保采集内容不重复、采集数据完整,采集性能达到秒级。实时数据处理模块采用分布式流式计算框架,通过N(N>1)个程序来完成对大量采集数据的计算与处理,可以确保数据处理速度更快本文档来自技高网...

【技术保护点】
1.一种网络信息采集与处理的装置,由配置管理模块、实时数据缓冲模块、实时数据 采集模块、实时数据处理模块和存储模块组成:配置管理模块主要对实验任务、设备的基本 信息、采集项的配置和场景发现策略配置进行管理;实时数据缓冲模块主要对各模块的通讯 消息进行存储与分发,采用消息中间件来处理各模块之间的消息通讯及数据的缓存;实时数 据采集模块主要负责根据采集频率对网络空间环境下的主机/服务器、路由器、交换机和防 火墙的设备信息进行实时采集,同时根据告警状态进行自动变频采集,实时数据采集模块基 于分布式服务框架完成实时数据的并行采集;实时数据处理模块主要负责采集数据的计算与 处理,通过设定的阀值或者振幅来区分采集的信息是处于正常、报警、预警状态,实时数据 处理模块基于分布式流式计算技术,对实时数据采集模块采集的信息进行并行处理;存储模 块包括数据库服务,主要是对数据进行持久化存储。

【技术特征摘要】
1.一种网络信息采集与处理的装置,由配置管理模块、实时数据缓冲模块、实时数据采集模块、实时数据处理模块和存储模块组成:配置管理模块主要对实验任务、设备的基本信息、采集项的配置和场景发现策略配置进行管理;实时数据缓冲模块主要对各模块的通讯消息进行存储与分发,采用消息中间件来处理各模块之间的消息通讯及数据的缓存;实时数据采集模块主要负责根据采集频率对网络空间环境下的主机/服务器、路由器、交换机和防火墙的设备信息进行实时采集,同时根据告警状态进行自动变频采集,实时数据采集模块基于分布式服务框架完成实时数据的并行采集;实时数据处理模块主要负责采集数据的计算与处理,通过设定的阀值或者振幅来区分采集的信息是处于正常、报警、预警状态,实时数据处理模块基于分布式流式计算技术,对实时数据采集模块采集的信息进行并行处理;存储模块包括数据库服务,主要是对数据进行持久化存储。2.根据权利要求1所述的网络信息采集与处理的装置,其特征是,所述实时数据采集模块由采集任务监听子模块、配置与分发子模块、采集子模块组成;采集任务子模块主要负现实时获取任务状态信息,并对任务进行调度,配置与分发子模块主要负责采集任务监听子模块和采集子模块初始化注册配置,并根据调度任务将采集指标分发到各采集子模块中,采集子模块由N(N>1)个采集程序组成,主要负责与网络设备进行通讯,根据采集指标完成采集任务,将获取的采集数据信息进行存储。3.一种网络信息采集与处理的方法,包括以下步骤:(1)配置管理模块向存储模块发送管理请求,管理请求包括实验场景信息管理、网络设备管理、采集项配置管理、实验场景发现策略配置管理等;配置管理模块与存储模块建立数据库连接,执行数据操作,数据操作包括数据增加、数据删除、数据修改和数据查询,配置管理模块通过存储模块的缓存接口访问缓存数据;配置管理模块接收存储模块的数据库服务器或者缓存服务器返回的数据信息或状态信息,同时对采集的数据信息和实验场景记录信息通过可视化浏览器界面进行可视化展示,完成管理操作;配置管理模块基于实时数据缓冲模块的API通讯接...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:天津创奇业网络技术有限公司
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1