一种分布式处理环境下的集中式数据质量监测方法技术

技术编号:29618146 阅读:11 留言:0更新日期:2021-08-10 18:38
本发明专利技术提出了一种分布式处理环境下的集中式数据质量监测方法,本申请涉及一种数据质量监测方法,尤其涉及一种分布式处理环境下的集中式数据质量监测方法,属于数据分析技术领域。根据实际监测需要配置待监测的数据灵活配置监测规则,对待监测数据进行监测,数据质量监测服务获取待监测数据后,把待监测数据集进行分块,让多个计算节点对分布式内存上的数据同时根据配置并行计算,然后将对多个计算节点上的计算结果进行汇总后生成监测结果,生成数据质量监测报告,从而辅助运维人员快速发现数据质量问题进而跟踪解决,以此提升实时数据中心平台的数据质量;解决了现有技术中存在的数据质量监测方法配置不灵活且不利于管理的技术问题。

【技术实现步骤摘要】
一种分布式处理环境下的集中式数据质量监测方法
本申请涉及一种数据质量监测方法,尤其涉及一种分布式处理环境下的集中式数据质量监测方法,属于数据分析

技术介绍
随着网络技术的日益发展和网络应用的日渐广泛,维护和保障网络安全的重要性愈发凸显。而在网络安全分析工作过程中,相关数据的支撑性和重要性不言而喻。而分析工作得到结论的有效性和准确性则全都取决与所要分析挖掘的数据是否是高质量的,一个低质量的数据不仅无法体现数据价值,而且可能会使分析结果与实际情况背道而驰。因此必须保证支撑业务分析工作相关数据的数据质量,保证数据的完整性、正确性、一致性和可靠性,为实际网络安全分析工作提供可信的数据环境。然而,实际工作中使用的数据是从多个业务系统中集成产生的,这些系统搭建时间不同,数据库设计也为遵循统一的标准,往往存在不良的数据库模式设计,例如缺少完整性约束和缺少正确的数据检验逻辑等情况,使得积累的业务数据存在大量的质量问题,在对于这些异构数据进行集成时难以在源头控制数据质量,容易出现脏数据。同时集成过来的多种数据往往需要通过各种复杂的分析过程后才能产生对实际工作具有支撑价值的结果数据,而分析过程主要是在后台进行,对于使用者来说并不透明,分析结果的准确性也难以进行验证。因此需要一种数据质量监控手段来对多源异构数据和多分析过程结果数据进行验证,以保证最后的数据是正确的、可靠的、能准确地反映客观现实的高质量数据。现有的数据质量监测一般是预设数据监测埋点获取待监测数据,然后把待监测数据存储到关系型数据库中,然后使用SQL语句进行质量检测完成数据质量监测任务。这种数据质量监测方法配置不灵活且不利于管理,同时在数据量过大时,容易出现数据库宕机或者检测超时等问题。
技术实现思路
为解决现有技术中存在的数据质量监测方法配置不灵活且不利于管理的技术问题,本专利技术提供了一种分布式处理环境下的集中式数据质量监测方法,根据实际监测需要配置待监测的数据灵活配置监测规则,通过数据质量监测服务获取待监测数据后,让多个计算节点对分布式内存上的数据同时根据配置并行计算,然后将对多个计算节点上的计算结果进行汇总后生成监测结果,从而辅助运维人员快速发现数据质量问题进而跟踪解决,以此提升实时数据中心平台的数据质量,为实时数据业务应用提供更好的支撑,提高实时数据中心的数据质量,弥补了现有技术的不足。一种分布式处理环境下的集中式数据质量监测方法,包括以下步骤:S110.根据实际监测需要配置待监测数据的监测规则组合;S120.初始化分布式服务器下的集中式数据质量监测服务;S130.数据质量监测服务获取待监测数据;S140.数据质量监测服务读取配置好的规则内容对数据进行动态监测,按照监测结果生成数据质量监测记录。优选的,步骤S110所述根据实际监测需要配置待监测数据的监测规则组合具体包括以下步骤:S210.按照待监测数据配置质量监测任务;S220.按照待监测的数据字段内容配置字段监测规则;S230.按照待监测数据的数据处理过程配置数据检测运算规则;S240.按照待监测数据配置数据监测预警阈值。优选的,步骤S120所述初始化分布式服务器下的集中式数据质量监测服务具体包括以下步骤:S310.创建数据采集服务,数据采集服务用于收集待监测数据;S320.创建数据质量监测服务,数据质量监测服务用于读取配置规则对待监测数据进行监测;S330.创建监测预警服务,监测预警服务用于在数据质量监测过程中数据问题数量超过阈值后发出预警信息。优选的,步骤S130所述数据质量监测服务获取待监测数据具体通过主动和被动两种方式获取。优选的,步骤S130所述被动获取待监测数据的具体方法是,通过数据质量监测服务提供的统一接口被动获取待监测数据;步骤S130所述主动获取待监测数据的具体方法是,通过数据采集服务主动对数据存储中的待监测数据进行实时获取或者离线获取。优选的,步骤S140所述数据质量监测服务读取配置好的规则内容对数据进行动态监测,按照监测结果生成数据质量监测记录具体包括以下步骤:S410.把待监测数据集进行分块,并按照服务器负载分配到多个计算节点进行分析;S420.各个计算节点对待监测数据按照预先配置的监测规则进行监测生成各自的监测结果;S430.整合各节点的监测结果得到最终的监测结果集,生成数据质量监测报告。优选的,步骤S410所述按照服务器负载分配到多个计算节点进行分析具体包括,每条数据字段的质量分析、数据处理过程的数据质量分析;所述数据处理过程的数据质量分析包括,一致性检测、完整性检测、格式化检测以及数据重复性检测。优选的,步骤S210所述按照待监测数据配置质量监测任务具体包括,按照实际监测需要配置定时执行监测任务、实时执行监测任务;步骤S220所述按照待监测的数据字段内容配置字段监测规则具体包括,空值检测、值域检查、字符串长度检查、日期格式校验、IP地址校验、域名校验、邮箱检查、字符串正则检查、数字格式检查,或者进行自定义规则对字段内容进行校验。步骤S230所述按照待监测数据的数据处理过程配置数据检测运算规则具体包括,求和运算检测、最值运算检测、平均值运算、分组运算检,或者进行自定义规则对字段内容进行校验。优选的,步骤S310所述创建数据采集服务,用于收集待监测数据的获取方式包括,实时数据获取和离线数据获取两种;所述实时数据获取包括直连数据库查询、调用API接口获取;所述离线数据获取是通过对离线数据文件进行读取后实现。优选的,步骤S330所述在数据监测过程中数据问题数量超过阈值后发出预警信息时,同时保存相关的错误数据。本专利技术的有益效果如下:一种分布式处理环境下的集中式数据质量监测方法,根据实际监测需要配置待监测的数据灵活配置监测规则,通过数据质量监测服务获取待监测数据后,让多个计算节点对分布式内存上的数据同时根据配置并行计算,然后将对多个计算节点上的计算结果进行汇总后生成监测结果,从而辅助运维人员快速发现数据质量问题进而跟踪解决,以此提升实时数据中心平台的数据质量,为实时数据业务应用提供更好的支撑,提高实时数据中心的数据质量。解决了现有技术中存在的数据质量监测方法配置不灵活且不利于管理的技术问题。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本专利技术所述的数据质量监测方法流程示意图;图2为本专利技术所述的数据质量监测方法中配置数据监测规则的流程示意图;图3为本专利技术所述的数据质量监测方法中初始化数据质量监测服务的流程示意图;图4为本专利技术所述的数据质量监测方法中数据动态监测流程示意图。具体实施方式为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说本文档来自技高网
...

【技术保护点】
1.一种分布式处理环境下的集中式数据质量监测方法,其特征在于,包括以下步骤:/nS110.根据实际监测需要配置待监测数据的监测规则组合;/nS120.初始化分布式服务器下的集中式数据质量监测服务;/nS130.数据质量监测服务获取待监测数据;/nS140.数据质量监测服务读取配置好的规则内容对数据进行动态监测,按照监测结果生成数据质量监测记录。/n

【技术特征摘要】
1.一种分布式处理环境下的集中式数据质量监测方法,其特征在于,包括以下步骤:
S110.根据实际监测需要配置待监测数据的监测规则组合;
S120.初始化分布式服务器下的集中式数据质量监测服务;
S130.数据质量监测服务获取待监测数据;
S140.数据质量监测服务读取配置好的规则内容对数据进行动态监测,按照监测结果生成数据质量监测记录。


2.根据权利要求1所述的方法,其特征在于,步骤S110所述根据实际监测需要配置待监测数据的监测规则组合具体包括以下步骤:
S210.按照待监测数据配置质量监测任务;
S220.按照待监测的数据字段内容配置字段监测规则;
S230.按照待监测数据的数据处理过程配置数据检测运算规则;
S240.按照待监测数据配置数据监测预警阈值。


3.根据权利要求2所述的方法,其特征在于,步骤S120所述初始化分布式服务器下的集中式数据质量监测服务具体包括以下步骤:
S310.创建数据采集服务,数据采集服务用于收集待监测数据;
S320.创建数据质量监测服务,数据质量监测服务用于读取配置规则对待监测数据进行监测;
S330.创建监测预警服务,监测预警服务用于在数据质量监测过程中数据问题数量超过阈值后发出预警信息。


4.根据权利要求3所述的方法,其特征在于,步骤S130所述数据质量监测服务获取待监测数据具体通过主动和被动两种方式获取。


5.根据权利要求4所述的方法,其特征在于,步骤S130所述被动获取待监测数据的具体方法是,通过数据质量监测服务提供的统一接口被动获取待监测数据;步骤S130所述主动获取待监测数据的具体方法是,通过数据采集服务主动对数据存储中的待监测数据进行实时获取或者离线获取。


6.根据权利要求5所述的方法,其特征在于,步骤S140所述数...

【专利技术属性】
技术研发人员:周昊高川肖崇蕙严寒冰丁丽李志辉朱天饶毓徐剑郭晶吕志泉韩志辉马莉雅雷君贾世琳吕卓航贺铮
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1