数据质量的检测方法、装置、设备及介质制造方法及图纸

技术编号:38411437 阅读:12 留言:0更新日期:2023-08-07 11:17
本申请公开了一种数据质量的检测方法、装置、设备及介质,方法包括:获取数据源系统的多个待检测数据,每个待检测数据包括目标字段;按照预设的对于目标字段的加工方式对数据源系统的待检测数据进行分类,得到目标类别的待检测数据,目标类别包括编码转换类和特征映射类中的至少一种;采用与目标类别对应的检测方式对待检测数据进行检测,得到检测结果。本申请能够对于数据质量进行自动化检测,提高数据质量的检测效率。质量的检测效率。质量的检测效率。

【技术实现步骤摘要】
数据质量的检测方法、装置、设备及介质


[0001]本申请属于数据处理
,尤其涉及一种数据质量的检测方法、装置、设备及介质。

技术介绍

[0002]多源同类系统是指在一个集团性企业或跨企业的合作形态体中,往往存在同样类型、同样功能的数据源系统,这些数据源系统往往遵循某种同样的规范和设计理念。但是,由于数据源系统实施队伍、规范要求、技术迭代等因素,在不同数据源系统的数据模型可能会产生较大差异,因此在对不同互联网系统产生的源数据做数据集中化、统一化管理时就需要将不同数据源系统的源数据转换成同一模式。但是在转换过程中会产生转换错误从而造成数据质量出现问题,因此需要对转换后的多源同类系统数据的数据质量进行检测。但是现有的检测方式依赖大量人工操作,因此造成检测效率低和检测不准确的问题。

技术实现思路

[0003]本申请实施例提供一种数据质量的检测方法、装置、设备及介质,能够对于数据质量进行自动化检测,提高数据质量的检测效率。
[0004]第一方面,本申请实施例提供一种数据质量的检测方法,包括:
[0005]获取数据源系统的多个待检测数据,每个待检测数据包括目标字段;
[0006]按照预设的对于目标字段的加工方式对数据源系统的待检测数据进行分类,得到目标类别的待检测数据,目标类别包括编码转换类和特征映射类中的至少一种;
[0007]采用与目标类别对应的检测方式对待检测数据进行检测,得到检测结果。
[0008]第二方面,本申请实施例提供一种数据质量的检测装置,包括:/>[0009]获取模块,用于获取数据源系统的多个待检测数据,每个待检测数据包括目标字段;
[0010]分类模块,用于按照预设的对于目标字段的加工方式对数据源系统的待检测数据进行分类,得到目标类别的待检测数据,目标类别包括编码转换类和特征映射类中的至少一种;
[0011]检测模块,用于采用与目标类别对应的检测方式对待检测数据进行检测,得到检测结果。
[0012]第三方面,本申请实施例提供了一种电子设备,设备包括:
[0013]处理器以及存储有计算机程序指令的存储器;
[0014]处理器执行计算机程序指令时用于执行上述第一方面的数据质量的检测方法。
[0015]第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现上述第一方面的数据质量的检测方法。
[0016]本申请实施例通过获取数据源系统待检测数据,每个待检测数据包括目标字段,
之后按照对于目标字段的加工方式将数据源系统的待检测数据进行分类,得到了不同类别的待检测数据,根据目标字段的加工方式进行分类可以适应不同数据源系统待检测数据的动态变化,从而可以自动化地实现数据的分类。在完成对于待检测数据的后,可以采用与不同类别对应的检测方式对数据源系统的待检测数据进行检测得到检测结果,从而实现无需人工操作对不同的数据源系统的待检测数据进行检测,提高了数据质量的检测效率。
附图说明
[0017]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本申请一个实施例提供的一种数据质量的检测方法的流程示意图
[0019]图2为本申请一个实施例提供的一种数据质量的检测装置的示意图。
[0020]图3为本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
[0021]下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
[0022]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0023]需要说明的是,本申请实施例中对数据的获取、存储、使用和处理等,均符合国家法律法规的相关规定。
[0024]多源同类系统是指在一个集团性企业或跨企业的合作形态体中,往往存在同样类型、同样功能的数据源系统,这些数据源系统由于部门、体制、地域等的原因分别独立建设。例如,在一个集团性企业中,各个省公司可能会独立建设自己的(Customer Relationship Management,CRM)系统或者计费系统等,因此不同的系统就会产生不同的数据。由于行业相似性或者企业统一要求,这些数据源系统往往遵循某种同样的规范和设计理念,如果将这些数据源系统所产生的数据集中化、统一化管理,则对于中央集团或管理主体具备极大的管理价值和新的业务价值。
[0025]然而这些数据源系统一般是由不同的承建厂商根据自己对行业、公司规范的理解所建设,在数据的模型设计、表结构、数据编码和数据的使用方式上都有极大区别。有时,即使是同一个厂商为同一集团性企业的不同实体建设的同类系统,也可能由于实施队伍、规
范要求、技术迭代等因素,在数据模型的设计上产生较大的版本差异。因此需要对于不同版本的数据模型的数据进行统一化集中建设,主要目标就在于将不同数据模型产生的数据的差异以一种统一的结构和要求进行数据的重构,形成统一结构、统一用法的数据。
[0026]在数据的统一集中化建设过程中,一般采用两类数据处理方案。一种是中央转换模式,即数据在数据源系统中进行无变化收集,在中央系统中再通过转换逻辑的进行模型统一;另一种是分布式转换模式,即各个源系统在中央系统的模型规范的要求下,先在各个源系统进行数据的模型转换,然后再将转换后的数据传送给中央系统进行集中管理。对于这两种模式,无论哪一种,都面临着如何保障数据质量的核心难题。
[0027]对于集中统一系统的数据质量来说,核心是如何保障数据转换逻辑的准确性。而数据转换逻辑出现问题的原因,一般表现在:
[0028]1)数据转换的问题。对中央系统数据模型的理解不足,导致最终将不同的数据源系统的数据进行转换后与实际的需求产生偏差。
[0029]2)中央系统数据模型维护的问题。中央系统数据模型在使用的过程中会不断地更新迭代,但本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据质量的检测方法,其特征在于,包括:获取数据源系统的多个待检测数据,每个待检测数据包括目标字段;按照预设的对于目标字段的加工方式对所述数据源系统的待检测数据进行分类,得到目标类别的待检测数据,所述目标类别包括编码转换类和特征映射类中的至少一种;采用与所述目标类别对应的检测方式对所述待检测数据进行检测,得到检测结果。2.根据权利要求1所述的数据质量的检测方法,其特征在于,所述采用与所述目标类别对应的检测方式对所述待检测数据进行检测,得到检测结果,包括:在所述待检测数据包括编码转换类的情况下,获取所述待检测数据的目标字段编码值;对所述待检测数据的目标字段编码值进行检测,得到检测结果。3.根据权利要求2所述的数据质量的检测方法,其特征在于,所述对所述待检测数据的目标字段编码值进行检测,得到检测结果,包括:计算所述待检测数据的目标字段编码值的平均值;比较所述平均值与第一阈值的大小,得到检测结果。4.根据权利要求1所述的数据质量的检测方法,其特征在于,所述采用与所述目标类别对应的检测方式对所述待检测数据进行检测,得到检测结果,包括:在所述待检测数据包括特征映射类的情况下,获取所述待检测数据的特征值;比较所述特征值与第二阈值的大小,得到检测结果。5.根据权利要求3或4所述的数据质量的检测方法,其特征在于,还包括:在所述检测结果表征所述待检测数据异常的情况下,将所述待检测数据存入目标列表。6.根据权利要求4所述的数据质...

【专利技术属性】
技术研发人员:陈文万姝蓓彭少凯郑晓朱丹
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1