一种数据一致性的智能检查方法及装置制造方法及图纸

技术编号:28501900 阅读:42 留言:0更新日期:2021-05-19 22:47
本发明专利技术公开了一种数据一致性的智能检查方法及装置,该方法包括:从包括若干数据集的全量数据集中提取非一致数据集集合;对于非一致数据集集合中的每个非一致数据集组,均执行以下操作:从非一致数据集组的第一数据集的字段及非一致数据集组的第二数据集的字段中确定所有关联字段组;构建用于表示所有关联字段组中字段之间的关联关系的二分图;根据二分图从所有关联字段组中确定满足预设条件的所有关联字段组组合;计算每个关联字段组组合的一致度;根据所有关联字段组组合的一致度,筛选第一数据集与第二数据集之间的非一致信息。可见,实施本发明专利技术能够快速分析出数据之间的关联关系,进而快速提取两个数据集之间的非一致性信息。信息。信息。

【技术实现步骤摘要】
一种数据一致性的智能检查方法及装置


[0001]本专利技术涉及数据处理领域,尤其涉及一种数据一致性的智能检查方法及装置。

技术介绍

[0002]当前,企业在运营发展过程中均会产生一系列的数据,这些数据可以称之为“数据资产”。数据资产的一致性、准确性是数据资产建设过程中数据质量的关键指标之一。然而,由于数据没有统一规划、各领域业务数据模型定义出现重复,导致了数据资产在实体模型、属性定义维度不唯一、不一致的情况时有发生,严重影响数据资产在服务业务应用中的使用价值。
[0003]在数据处理过程中,数据资产一致性检查工作是数据资产建设中的重要过程,同时也是一项非常复杂的工作。现有技术通常通过表名、字段名、er图等设计辅助资料对数据资产的一致性进行检查,工作量巨大且效率低下。同时还需要数据处理人员在对数据集理解的基础上,对数据集进行人工检查分析,工作质量受限于数据处理人员的专业业务能力,准确性低且效率低下。随着数据资产中数据规模的增长以及复杂度的提高,现有技术已经不能满足数据一致性检查的需求。
[0004]可见,如何快速、准确地实现对数据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据一致性的智能检查方法,其特征在于,所述方法包括:从包括若干数据集的全量数据集中提取非一致数据集集合,所述非一致数据集集合包括至少一个非一致数据集组,每个所述非一致数据集组包括第一数据集和第二数据集,所述第一数据集和所述第二数据集均包括若干字段以及与每个字段对应的若干数据;对于每个所述非一致数据集组,均执行以下操作:从所述第一数据集的字段及所述第二数据集的字段中确定所有关联字段组,所述关联字段组包括存在关联关系的第一字段和第二字段,所述第一字段和所述第二字段分别为所述第一数据集及所述第二数据集的其中一个字段;构建用于表示所有所述关联字段组中字段之间的关联关系的二分图;根据所述二分图从所有所述关联字段组中确定满足预设条件的所有关联字段组组合,每个所述关联字段组组合包括至少一个关联字段组;计算每个所述关联字段组组合的一致度;根据所有所述关联字段组组合的一致度,筛选所述第一数据集与所述第二数据集之间的非一致信息。2.根据权利要求1所述的数据一致性的智能检查方法,其特征在于,所述从所述第一数据集的字段及所述第二数据集的字段中确定所有关联字段组,包括:从所述第一数据集包括的未被选择过的字段中选择某一字段,从所述第二数据集包括的所有字段中筛选与所述某一字段的字段类型相同的所有第一类字段,根据与所述某一字段的字段类型相匹配的关联关系确定方法判断筛选出的所有所述第一类字段中是否存在与所述某一字段存在关联关系的至少一个目标字段;当判断结果为是时,将所述某一字段与每个所述目标字段分别确定为关联字段组,并触发执行所述的从所述第一数据集包括的未被选择过的字段中选择某一字段,从所述第二数据集包括的所有字段中筛选与所述某一字段的字段类型相同的所有第一类字段,根据与所述某一字段的字段类型相匹配的关联关系确定方法判断筛选出的所有所述第一类字段中是否存在与所述某一字段存在关联关系的至少一个目标字段,直至所述第一数据集中不存在未被选择过的字段;当判断结果为否时,重新触发执行所述的从所述第一数据集包括的未被选择过的字段中选择某一字段,从所述第二数据集包括的所有字段中筛选与所述某一字段的字段类型相同的所有第一类字段,根据与所述某一字段的字段类型相匹配的关联关系确定方法判断筛选出的所有所述第一类字段中是否存在与所述某一字段存在关联关系的至少一个目标字段,直至所述第一数据集中不存在未被选择过的字段。3.根据权利要求2所述的数据一致性的智能检查方法,其特征在于,所述根据所述二分图从所有所述关联字段组中确定满足预设条件的所有关联字段组组合,包括:根据最大匹配算法确定所述二分图的最大匹配值,作为最大非一致字段数;以间隔字段数为步长,从由初始字段数与所述最大非一致字段数组成的数据范围内确定出非一致字段数集合,所述非一致字段数集合包括至少一个非一致字段数且所述非一致字段数集合包括所述初始字段数,当所述非一致字段数集合包括至少两个非一致字段数时,相邻两个所述非一致字段数之间的差值等于所述间隔字段数;对于每个所述非一致字段数,根据所述二分图从所有所述关联字段组中确定满足该非
一致字段数对应的预设条件的至少一个关联字段组组合,得到该非一致字段数对应的所有关联关系组合;其中,所述关联字段组组合包括的各个所述关联字段组之间不存在重叠字段,且所述关联字段组合包括的关联字段组的数量等于该关联字段组合对应的非一致字段数。4.根据权利要求3所述的数据一致性的智能检查方法,其特征在于,所述计算每个所述关联字段组组合的一致度,包括:根据每个所述关联字段组组合中每个所述关联字段组的邻接矩阵,计算每个所述关联字段组组合的组合邻接矩阵;确定每个所述关联字段组组合的组合邻接矩阵对应的目标元素,每个所述关联字段组组合的组合邻接矩阵对应的目标元素的元素值等于该关联字段组组合对应的非一致字段数;根据每个所述关联字段组组合的组合邻接矩阵对应的目标元素,确定每个所述关联字段组组合的组合邻接矩阵的所有行及所有列中存在该关联字段组组合的组合邻接矩阵对应的目标元素的总行数及总列数;根据确定出的一致度计算公式,计算每个关联字段组组合的一致度;其中,所述一致度计算公式为:其中,r
overlap
为某一所述关联字段组组合的一致度,w为该关联字段组组合对应的非一致字段数,n和m分别为该关联字段组组合的组合邻接矩阵的所有行及所有列中存在该所述关联字段组组合的组合邻接矩阵对应的目标元素的总行数及总列数。5.根据权利要求4所述的数据一致性的智能检查方法,其特征在于,所述计算每个所述关联字段组组合的一致度之前,所述方法还包括:设定每个所述关联字段组的矩阵,其中,每个所述关联字段组的矩阵为全零矩阵且行数和列数分别为该关联字段组中第一字段的数据数目和第二字段的数据数目;对于每个所述关联字段组,比较该关联字段组中第一字段的第p个数据和该关联字段组中第二字段的第q个数据是否相同,若相同,则将该关联字段组的矩阵中第p行且第q列的元素的值设定为预设元素值,得到该关联字段组的邻接矩阵。6.根据权利要求5所述的数据一致性的智能检查方法,其特征在于,所述根据所有所述关联字段组组合的一致度,筛选所述第一数据集与所述第二数据集之间的非一致信息,包括:确定所有所述关联字段组组合中一致度最小的关联关系组合,作为目标关联关系组合;筛选所述目标关联关...

【专利技术属性】
技术研发人员:林涛李晁铭黄伟如金成伟郑建飞赵仕嘉张宇
申请(专利权)人:广东省电信规划设计院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1