一种数据依赖的数据质量检测方法及装置制造方法及图纸

技术编号:13455526 阅读:52 留言:0更新日期:2016-08-02 20:29
本发明专利技术为一种数据依赖的数据质量检测方法及装置,所述方法包括:步骤b,分析参照文件,根据所述参照文件各字段具有不同值的个数判断该字段所处级别,并将各字段的值组织成所述参照文件的树形结构;步骤c,接收待检测数据,根据所述参照文件的所述字段的名称及其对应级别信息,确定所述待检测数据待检测字段与参照级别的映射,并组织成所述待检测字段的树形结构;步骤d,遍历所述参照文件的树形结构,在所述待检测字段的树形结构对应位置上查找值,并做出标记;所述装置包括与各个步骤相对应的参照文件分析单元、数据依赖规则定义单元和数据依赖规则检查单元。这样,可以在检查过程中准确定位错误的发生源,且大大提高了检测速度和效率。

【技术实现步骤摘要】

本专利技术涉及数据质量监控
,具体涉及一种数据依赖的数据质量检测方法及装置
技术介绍
信息技术的快速发展使得数据逐渐成为实现企业业务价值最重要的资源之一。然而随着数据量的不断增大,数据质量问题也随之而来。数据缺失、错误、不一致等问题使企业对其的应用受到阻碍,严重的甚至会导致企业做出错误决策,损失重要价值进而引发信任危机。针对这些脏数据,许多数据质量检测和清洗方案应运而生。而数据依赖在其中则是比较难以检测的一种数据质量问题。由于系统往往并不知道隐藏在数据表内部字段间的逻辑关系,所以数据依赖问题一般是通过外部参考文件来进行检查。目前比较有代表性的数据依赖检查方案也通过自定义参照数据或引入外部参照文件来检查数据依赖。每次扫描一条待检查记录就在参照数据中查询该条记录是否满足数据依赖规则,并计算相似度得分。该方法通过查看记录的相似度得分可以比较容易的分析出该记录的部分错误来源,如拼写错误,但是不能分析出错误发生在依赖的左部还是右部。这种问题当待检查的字段超过两个时尤为明显,此时明确错误发生的字段比发现存在拼写错误更为重要。鉴于上述缺陷,本专利技术创作者经过长时间的研究和试验终于提出了一种数据依赖的数据质量检测方法及装置。
技术实现思路
本专利技术的目的在于提供一种数据依赖的数据质量检测方法及装置,用以克服上述技术缺陷,解决不能快速检测到数据依赖错误以及不能准确定位错误发生的位置的问题。为实现上述目的,本专利技术采用的技术方案在于:首先提供一种数据依赖的数据质量检测方法,其包括:步骤b,分析外部参照文件,根据所述参照文件各字段具有不同值的个数判断该字段所处级别,并将各字段的值组织成所述参照文件的树形结构;步骤C,接收待检测数据,根据所述参照文件的所述字段的名称及其对应级别信息,确定所述待检测数据待检测字段与参照级别的映射,并组织成所述待检测字段的树形结构;步骤d,遍历所述参照文件的树形结构,在所述待检测字段的树形结构对应位置上查找值,并做出标记。较佳的,还包括:步骤e,再次遍历所述待检测字段的树形结构,根据所述标记输出错误信息。较佳的,还包括:步骤a,将待输入的所述参照文件或所述待检测数据转换为要求格式;所述步骤a在所述步骤b之前。较佳的,所述参照文件的树形结构自顶向下按照字段的不同值递增。较佳的,所述步骤c包括:步骤Cl,接收所述待检测数据,接收所述参照文件的所述字段的名称及其对应级别信息,确定所述待检测数据待检测字段与参照级别的映射;步骤c2,对所述待检测字段的数据值进行分析,输出每个字段的不同值及对应的所有记录编号,并按照所述参照级别将各字段的值同样组织成所述待检测字段的树形结构。较佳的,所述遍历为宽度优先遍历,以提高遍历速度。其次,提供一种与所述的数据质量检测方法对应的数据依赖的数据质量检测装置,其包括:参照文件分析单元,分析所述参照文件,根据所述参照文件各字段具有不同值的个数判断该字段所处级别,并将各字段的值组织成所述参照文件的树形结构;数据依赖规则定义单元,接收所述待检测数据,根据所述参照文件的所述字段的名称及其对应级别信息,确定所述待检测数据待检测字段与参照级别的映射,并组织成所述待检测字段的树形结构;数据依赖规则检查单元,遍历所述参照文件的树形结构,在所述待检测字段的树形结构对应位置上查找值,并做出所述标记。较佳的,检测信息处理单元,再次遍历所述待检测字段的树形结构,根据所述标记输出错误信息。较佳的,格式转换单元,将待输入的所述参照文件或所述待检测数据转换为要求格式;所述格式转换单元将数据输入所述参照文件分析单元。较佳的,所述数据依赖规则定义单元包括:映射模块,接收所述待检测数据,接收所述参照文件的所述字段的名称及其对应级别信息,确定所述待检测数据待检测字段与参照级别的映射;树形结构模块,对所述待检测字段的数据值进行分析,输出每个字段的不同值及对应的所有所述记录编号,并按照所述参照级别将各字段的值同样组织成所述待检测字段的树形结构。与现有技术比较本专利技术的有益效果在于:提供了一种数据依赖的数据质量检测方法及装置,可以在数据依赖检查中准确定位错误的发生源,在确定错误的发生源的情况下,自然也确定了错误发生在依赖的左部还是右部;本专利技术利用树形结构的遍历,避免了分别进行交叉对比,在待检测字段超过两个或待检测数据量较大时不但能方便的定位错误位置,还能大大提高检测速度和效率;本专利技术利用树形结构的遍历,只对不同值查询一次参照文件,不同于一般方案上的需要针对每一条记录重复查询参照文件的做法,也提高了数据质量检测的效率和速度;使用宽度优先便利法对参照文件的树形结构进行遍历,提高了遍历速度和效率;自顶向下按照字段的不同值递增的顺序组织树形结构,这样组织的树形结构的结构更简洁,减少了整个树形结构里的结点数量,提高后续遍历的速度;标记用于对正确或错误数据进行标注,记录编号用于迅速定位错误数据,以提高整体速度。【附图说明】图1为本专利技术数据依赖的数据质量检测方法的流程图;图2为本专利技术数据依赖的数据质量检测方法中步骤c的流程图;图3为本专利技术数据依赖的数据质量检测方法实施例一的流程图;图4为本专利技术数据依赖的数据质量检测方法参照文件表;图5为本专利技术数据依赖的数据质量检测方法参照文件的树形结构;图6为本专利技术数据依赖的数据质量检测方法待检测数据表;图7为本专利技术数据依赖的数据质量检测方法待检测字段的树形结构一;图8为本专利技术数据依赖的数据质量检测方法待检测字段的树形结构二;图9为本专利技术数据依赖的数据质量检测装置的结构图;图10为本专利技术数据依赖的数据质量检测装置中数据依赖规则定义单元的结构图;图11为本专利技术数据依赖的数据质量检测装置实施例四的结构图。【具体实施方式】以下结合附图,对本专利技术上述的和另外的技术特征和优点作更详细的说明。如图1所示,其为本专利技术数据依赖的数据质量检测方法的流程图;其中,所述数据依赖的数据质量检测方法包括:步骤b,分析外部参照文件,根据所述参照文件各字段具有不同值的个数判断该字段所处级别,并将各字段的值组织成所述参照文件的树形结构。外部参照文件为特定格式的文件,其包括多个字段,每个字段都具有多个值,这些值可能都相同,也可能都不相同,也可能部分相同。例如字段A可能有9个值,这9个值可能均相同,那么字段A有I个不同值;如果这9个值均不相同,那么字段A有9个不同值;如果这9个值部分相同,如I个Al,3个A2,2个A3,I个A4,2个A5,那么字段A有5个不同值。根据字段的不同值判断字段所处级别,若字段的不同值的数目相同,则其处于相同级别;若A字段的不同值数目大于B字段,则A字段的级别低于B字段。将各个字段的值组织成树形结构,即将各字段按照级别由上到下进行排列,同一级别的不同字段的排序可以按照字母进行排列,也可以按照某个特定的排列方式进行排列,以使组织成的树形结构更简洁的,也可以是无序排列。排列后每个字段的不同值为该字段所在级别或层次的结点。自顶向下按照字段的不同值递增的顺序组织树形结构,这样组织的树形结构的结构更简洁,减少了整个树形结构里的结点数量,提高后续遍历的速度。步骤C,接收待检测数据,根据所述参照文件的所述字段名称及其对应级别信息,确定所述待检测数据需要检测的字段与参照级别的映射,并组织成所述待检测字段本文档来自技高网...

【技术保护点】
一种数据依赖的数据质量检测方法,其特征在于,包括:步骤b,分析外部参照文件,根据所述参照文件各字段具有不同值的个数判断该字段所处级别,并将各字段的值组织成所述参照文件的树形结构;步骤c,接收待检测数据,根据所述参照文件的所述字段的名称及其对应级别信息,确定所述待检测数据待检测字段与参照级别的映射,并组织成所述待检测字段的树形结构;步骤d,遍历所述参照文件的树形结构,在所述待检测字段的树形结构对应位置上查找值,并做出标记。

【技术特征摘要】

【专利技术属性】
技术研发人员:彭泽武冯歆尧江疆杨秋勇张晓霞
申请(专利权)人:广东电网有限责任公司信息中心
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1