一种数据依赖的数据质量检测方法及装置制造方法及图纸

技术编号：13455526 阅读：52 留言：0更新日期：2016-08-02 20:29

本发明专利技术为一种数据依赖的数据质量检测方法及装置，所述方法包括：步骤b，分析参照文件，根据所述参照文件各字段具有不同值的个数判断该字段所处级别，并将各字段的值组织成所述参照文件的树形结构；步骤c，接收待检测数据，根据所述参照文件的所述字段的名称及其对应级别信息，确定所述待检测数据待检测字段与参照级别的映射，并组织成所述待检测字段的树形结构；步骤d，遍历所述参照文件的树形结构，在所述待检测字段的树形结构对应位置上查找值，并做出标记；所述装置包括与各个步骤相对应的参照文件分析单元、数据依赖规则定义单元和数据依赖规则检查单元。这样，可以在检查过程中准确定位错误的发生源，且大大提高了检测速度和效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据质量监控
，具体涉及一种数据依赖的数据质量检测方法及装置。
技术介绍
信息技术的快速发展使得数据逐渐成为实现企业业务价值最重要的资源之一。然而随着数据量的不断增大，数据质量问题也随之而来。数据缺失、错误、不一致等问题使企业对其的应用受到阻碍，严重的甚至会导致企业做出错误决策，损失重要价值进而引发信任危机。针对这些脏数据，许多数据质量检测和清洗方案应运而生。而数据依赖在其中则是比较难以检测的一种数据质量问题。由于系统往往并不知道隐藏在数据表内部字段间的逻辑关系，所以数据依赖问题一般是通过外部参考文件来进行检查。目前比较有代表性的数据依赖检查方案也通过自定义参照数据或引入外部参照文件来检查数据依赖。每次扫描一条待检查记录就在参照数据中查询该条记录是否满足数据依赖规则，并计算相似度得分。该方法通过查看记录的相似度得分可以比较容易的分析出该记录的部分错误来源，如拼写错误，但是不能分析出错误发生在依赖的左部还是右部。这种问题当待检查的字段超过两个时尤为明显，此时明确错误发生的字段比发现存在拼写错误更为重要。鉴于上述缺陷，本专利技术创作者经过长时间的研究和试验终于提出了一种数据依赖的数据质量检测方法及装置。
技术实现思路
本专利技术的目的在于提供一种数据依赖的数据质量检测方法及装置，用以克服上述技术缺陷，解决不能快速检测到数据依赖错误以及不能准确定位错误发生的位置的问题。为实现上述目的，本专利技术采用的技术方案在于:首先提供一种数据依赖的数据质量检测方法，其包括:步骤b，分析外部参照文件，根据所述参照文件各字段具有不同值的个数判断该字...

【技术保护点】
一种数据依赖的数据质量检测方法，其特征在于，包括：步骤b，分析外部参照文件，根据所述参照文件各字段具有不同值的个数判断该字段所处级别，并将各字段的值组织成所述参照文件的树形结构；步骤c，接收待检测数据，根据所述参照文件的所述字段的名称及其对应级别信息，确定所述待检测数据待检测字段与参照级别的映射，并组织成所述待检测字段的树形结构；步骤d，遍历所述参照文件的树形结构，在所述待检测字段的树形结构对应位置上查找值，并做出标记。

【技术特征摘要】

【专利技术属性】
技术研发人员：彭泽武，冯歆尧，江疆，杨秋勇，张晓霞，
申请(专利权)人：广东电网有限责任公司信息中心，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人