数据质量分析制造技术

技术编号:17490859 阅读:41 留言:0更新日期:2018-03-17 13:49
一种方法,包括:接收指示数据处理系统所生成的输出数据集的信息;基于与所述输出数据集有关的数据沿袭信息来识别该输出数据集所依赖于的一个或多个上游数据集;进行对所识别出的所述输出数据集所依赖于的一个或多个上游数据集中的一个或多个上游数据集的分析。所述分析包括:针对一个或多个上游数据集中的各特定上游数据集,应用以下规则中的一个或多个规则:(i)第一规则,用于指示所述特定上游数据集的简档与所述特定上游数据集的参考简档之间的允许偏差,以及(ii)第二规则,用于指示针对所述特定上游数据集中的一个或多个数据元素中的各数据元素的一个或多个允许值或禁止值;以及基于应用所述一个或多个规则的结果,选择所述上游数据集中的一个或多个上游数据集。所述方法还包括输出与所选择的一个或多个上游数据集相关联的信息。

Data quality analysis

A method includes: receiving output data indicating a data processing system generated by the set of information; one or more upstream data and the output data set of data lineage information to identify the output data set depends on the set based on the output data; for the identified set of dependencies in one or more upstream data from one or more upstream analysis data set. The analysis includes: according to one or more upstream data set of each specific upstream data set, one or more of the following rules: the rules of application (I) for the first rule, the allowable deviation between the reference profile profile indicates that the specific upstream data set and the specific upstream data set (II), and the second rules, the data elements of one or more data elements for instructions for the particular data set in the upstream of one or more values allowed or prohibited; and based on the application of the one or more rules results, choose the one or a plurality of upstream data subset of the upstream data. The method also includes the output of information associated with one or more upstream data sets selected.

【技术实现步骤摘要】
【国外来华专利技术】数据质量分析
技术介绍
本说明书涉及数据质量分析。数据集的数据质量指示该数据集中的数据记录是否有错误。通常,在数据集的处理期间发生错误的情况下,该数据集的数据质量差。
技术实现思路
在一般方面,一种方法,包括:接收指示数据处理系统所生成的输出数据集的信息;基于与所述输出数据集有关的数据沿袭信息来识别所述输出数据集所依赖于的一个或多个上游数据集;分析所识别出的所述输出数据集所依赖于的一个或多个上游数据集中的一个或多个上游数据集,所述分析包括:针对该一个或多个上游数据集中的各特定上游数据集,应用以下规则中的一个或多个规则:(i)第一规则,用于指示所述特定上游数据集的简档与该特定上游数据集的参考简档之间的允许偏差,以及(ii)第二规则,用于指示针对所述特定上游数据集中的一个或多个数据元素中的各数据元素的一个或多个允许值或禁止值;基于应用所述一个或多个规则的结果,来选择所述上游数据集中的一个或多个上游数据集;以及输出与所选择的一个或多个上游数据集相关联的信息。实施例可以包括以下特征中的一个或多个。所述第一规则和所述第二规则中的一个或多个规则是自动生成的。所述第一规则是基于所述特定上游数据集的历史简档的自动化分析而自动生成的。所述参考简档基于所述特定上游数据集的历史平均简档。所述第二规则是基于所述特定上游数据集中的一个或多个数据元素的历史值的自动化分析而自动生成的。所述允许值或禁止值是基于所述自动化分析而确定的。所述第一规则和所述第二规则中的一个或多个规则是由用户指定的。所述方法还包括:通过用户界面来接收所述第一规则和所述第二规则中的一个或多个规则的指定。数据沿袭信息指示所述输出数据集所依赖于的一个或多个数据集、依赖于该输出数据集的一个或多个数据集、或这两者。分析一个或多个数据集中的各数据集以识别该一个或多个数据集的子集包括:确定该一个或多个数据集中的具有错误或可能具有错误的数据集;以及所述方法还包括:选择具有错误或可能具有错误的数据集作为所述子集。分析一个或多个数据集中的各数据集以识别该一个或多个数据集的子集包括:识别特定数据集的简档和该特定数据集的参考简档之间的偏差超过相应的第一规则所指示的允许偏差的特定数据集;以及所述方法还包括:选择该特定数据集作为所述子集。分析一个或多个数据集中的各数据集以识别该一个或多个数据集的子集包括:识别具有如下数据元素的特定数据集,其中该数据元素具有不满足相应的第二规则所指示的允许值或禁止值的值;以及所述方法还包括:选择该特定数据集作为所述子集。所述还包括识别所述输出数据集中的数据元素,以及识别所述输出数据集所依赖于的一个或多个数据集包括:识别影响所识别出的所述输出数据集中的数据元素的数据集。识别所述输出数据集中的数据元素包括:识别具有错误或可能具有错误的数据元素。所述方法还包括:生成所述上游数据集中的一个或多个上游数据集的简档。生成特定数据集的简档包括:在接收到所述特定数据集的新版本的情况下生成该特定数据集的新简档。根据特定数据集的一个或多个先前简档而得到该特定数据集的参考简档。输出与数据集的子集相关联的信息包括:输出该子集的各数据集的标识符。输出与数据集的子集相关联的信息包括:输出与该子集的各数据集相关联的错误或可能错误的指示符。所述方法还包括在用户界面上显示所述数据处理系统的表示,以及输出与数据集的子集相关联的信息包括:在该数据集的子集中的特定数据集的表示附近显示与该子集中的该特定数据集相关联的信息。所显示的与该子集中的该特定数据集相关联的信息包括:指示该特定数据集的简档和该特定数据集的参考简档之间的偏差的值。所显示的与该子集中的该特定数据集相关联的信息包括:表示该特定数据集中的不满足相应的第二规则所指示的允许值或禁止值的数据元素的个数的值。所述方法还包括:显示示出与数据集的子集有关的信息的信息泡或弹出窗口。所述方法还包括提供用户界面以使得用户能够添加规则、修改规则或者移除规则。所述数据集包括:一个或多个源数据集和一个或多个参考数据集,所述源数据集包括所述数据处理系统所要处理的数据元素,所述参考数据集包括所述数据处理系统在所述源数据集中的数据元素的处理中所参考的参考值。所述参考数据集包括与同所述数据处理系统相关的业务实体相关联的数据,并且所述源数据集包括与所述业务实体的客户相关联的数据。所述数据处理系统包括转换元素,以及所述方法包括基于所述数据沿袭信息来识别影响所述输出数据集的一个或多个转换元素。所述方法还包括:确定所述转换元素中的具有错误或可能具有错误的一个或多个转换元素。所述方法还包括:确定所述转换元素中的具有错误或可能具有错误的一个或多个转换元素。在一般方面,一种非暂时性计算机可读介质,其存储用于使计算系统执行以下操作的指令:接收指示数据处理系统所生成的输出数据集的信息;基于与所述输出数据集有关的数据沿袭信息来识别该输出数据集所依赖于的一个或多个上游数据集;分析所识别出的所述输出数据集所依赖于的一个或多个上游数据集中的一个或多个上游数据集,所述分析包括:针对该一个或多个上游数据集中的各特定上游数据集,应用以下规则中的一个或多个规则:(i)第一规则,用于指示所述特定上游数据集的简档与该特定上游数据集的参考简档之间的允许偏差,以及(ii)第二规则,用于指示针对所述特定上游数据集中的一个或多个数据元素中的各数据元素的一个或多个允许值或禁止值;基于应用所述一个或多个规则的结果,来选择所述上游数据集中的一个或多个上游数据集;以及输出与所选择的一个或多个上游数据集相关联的信息。在一般方面,一种计算系统,包括:处理器,其连接至存储器,所述处理器和所述存储器被配置为:接收指示数据处理系统所生成的输出数据集的信息;基于与所述输出数据集有关的数据沿袭信息来识别所述输出数据集所依赖于的一个或多个上游数据集;分析所识别出的所述输出数据集所依赖于的一个或多个上游数据集中的一个或多个上游数据集,所述分析包括:针对该一个或多个上游数据集中的各特定上游数据集,应用以下规则中的一个或多个规则:(i)第一规则,用于指示所述特定上游数据集的简档与该特定上游数据集的参考简档之间的允许偏差,以及(ii)第二规则,用于指示针对所述特定上游数据集中的一个或多个数据元素中的各数据元素的一个或多个允许值或禁止值;基于应用所述一个或多个规则的结果,来选择所述上游数据集中的一个或多个上游数据集;以及输出与所选择的一个或多个上游数据集相关联的信息。在一般方面,一种计算系统,包括:用于接收指示数据处理系统所生成的输出数据集的信息的部件;用于基于与所述输出数据集有关的数据沿袭信息来识别所述输出数据集所依赖于的一个或多个上游数据集的部件;用于分析所识别出的所述输出数据集所依赖于的一个或多个上游数据集中的一个或多个上游数据集的部件,所述分析包括:针对该一个或多个上游数据集中的各特定上游数据集,应用以下规则中的一个或多个规则:(i)第一规则,用于指示所述特定上游数据集的简档与该特定上游数据集的参考简档之间的允许偏差,以及(ii)第二规则,用于指示针对所述特定上游数据集中的一个或多个数据元素中的各数据元素的一个或多个允许值或禁止值;基于应用所述一个或多个规则的结果,来选择所述上游数据集中的一个或多个上游数据集;以及用于输出与所选本文档来自技高网...
数据质量分析

【技术保护点】
一种方法,包括:接收指示数据处理系统所生成的输出数据集的信息;基于与所述输出数据集有关的数据沿袭信息来识别所述输出数据集所依赖于的一个或多个上游数据集;分析所识别出的所述输出数据集所依赖于的一个或多个上游数据集中的一个或多个上游数据集,所述分析包括:针对该一个或多个上游数据集中的各特定上游数据集,应用以下规则中的一个或多个规则:(i)第一规则,用于指示所述特定上游数据集的简档与该特定上游数据集的参考简档之间的允许偏差,以及(ii)第二规则,用于指示针对所述特定上游数据集中的一个或多个数据元素中的各数据元素的一个或多个允许值或禁止值;基于应用所述一个或多个规则的结果,来选择所述上游数据集中的一个或多个上游数据集;以及输出与所选择的一个或多个上游数据集相关联的信息。

【技术特征摘要】
【国外来华专利技术】2015.06.12 US 62/174,997;2016.06.07 US 15/175,7931.一种方法,包括:接收指示数据处理系统所生成的输出数据集的信息;基于与所述输出数据集有关的数据沿袭信息来识别所述输出数据集所依赖于的一个或多个上游数据集;分析所识别出的所述输出数据集所依赖于的一个或多个上游数据集中的一个或多个上游数据集,所述分析包括:针对该一个或多个上游数据集中的各特定上游数据集,应用以下规则中的一个或多个规则:(i)第一规则,用于指示所述特定上游数据集的简档与该特定上游数据集的参考简档之间的允许偏差,以及(ii)第二规则,用于指示针对所述特定上游数据集中的一个或多个数据元素中的各数据元素的一个或多个允许值或禁止值;基于应用所述一个或多个规则的结果,来选择所述上游数据集中的一个或多个上游数据集;以及输出与所选择的一个或多个上游数据集相关联的信息。2.根据权利要求1所述的方法,其中,所述第一规则和所述第二规则中的一个或多个规则是自动生成的。3.根据权利要求2所述的方法,其中,所述第一规则是基于所述特定上游数据集的历史简档的自动化分析而自动生成的。4.根据权利要求3所述的方法,其中,所述参考简档基于所述特定上游数据集的历史平均简档。5.根据权利要求2所述的方法,其中,所述第二规则是基于所述特定上游数据集中的一个或多个数据元素的历史值的自动化分析而自动生成的。6.根据权利要求5所述的方法,其中,所述允许值或禁止值是基于所述自动化分析而确定的。7.根据权利要求1所述的方法,其中,所述第一规则和所述第二规则中的一个或多个规则是由用户指定的。8.根据权利要求1所述的方法,其中,还包括:通过用户界面来接收所述第一规则和所述第二规则中的一个或多个规则的指定。9.根据权利要求1所述的方法,其中,所述数据沿袭信息指示所述输出数据集所依赖于的一个或多个数据集、依赖于该输出数据集的一个或多个数据集、或这两者。10.根据权利要求1所述的方法,其中,分析一个或多个数据集中的各数据集以识别该一个或多个数据集的子集包括:确定该一个或多个数据集中的具有错误或可能具有错误的数据集;以及所述方法还包括:选择具有错误或可能具有错误的数据集作为所述子集。11.根据权利要求1所述的方法,其中,分析一个或多个数据集中的各数据集以识别该一个或多个数据集的子集包括:识别特定数据集的简档和该特定数据集的参考简档之间的偏差超过相应的第一规则所指示的允许偏差的特定数据集;以及所述方法还包括:选择该特定数据集作为所述子集。12.根据权利要求1所述的方法,其中,分析一个或多个数据集中的各数据集以识别该一个或多个数据集的子集包括:识别具有如下数据元素的特定数据集,其中该数据元素具有不满足相应的第二规则所指示的允许值或禁止值的值;以及所述方法还包括:选择该特定数据集作为所述子集。13.根据权利要求1所述的方法,其中,还包括识别所述输出数据集中的数据元素,以及识别所述输出数据集所依赖于的一个或多个数据集包括:识别影响所识别出的所述输出数据集中的数据元素的数据集。14.根据权利要求13所述的方法,其中,识别所述输出数据集中的数据元素包括:识别具有错误或可能具有错误的数据元素。15.根据权利要求1所述的方法,其中,还包括:生成所述上游数据集中的一个或多个上游数据集的简档。16.根据权利要求15所述的方法,其中,生成特定数据集的简档包括:在接收到所述特定数据集的新版本的情况下生成该特定数据集的新简档。17.根据权利要求1所述的方法,其中,根据特定数据集的一个或多个先前简档而得到该特定数据集的参考简档。18.根据权利要求1所述的方法,其中,输出与数据集的子集相关联的信息包括:输出该子集的各数据集的标识符。19.根据权利要求1所述的方法,其中,输出与数据集的子集相关联的信息包括:输出与该子集的各数据集相关联的错误或可能错误的指示符。20.根据权利要求1所述的方法,其中,还包括在用户界面上显示所述数据处理系统的表示,以及输出与数据集的子集相关联的信息包括:在该数据集的子集中的特定数据集的表示附近显示与该子集中的该特定数据集相关联的信息。21.根据权利要求20所述的方法,其中,所显示的与该子集中的该特定数据集相关联的信息包括:指示该特定数据集的简档和该特定数据集的参考简档之间的偏差的值。22.根据权利要求20...

【专利技术属性】
技术研发人员:C·斯皮茨乔尔·古尔德
申请(专利权)人:起元技术有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1