【技术实现步骤摘要】
【国外来华专利技术】将验证结果整合到数据归档中的技术以及相关系统和方法
技术介绍
消耗和/或产生数据集的企业和其他组织对这些数据集的质量保证相当感兴趣。数据集的大小可能很大,通常包含成千上万甚至数百万条记录,使得对这些数据集进行自动化分析是审查这些记录是否满足预定的质量保证指标的唯一可行方法。数据集的质量保证分析通常利用有效性规范,该规范基于记录的内容来定义数据集的记录何时被认为有效和无效。另外,对记录的数据字段值的统计分析(诸如对每个值的实例的计数)在除有效性检查之外还可以产生有价值的质量保证信息。作为这种过程的说明,数据集的记录格式可以包含邮政编码数据字段,该邮政编码数据字段与检查邮政编码是否遵循适当的格式(例如,在美国为五位数字或五位数字加上四位数字扩展)的有效性规则相关联。将这种有效性规则应用于数据集的记录可以指示数据集中有多少记录包含有效或无效的美国邮政编码值。即使邮政编码值的格式正确,也可能从对邮政编码值的统计分析中获得进一步的质量保证信息。例如,如果大量邮政编码值意外地具有相同的值,则可能会出现质量保证问题。邮政编码值的这种分布可能指示产生或修改邮政编码值的过程中出现了数据处理错误。利用验证方法和统计方法两者的分析在本文中称为“归档”数据集。这种分析的集合性结果在本文中称为“数据简档”。
技术实现思路
根据一些方面,提供了一种操作数据处理系统以基于以下各项生成数据简档的计算机实施的方法:数据集,该数据集具有定义多个字段的相关联记录格式;针对该数据集的值普查,该值普查包括第一多个值,每个值具有该多个字段中的相关联字段和 ...
【技术保护点】
1.一种操作数据处理系统以基于以下各项生成数据简档的计算机实施的方法:数据集,该数据集具有定义多个字段的相关联记录格式;针对该数据集的值普查,该值普查包括第一多个值,每个值具有该多个字段中的相关联字段和多个计数值,其中,计数值指示相应字段和值的组合在该至少一个数据集中出现的次数;以及验证规范,该验证规范包括多个验证规则,该多个验证规则定义针对该多个字段中的一个或多个字段的无效性的准则,该方法包括:/n至少部分地基于该数据集和该验证规范来生成验证普查,该验证普查包括:/n第二多个值,每个值具有该多个字段中的相关联字段;以及/n多个无效性指示,每个无效性指示与该第二多个值之一相关联;以及/n至少部分地基于该值普查和该验证普查,生成该至少一个数据集的数据简档,其中,生成该数据简档包括:/n将该第二多个值中的值及其相关联字段与该第一多个值中的值及其相关联字段进行匹配;以及/n至少部分地通过以下方式来产生针对该值普查的第一多个值的数据简档:用该验证普查的与该第二多个值中的匹配的值及其相关联字段相关联的无效性指示来丰富该第一多个值中的值及其相关联字段。/n
【技术特征摘要】
【国外来华专利技术】1.一种操作数据处理系统以基于以下各项生成数据简档的计算机实施的方法:数据集,该数据集具有定义多个字段的相关联记录格式;针对该数据集的值普查,该值普查包括第一多个值,每个值具有该多个字段中的相关联字段和多个计数值,其中,计数值指示相应字段和值的组合在该至少一个数据集中出现的次数;以及验证规范,该验证规范包括多个验证规则,该多个验证规则定义针对该多个字段中的一个或多个字段的无效性的准则,该方法包括:
至少部分地基于该数据集和该验证规范来生成验证普查,该验证普查包括:
第二多个值,每个值具有该多个字段中的相关联字段;以及
多个无效性指示,每个无效性指示与该第二多个值之一相关联;以及
至少部分地基于该值普查和该验证普查,生成该至少一个数据集的数据简档,其中,生成该数据简档包括:
将该第二多个值中的值及其相关联字段与该第一多个值中的值及其相关联字段进行匹配;以及
至少部分地通过以下方式来产生针对该值普查的第一多个值的数据简档:用该验证普查的与该第二多个值中的匹配的值及其相关联字段相关联的无效性指示来丰富该第一多个值中的值及其相关联字段。
2.如权利要求1所述的方法,其中,该数据集的数据简档针对该多个字段中的第一字段指定该数据集的多个记录,该多个记录的针对该第一字段的值根据该验证规范是有效的。
3.如权利要求1所述的方法,其中,生成该验证普查包括生成针对该数据集的一个或多个记录的无效性指示。
4.如权利要求1所述的方法,进一步包括生成该数据集的多个记录根据该验证规范是无效的指示。
5.如权利要求1所述的方法,其中,该验证普查包括至少两种不同的无效性指示,该至少两种不同的无效性指示各自与该第二多个值中的第一值相关联。
6.如权利要求1所述的方法,其中,该数据集的数据简档针对该多个字段中的第一字段指定该数据集的多个记录,该多个记录的针对该第一字段的值根据该验证规范是null且无效的。
7.如权利要求1所述的方法,进一步包括通过以下方式生成该值普查:
根据该记录格式将该数据集的内容解析为数据结构;
整理与该多个字段中的每个字段相关联的值的实例;以及
记录所述实例的计数。
8.一种计算机系统,包括:
至少一个处理器;
至少一个用户接口设备;以及
至少一个计算机可读介质,该至少一个计算机可读介质包括处理器可执行指令,这些处理器可执行指令在被执行时使该至少一个处理器执行基于以下各项生成数据简档的方法:
数据集,该数据集具有定义多个字段的相关联记录格式;
针对该数据集的值普查,该值普查包括第一多个值,每个值具有该多个字段中的相关联字段和多个计数值,其中,计数值指示相应字段和值的组合在该至少一个数据集中出现的次数;以及
验证规范,该验证规范包括多个验证规则,该多个验证规则定义针对该多个字段中的一个或多个字段的无效性的准则,该方法包括:
至少部分地基于该数据集和该验证规范来生成验证普...
【专利技术属性】
技术研发人员:乔尔·古尔德,S·瑞比奇,
申请(专利权)人:起元技术有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。