将验证结果整合到数据归档中的技术以及相关系统和方法技术方案

技术编号:26428861 阅读:25 留言:0更新日期:2020-11-20 14:27
根据一些方面,提供了用于配置数据处理系统的技术,该技术提高了生成数据集的数据简档的灵活性和效率。该数据处理系统可以在单独的处理步骤中产生该数据集的值普查和验证普查。然后可以通过以允许在这两个普查之间匹配该数据集的字段‑值对的方式处理该验证普查,用该验证普查的内容来丰富该值普查。

【技术实现步骤摘要】
【国外来华专利技术】将验证结果整合到数据归档中的技术以及相关系统和方法
技术介绍
消耗和/或产生数据集的企业和其他组织对这些数据集的质量保证相当感兴趣。数据集的大小可能很大,通常包含成千上万甚至数百万条记录,使得对这些数据集进行自动化分析是审查这些记录是否满足预定的质量保证指标的唯一可行方法。数据集的质量保证分析通常利用有效性规范,该规范基于记录的内容来定义数据集的记录何时被认为有效和无效。另外,对记录的数据字段值的统计分析(诸如对每个值的实例的计数)在除有效性检查之外还可以产生有价值的质量保证信息。作为这种过程的说明,数据集的记录格式可以包含邮政编码数据字段,该邮政编码数据字段与检查邮政编码是否遵循适当的格式(例如,在美国为五位数字或五位数字加上四位数字扩展)的有效性规则相关联。将这种有效性规则应用于数据集的记录可以指示数据集中有多少记录包含有效或无效的美国邮政编码值。即使邮政编码值的格式正确,也可能从对邮政编码值的统计分析中获得进一步的质量保证信息。例如,如果大量邮政编码值意外地具有相同的值,则可能会出现质量保证问题。邮政编码值的这种分布可能指示产生或修改邮政编码值的过程中出现了数据处理错误。利用验证方法和统计方法两者的分析在本文中称为“归档”数据集。这种分析的集合性结果在本文中称为“数据简档”。
技术实现思路
根据一些方面,提供了一种操作数据处理系统以基于以下各项生成数据简档的计算机实施的方法:数据集,该数据集具有定义多个字段的相关联记录格式;针对该数据集的值普查,该值普查包括第一多个值,每个值具有该多个字段中的相关联字段和多个计数值,其中,计数值指示相应字段和值的组合在该至少一个数据集中出现的次数;以及验证规范,该验证规范包括多个验证规则,该多个验证规则定义针对该多个字段中的一个或多个字段的无效性的准则,该方法包括:至少部分地基于该数据集和该验证规范来生成验证普查,该验证普查包括:第二多个值,每个值具有该多个字段中的相关联字段;以及多个无效性指示,每个无效性指示与该第二多个值之一相关联;以及至少部分地基于该值普查和该验证普查,生成该至少一个数据集的数据简档,其中,生成该数据简档包括:将该第二多个值中的值及其相关联字段与该第一多个值中的值及其相关联字段进行匹配;以及至少部分地通过以下方式来产生针对该值普查的第一多个值的数据简档:用该验证普查的与该第二多个值中的匹配的值及其相关联字段相关联的无效性指示来丰富该第一多个值中的值及其相关联字段。根据一些方面,提供了一种计算机系统,该计算机系统包括:至少一个处理器;至少一个用户接口设备;以及至少一个计算机可读介质,该至少一个计算机可读介质包括处理器可执行指令,这些处理器可执行指令在被执行时使该至少一个处理器执行基于以下各项生成数据简档的方法:数据集,该数据集具有定义多个字段的相关联记录格式;针对该数据集的值普查,该值普查包括第一多个值,每个值具有该多个字段中的相关联字段和多个计数值,其中,计数值指示相应字段和值的组合在该至少一个数据集中出现的次数;以及验证规范,该验证规范包括多个验证规则,该多个验证规则定义针对该多个字段中的一个或多个字段的无效性的准则,该方法包括:至少部分地基于该数据集和该验证规范来生成验证普查,该验证普查包括:第二多个值,每个值具有该多个字段中的相关联字段;以及多个无效性指示,每个无效性指示与该第二多个值之一相关联;以及至少部分地基于该值普查和该验证普查,通过以下方式生成该至少一个数据集的数据简档:将该第二多个值中的值及其相关联字段与该第一多个值中的值及其相关联字段进行匹配;以及至少部分地通过以下方式来产生针对该值普查的第一多个值的数据简档:用该验证普查的与该第二多个值中的匹配的值及其相关联字段相关联的无效性指示来丰富该第一多个值中的值及其相关联字段。根据一些方面,提供了一种用于基于以下各项生成数据简档的计算机系统:数据集,该数据集具有定义多个字段的相关联记录格式;针对该数据集的值普查,该值普查包括第一多个值,每个值具有该多个字段中的相关联字段和多个计数值,其中,计数值指示相应字段和值的组合在该至少一个数据集中出现的次数;以及验证规范,该验证规范包括多个验证规则,该多个验证规则定义针对该多个字段中的一个或多个字段的无效性的准则,该计算机系统包括:至少一个处理器;用于至少部分地基于该数据集和该验证规范来生成验证普查的装置,该验证普查包括:第二多个值,每个值具有该多个字段中的相关联字段;以及多个无效性指示,每个无效性指示与该第二多个值之一相关联;以及用于至少部分地基于该值普查和该验证普查、通过以下方式生成该至少一个数据集的数据简档的装置:将该第二多个值中的值及其相关联字段与该第一多个值中的值及其相关联字段进行匹配;以及至少部分地通过以下方式来产生针对该值普查的第一多个值的数据简档:用该验证普查的与该第二多个值中的匹配的值及其相关联字段相关联的无效性指示来丰富该第一多个值中的值及其相关联字段。可以用上文或下文进一步详细描述的方面、特征和动作的任何适当组合来实施前述装置和方法的实施例。根据以下描述并结合附图可以更全面地理解本传授内容的这些和其他方面、实施例和特征。附图说明将参照以下附图描述各个方面和实施例。应当理解,附图不一定按比例绘制。在附图中,在各个附图中展示的每个完全相同或几乎相同的部件由相同的数字表示。为了清楚起见,可能并非在每个附图中都标记了每个部件。图1是描绘了根据一些实施例的归档数据集的过程的流程图;图2A是描绘了根据一些实施例的通过将值普查的数据与验证普查的数据进行组合来丰富值普查的过程的流程图;图2B根据一些实施例描绘了图2A的过程中的说明性数据;图2C描绘了根据一些实施例的用例,在该用例中,不同的用户和/或过程创建值普查并在图2A的过程中丰富值普查;图2D描绘了根据一些实施例的用于生成适合于与值普查组合的形式的验证普查的说明性过程;图3A是描绘了根据一些实施例的通过将值普查的数据与验证普查的数据进行组合来丰富值普查的第一技术的流程图;图3B是描绘了根据一些实施例的图3A的过程中的说明性数据的流程图;图3C是描绘了根据一些实施例的根据图3A的第一技术来丰富值普查的流程图;图4A是描绘了根据一些实施例的通过将值普查的数据与验证普查的数据进行组合来丰富值普查的第二技术的流程图;图4B是描绘了根据一些实施例的图4A的过程中的说明性数据的流程图;图4C是描绘了根据一些实施例的根据图4A的第二技术来丰富值普查的流程图;图5A是描绘了根据一些实施例的通过将值普查的数据与验证普查的数据进行组合来丰富值普查的第三技术的流程图;图5B是描绘了根据一些实施例的图5A的过程中的说明性数据的流程图;图5C是描绘了根据一些实施例的根据图5A的第三技术来丰富值普查的流程图;图5D根据一些实施例展示了根据字段-值对的类型有效性的真值表;以及图6展示了可以在其上实施本专利技术的各个方面的计算系统环境的示例。具体实施方式如上所本文档来自技高网...

【技术保护点】
1.一种操作数据处理系统以基于以下各项生成数据简档的计算机实施的方法:数据集,该数据集具有定义多个字段的相关联记录格式;针对该数据集的值普查,该值普查包括第一多个值,每个值具有该多个字段中的相关联字段和多个计数值,其中,计数值指示相应字段和值的组合在该至少一个数据集中出现的次数;以及验证规范,该验证规范包括多个验证规则,该多个验证规则定义针对该多个字段中的一个或多个字段的无效性的准则,该方法包括:/n至少部分地基于该数据集和该验证规范来生成验证普查,该验证普查包括:/n第二多个值,每个值具有该多个字段中的相关联字段;以及/n多个无效性指示,每个无效性指示与该第二多个值之一相关联;以及/n至少部分地基于该值普查和该验证普查,生成该至少一个数据集的数据简档,其中,生成该数据简档包括:/n将该第二多个值中的值及其相关联字段与该第一多个值中的值及其相关联字段进行匹配;以及/n至少部分地通过以下方式来产生针对该值普查的第一多个值的数据简档:用该验证普查的与该第二多个值中的匹配的值及其相关联字段相关联的无效性指示来丰富该第一多个值中的值及其相关联字段。/n

【技术特征摘要】
【国外来华专利技术】1.一种操作数据处理系统以基于以下各项生成数据简档的计算机实施的方法:数据集,该数据集具有定义多个字段的相关联记录格式;针对该数据集的值普查,该值普查包括第一多个值,每个值具有该多个字段中的相关联字段和多个计数值,其中,计数值指示相应字段和值的组合在该至少一个数据集中出现的次数;以及验证规范,该验证规范包括多个验证规则,该多个验证规则定义针对该多个字段中的一个或多个字段的无效性的准则,该方法包括:
至少部分地基于该数据集和该验证规范来生成验证普查,该验证普查包括:
第二多个值,每个值具有该多个字段中的相关联字段;以及
多个无效性指示,每个无效性指示与该第二多个值之一相关联;以及
至少部分地基于该值普查和该验证普查,生成该至少一个数据集的数据简档,其中,生成该数据简档包括:
将该第二多个值中的值及其相关联字段与该第一多个值中的值及其相关联字段进行匹配;以及
至少部分地通过以下方式来产生针对该值普查的第一多个值的数据简档:用该验证普查的与该第二多个值中的匹配的值及其相关联字段相关联的无效性指示来丰富该第一多个值中的值及其相关联字段。


2.如权利要求1所述的方法,其中,该数据集的数据简档针对该多个字段中的第一字段指定该数据集的多个记录,该多个记录的针对该第一字段的值根据该验证规范是有效的。


3.如权利要求1所述的方法,其中,生成该验证普查包括生成针对该数据集的一个或多个记录的无效性指示。


4.如权利要求1所述的方法,进一步包括生成该数据集的多个记录根据该验证规范是无效的指示。


5.如权利要求1所述的方法,其中,该验证普查包括至少两种不同的无效性指示,该至少两种不同的无效性指示各自与该第二多个值中的第一值相关联。


6.如权利要求1所述的方法,其中,该数据集的数据简档针对该多个字段中的第一字段指定该数据集的多个记录,该多个记录的针对该第一字段的值根据该验证规范是null且无效的。


7.如权利要求1所述的方法,进一步包括通过以下方式生成该值普查:
根据该记录格式将该数据集的内容解析为数据结构;
整理与该多个字段中的每个字段相关联的值的实例;以及
记录所述实例的计数。


8.一种计算机系统,包括:
至少一个处理器;
至少一个用户接口设备;以及
至少一个计算机可读介质,该至少一个计算机可读介质包括处理器可执行指令,这些处理器可执行指令在被执行时使该至少一个处理器执行基于以下各项生成数据简档的方法:
数据集,该数据集具有定义多个字段的相关联记录格式;
针对该数据集的值普查,该值普查包括第一多个值,每个值具有该多个字段中的相关联字段和多个计数值,其中,计数值指示相应字段和值的组合在该至少一个数据集中出现的次数;以及
验证规范,该验证规范包括多个验证规则,该多个验证规则定义针对该多个字段中的一个或多个字段的无效性的准则,该方法包括:
至少部分地基于该数据集和该验证规范来生成验证普...

【专利技术属性】
技术研发人员:乔尔·古尔德S·瑞比奇
申请(专利权)人:起元技术有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1