用于处理相关数据集的方法及数据处理系统技术方案

技术编号:14339615 阅读:71 留言:0更新日期:2017-01-04 12:10
处理相关数据集包括:接收(202)来自多个数据集(308,314,320)的记录;并且,在数据处理系统(100)中处理来自多个数据集的每一个的记录。该处理包括:分析(206)在数据存储系统(116)中存储的至少一个约束规范(302,312)以确定用于多个数据集的处理顺序,该约束规范指定用于保留在包括多个数据集的一组相关数据集之间的引用完整性或统计一致性的一个或多个约束;以所确定的处理顺序在来自多个数据集的每一个的记录应用(208)一个或多个变换,并且存储(212)或输出对于来自多个数据集的每一个的记录的变换的结果。

【技术实现步骤摘要】
本申请是申请日为2011年6月22日、国家申请号为201180040706.5、专利技术名称为“处理相关数据集”的申请的分案申请。对于相关申请的交叉引用本专利技术要求通过引用包含的、在2010年6月22日提交的美国申请第61/357,376号的优先权。
本专利技术涉及处理相关数据集。
技术介绍
数据集是例如在任何数量的物理存储介质上容纳的数据存储系统中存储(例如,在一个或多个服务器上容纳的数据库中存储)的数据的集合。可以例如通过诸如文件或其他形式的对象(例如,在面向对象的数据库中存储的对象)的实体来描述数据集的诸如其结构和存储位置的属性。在一些情况下,用于描述特定数据集的实体(例如,文件)也存储在那个数据集中的数据。在一些情况下,用于描述特定数据集的实体(例如,指向数据库表格的对象)不必然存储在那个数据集中的所有数据,而是可以用于定位在数据存储系统中的一个或多个位置中存储的数据。可以使用多种结构的任何一种来组织在数据集中的数据,该多种结构包括向单独的记录提供用于相应字段的值(也称为“属性”或“列”)的记录结构,该值可能包括空值(例如,指示字段是空的)。例如,该记录可以对应于在数据库系本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201610703060.html" title="用于处理相关数据集的方法及数据处理系统原文来自X技术">用于处理相关数据集的方法及数据处理系统</a>

【技术保护点】
一种用于处理相关数据集的方法,所述方法包括:通过输入装置或端口接收来自多个数据集的给定数据集的记录,所述给定数据集的记录具有用于一个或多个相应字段的一个或多个值;并且,在数据处理系统中处理来自所述多个数据集的每一个的记录,所述处理包括:分析在数据存储系统中存储的至少一个约束规范,以确定对于所述多个数据集的处理顺序,所述约束规范指定用于保留在包括所述多个数据集的一组相关数据集之间的引用完整性或统计一致性的一个或多个约束;以所述确定的处理顺序向来自所述多个数据集的每一个的记录应用一个或多个变换,其中,在向来自所述多个数据集的第二数据集的记录应用所述变换之前,向来自所述多个数据集的第一数据集的记录应...

【技术特征摘要】
2010.06.22 US 61/357,3761.一种用于处理相关数据集的方法,所述方法包括:通过输入装置或端口接收来自多个数据集的给定数据集的记录,所述给定数据集的记录具有用于一个或多个相应字段的一个或多个值;并且,在数据处理系统中处理来自所述多个数据集的每一个的记录,所述处理包括:分析在数据存储系统中存储的至少一个约束规范,以确定对于所述多个数据集的处理顺序,所述约束规范指定用于保留在包括所述多个数据集的一组相关数据集之间的引用完整性或统计一致性的一个或多个约束;以所述确定的处理顺序向来自所述多个数据集的每一个的记录应用一个或多个变换,其中,在向来自所述多个数据集的第二数据集的记录应用所述变换之前,向来自所述多个数据集的第一数据集的记录应用所述变换,并且至少部分地基于向来自所述第一数据集的所述记录应用所述变换的结果和由所述约束规范指定的在所述第一数据集和所述第二数据集之间的至少一个约束来应用向来自所述第二数据集的所述记录应用的所述变换;其中,由所述约束规范指定的用于保留统计一致性的至少一个约束基于在所述第二数据集的字段和所述第一数据集的字段之间的等同;以及存储或输出对于来自所述多个数据集的每一个的所述记录的所述变换的结果。2.根据权利要求1所述的方法,其中,由所述约束规范指定的用于保留引用完整性的至少一个约束基于用于所述第二数据集的字段的值对于用于所述第一数据集的字段的值的依赖。3.根据权利要求2所述的方法,其中,所述第一数据集的所述字段是主密钥,并且所述第二数据集的所述字段是引用所述主密钥的外密钥。4.根据权利要求3所述的方法,其中,所述约束规范包括在所述第二数据集的所述字段和所述第一数据集的所述字段之间的外密钥与主密钥关系的表示。5.根据权利要求2所述的方法,其中,确定用于所述多个数据集的所述处理顺序包括:确定所述第一数据集以基于用于所述第二数据集的字段的值对于用于所述第一数据集的字段的值的依赖的处理顺序来在所述第二数据集之前出现。6.根据权利要求1所述的方法,其中,在所述变换被应用到来自所述第二数据集的记录之前,并且在所述变换被应用到来自所述第一数据集的记录之后,向来自多个数据集的第三数据集的记录应用所述变换。7.根据权利要求1所述的方法,其中,所述结合操作从数据集中去除与来自其他数据集的记录不匹配的记录,或者所述结合操作使数据集中的记录的分布均匀。8.根据权利要求7所述的方法,其中,在预定的容限内保留所述引用完整性和所述统计一致性。9.根据权利要求8所述的方法,其中,所述约束规范包括所述结合操作的表示。10.根据权利要求1所述的方法,进一步包括:剖析在所述一组相关数据集中的所述数据集以确定与多个字段相关联的统计,所述多个字段包括所述第一数据集的至少一个字段和由所述约束规范指示为相等于所述第一数据集的所述字段的所述第二数据集的至少一个字段。11.根据权利要求10所述的方法,其中,根据所述确定的统计和向来自所述第一数据集的所述记录应用所述变换的所述结果,至少部分地基于保留在所述第一数据集的所述字段中的值的分布和在所述第二数据集的所述字段中的值的分布之间的统计一致性来应用向来自所述第二数据集的所述记录应用的所述一个或多个变换。12.根据权利要求1所述的方法,其中,通过至少一个数据流图形来应用所述一个或多个变换,所述至少一个数据流图形包括节点,所述节点表示通过用于表示在数据处理部件之间的记录的流的链路连接的数据处理部件,被应用所述变换的每一个数据集向所述数据流图形提供记录的输入流。13.根据权利要求12所述的方法,其中,使用所述多个数据集的相应的一个来以多个迭代连续地执行所述数据流图形,以便以用于所述多个数据集的所述确定的处理顺序来提供记录的输入流。14.根据权利要求1所述的方法,其中,被应用到给定数据集的记录的所述一个或多个变换包括子集变换,所述子集变换基于在所述给定数据集的至少一个字段中的值来减少在所述给定数据集中的记录的数量。15.根据权利要求1所述的方法,其中,向给定数据集的记录应用的所述一个或多个变换包括修改变换,所述修改变换修改在所述数据集的至少一个字段中的值。16.根据权利要求1所述的方法,其中,向给定数据集的记录应用的所述一个或多个变换包括扩展信息,所述扩展信息基于在所述给定数据集的至少一个字段中的值的复制来增大在所述给定数据集中的记录的数量。17.根据权利要求1所述的方法,进一步包括:分析在所述数据存储系统中存储的至少一个约束规范,以确定对于源自向来自所述多个数据集的每一个的所述记录应用所述变换的结果数据集的处理顺序,所述约束规范指定用于保留在包括所述结果数据集的一组相关数据集之间的引用完整性或统计一致性的一个或多个约束;以所述确定的处理顺序向来自所述结果数据集的每一个的记录应用一个或多个变换,其中,在向来自所述结果数据集的第二数据集的记录应用所述变换之前,向来自所述结果数据集的第一数据集的记录应用所述变换,并且至少部分地基于向来自所述第一数据集的所述记录应用所述变换的结果和由所述约束规范指定的在所述第一数据集和所述第二数据集之间的至少一个约束来应用向来自所述第二数据集的所述记录应用的所述变换;以及存储或输出向来自所述结果记录的每一个的所述记录的所述变换的结果。18.一种用于处理相关数据集的数据处理系统,所述系统包括:数据存储系统;输入装置或端口,其被配置来接收来自多个数据集的给定数据集的记录,所述给定数据集的记录具有用于一个或多个相应字段的一个或多个值;以及,至少一个处理器,其与所述输入装置或端口和所述数据存储系统进行通信,并且被配置来处理来自所述多个数据集的每一个的记录,所述处理包括:分析在数据存储系统中存储的至少一个约束规范,以确定对于所述多个数据集的处理顺序,所述约束规范指定用于保留在包括所述多个数据集的一组相关数据集之间的引用完整性或统计一致性的一个或多个约束;以所述确定的处理顺序向来自所述多个数据集的每一个的记录应用一个或多个变换,其中,在向来自所述多个数据集的第二数据集的记录应用所述变换之前,向来自所述多个数据集的第一数据集的记录应用所述变换,并且至少部分地基于向来自所述第一数据集的所述记录应用所述变换的结果和由所述约束规范指定的在所述第一数据集和所述第二数据集之间的至少一个约束来应用向来自所述第二数据集的所述记录应用的所述变换;其中,由所述约束规范指定的用于保留统计一致性的至少一个约束基于在所述第二数据集的字段和所述第一数据集的字段之间的等同;以及存储或输出对于来自所述多个数据集的每一个的所述记录的所述变换的结果。19.根据权利要求18所述的系统,其中,由所述约束规范指定的用于保留引用完整性的至少一个约束基于用于所述第二数据集的字段的值对于用于所述第一数据集的字段的值的依赖。20.根据权利要求19所述的系统,其中,所述第一数据集的所述字段是主密钥,并且所述第二数据集的所述字段是引用所述主密钥的外密钥。21.根据权利要求20所述的系统,其中,所述约束规范包括在所述第二数据集的所述字段和所述第一数据集的所述字段之间的外密钥与主密钥关系的表示。22.根据权利要求19所述的系统,其中,确定用于所述多个数据集的所述处理顺序包括:确定所述第一数据集以基于用于所述第二数据集的字段的值对于用于所述第一数据集的字段的值的依赖的处理顺序来在所述第二数据集之前出现。23.根据权利要求18所述的系统,其中,在所述变换被应用到来自所述第二数据集的记录之前,并且在所述变换被应用到来自所述第一数据集的记录之后,向来自多个数据集的第三数据集的记录应用所述变换。24.根据权利要求18所述的系统,其中,所述结合操作从数据集中去除与来自其他数据集的记录不匹配的记录,或者所述结合操作使数据集中的记录的分布均匀。25.根据权利要求24所述的系统,其中,在预定的容限内保留所述引用完整性和所述统计一致性。26.根据权利要求25所述的系统,其中,所述...

【专利技术属性】
技术研发人员:AF罗伯茨
申请(专利权)人:起元技术有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1