过滤数据沿袭图制造技术

技术编号:16708035 阅读:50 留言:0更新日期:2017-12-02 23:18
管理沿袭信息包括处理有向图以将多个节点(102、104、106)与用于处理数据沿袭表示请求的信息相关联。处理包括:识别所述有向图中与数据存储器中存储的标准化数据元素对应的一个或多个节点(1362、1364、1366)的第一集合,并将从数据存储器中取回的数据元素去标准化;以及将连接至一个或多个节点的第一集合的第一组多个节点(1370、1372、1374)以及连接至一个或多个节点的第一集合的第二组多个节点(1376、1378、1380)与具有多个可能标签值的至少一个标签标识符相关联,其中可能标签值的数量至少与被标准化后的数据元素的数量一样多,其中在去标准化后的记录中表示不同数据元素的节点与所述标签标识符的不同值关联。

Filter data lineage diagram

The management lineage information includes processing a directed graph to associate multiple nodes (102, 104, 106) with the information used to process the data lineage representation request. Treatment includes: the identification of the one or more nodes to store map data in memory and standardized data elements corresponding to (1362, 1364, 1366) of the first set, and data elements will be retrieved from the data memory to standardization; and a first plurality of nodes will be connected to the first set one or more of the nodes (1370, 1372, 1374) and the first set is connected to one or more nodes of the second groups of a plurality of nodes (1376, 1378, 1380) and has a plurality of symbols may be associated with at least one label label value, which may be as much as the number of labels the value of at least and standardized data elements, which represent different values associated with different node data elements and the tag identifier to standardized records.

【技术实现步骤摘要】
【国外来华专利技术】过滤数据沿袭图相关申请的交叉引用本申请要求于2015年2月11日提交的序号为62/114,691的美国申请的优先权。
本说明书涉及用于过滤数据沿袭(datalineage)图的沿袭标签。
技术介绍
在数据处理系统中,某些类型的用户通常期望能够访问贯穿系统的数据沿袭的视觉表示。这样的“数据沿袭图”可以包括系统中的数据和用于处理该数据实体的图形表示以及它们之间的依赖关系。通常,在许多用途中,可以使用这些数据沿袭图来降低风险,验证合规性义务(regulatorycomplianceobligation),提高业务流程效率以及保护数据。重要的是数据沿袭图是正确且完整的。能够产生并显示数据沿袭图的一些系统能够自动呈现端到端的数据沿袭图,这些数据沿袭图示出数据项的表示,并且显示表示了用于消耗或生成这些数据项的处理实体的项的表示。在一些示例中,特定项上游的沿袭路径有时称为该项的“依赖性沿袭(dependencylineage)”,并且特定项下游的沿袭路径有时称为该项的“影响沿袭(impactlineage)”。在其他示例中,特定项上游的沿袭路径被称为“沿袭”或“依赖性”,并且特定项下游的沿袭路径称为“影响”或“影响分析”。如本文所使用的,“数据沿袭图”可以包括相对于任意给定项的上游依赖性沿袭和/或下游影响性沿袭。能够生成并显示数据沿袭图的一些系统允许用户将数据沿袭图中项的逻辑和/或物理组分解成单个元素。能够生成并显示数据沿袭图的一些系统能够通过丰富的数据信息(如数据质量评分)来增强数据沿袭图。
技术实现思路
在一个方面,通常,一种用于在计算系统中管理沿袭信息的方法,所述方法包括:在数据存储系统中储存有向图的规范,所述有向图的规范包括表示计算的多个节点以及表示在计算执行期间通过计算接收或产生的数据元素的多个节点以及表示计算和数据元素之间的沿袭关系的节点之间的有向链路;使用至少一个处理器处理所述规范,以将多个节点与用于处理数据沿袭表示请求的信息相关联。所述处理包括:识别所述有向图中与数据存储器中存储的标准化数据元素对应的一个或多个节点的第一集合,并将从所述数据存储器中取回的数据元素去标准化,其中将数据元素标准化包括将对应于多个数据元素的记录转换成具有针对至少一个字段的通用格式的多个记录,其中将数据元素去标准化包括将具有针对至少一个字段的通用格式的多个记录转换成对应于多个数据元素的单个记录;以及将通过表示第一沿袭关系的第一有向链路连接至一个或多个节点的所述第一集合的第一组多个节点以及通过表示第二沿袭关系的第二有向链路连接至一个或多个节点的所述第一集合的第二组多个节点与具有多个可能标签值的至少一个标签标识符相关联,其中所述可能标签值的数量至少与被标准化后的数据元素的数量一样多,其中在去标准化后的记录中表示不同数据元素的节点与所述标签标识符的不同值关联。多个方面可以包括如下特征中的一个或多个。一个或多个节点的所述第一集合中的一个或多个节点执行的计算包括:接收第一记录和第二记录,所述第一记录包括与所述第一组多个节点中的第一节点相关联的第一字段,所述第一字段存储有第一类型的值,所述第二记录包括与所述第一组多个节点中的第二节点相关联的第二字段,所述第二字段存储有所述第一类型的值;生成标准化后的记录,所述标准化后的记录包括第三字段以及第四字段,所述第三字段存储有来自所述第一字段的值和来自所述第二字段的值,所述第四字段存储有用于标识是所述第一字段还是所述第二字段的值;以及将所述标准化后的记录存储在所述数据存储器中。所述一个或多个节点的所述第一集合中的一个或多个节点执行的计算包括:从所述数据存储器取回所述标准化后的记录;以及至少部分基于所述第四字段中的值生成第一去标准化后的记录和第二去标准化后的记录,所述第一去标准化后的记录包括与所述第二组多个节点中的第三节点相关联的第五字段,所述第五字段存储来自所述第三字段的所述第一类型的值,所述第二去标准化后的记录包括与所述第二组多个节点中的第四节点相关联的第六字段,所述第六字段存储来自所述第三字段的所述第一类型的值。一个或多个节点的所述第一集合包括:用于表示被执行以生成所述标准化后的记录的计算部分的节点;用于表示包括所述标准化后的记录的存储在所述数据存储器中的数据元素的节点;以及用于表示被执行以生成所述第一去标准化后的记录和所述第二去标准化后的记录的计算部分的节点。将所述第一组多个节点与所述标签标识符的不同值相关联包括将所述第一节点与所述标签标识符的第一值相关联,以及将所述第二节点与所述标签标识符的第二值相关联,所述标签标识符的第二值与所述标签标识符的第一值不同;以及将所述第二组多个节点与所述标签标识符的不同值相关联包括将所述第三节点与所述标签标识符的第一值相关联,以及将所述第四节点与所述标签标识符的第二值相关联。所述方法还包括:使用至少一个处理器处理针对所述第三节点的数据沿袭表示请求,所述处理包括:确定所述第三节点与所述至少一个标签标识符之间的关联关系,确定第一子集,所述第一子集是所述标签标识符的所述多个可能标签值中的至少一个且少于全部所述多个可能标签值;沿着从所述第三节点开始的有向链路的第一沿袭路径遍历多个节点,以确定所述第三节点的数据沿袭,其中确定所述数据沿袭包括:对于每个被遍历的节点,至少部分基于与所述被遍历的节点相关联的任何标签标识符或者标签值,确定是将所述被遍历的节点添加至所述数据沿袭还是将所述被遍历的节点从所述数据沿袭排除。确定所述数据沿袭包括:遍历所述第一沿袭路径上的所述第一节点;响应于确定所述第一节点与所述标签标识符相关联并且与包括在所述第一子集中的所述标签标识符的所述第一值相关联,将所述第一节点添加到所述数据沿袭中;沿着从所述第三节点开始的有向链路的第二沿袭路径遍历节点,以确定所述第三节点的数据沿袭,包括遍历所述第二沿袭路径上的所述第二节点;以及响应于确定所述第二节点与所述标签标识符相关联但不与包括在所述第一子集中的任何标签标识符相关联,将所述第二节点从所述数据沿袭中排除。确定所述数据沿袭还包括遍历一个或多个节点的所述第一集合,以及响应于确定一个或多个节点的所述第一集合不与所述标签标识符相关联而将一个或多个节点的所述第一集合添加到所述数据沿袭中。确定所述数据沿袭包括:对于每个被遍历的节点:如果所述被遍历的节点不与所述标签标识符相关联,或者所述被遍历的节点与所述标签标识符相关联并且与所述第一子集中的至少一个标签值相关联,则将所述被遍历的节点添加到所述数据沿袭中;或如果所述被遍历的节点与所述标签标识符相关联但不与所述标签标识符的所述多个可能标签值的第一子集中的至少一个标签值相关联,则将所述被遍历的节点从所述数据沿袭中排除。所述方法还包括:在将被遍历的节点从所述数据沿袭中排除时,终止所述第一沿袭路径的遍历。所述方法还包括:在遍历所述多个节点中的节点之前,分析所述多个节点,以确定与所述标签标识符相关联但不与所述标签标识符的所述多个可能标签值的所述第一子集中的至少一个标签值相关联的所述多个节点的第一子集。确定是将所述被遍历的节点添加到所述数据沿袭还是将所述被遍历的节点从所述数据沿袭中排除包括:确定所述被遍历的节点是否包括在所述多个节点的所述第一子集中。确定是否将所述被遍历的节点本文档来自技高网...
过滤数据沿袭图

【技术保护点】
一种用于在计算系统中管理沿袭信息的方法,所述方法包括:在数据存储系统中储存有向图的规范,所述有向图的规范包括表示计算的多个节点以及表示在计算执行期间通过计算接收或产生的数据元素的多个节点以及表示计算和数据元素之间的沿袭关系的节点之间的有向链路;使用至少一个处理器处理所述规范,以将多个节点与用于处理数据沿袭的表示的请求的信息相关联,所述处理包括:识别所述有向图中与数据存储器中存储的标准化数据元素对应的一个或多个节点的第一集合,并将从所述数据存储器中取回的数据元素去标准化,其中将数据元素标准化包括将对应于多个数据元素的记录转换成具有针对至少一个字段的通用格式的多个记录,其中将数据元素去标准化包括将具有针对至少一个字段的通用格式的多个记录转换成对应于多个数据元素的单个记录;以及将通过表示第一沿袭关系的第一有向链路连接至一个或多个节点的所述第一集合的第一组多个节点以及通过表示第二沿袭关系的第二有向链路连接至一个或多个节点的所述第一集合的第二组多个节点与具有多个可能标签值的至少一个标签标识符相关联,其中所述可能标签值的数量至少与被标准化后的数据元素的数量一样多,其中在去标准化后的记录中表示不同数据元素的节点与所述标签标识符的不同值关联。...

【技术特征摘要】
【国外来华专利技术】2015.02.11 US 62/114,6911.一种用于在计算系统中管理沿袭信息的方法,所述方法包括:在数据存储系统中储存有向图的规范,所述有向图的规范包括表示计算的多个节点以及表示在计算执行期间通过计算接收或产生的数据元素的多个节点以及表示计算和数据元素之间的沿袭关系的节点之间的有向链路;使用至少一个处理器处理所述规范,以将多个节点与用于处理数据沿袭的表示的请求的信息相关联,所述处理包括:识别所述有向图中与数据存储器中存储的标准化数据元素对应的一个或多个节点的第一集合,并将从所述数据存储器中取回的数据元素去标准化,其中将数据元素标准化包括将对应于多个数据元素的记录转换成具有针对至少一个字段的通用格式的多个记录,其中将数据元素去标准化包括将具有针对至少一个字段的通用格式的多个记录转换成对应于多个数据元素的单个记录;以及将通过表示第一沿袭关系的第一有向链路连接至一个或多个节点的所述第一集合的第一组多个节点以及通过表示第二沿袭关系的第二有向链路连接至一个或多个节点的所述第一集合的第二组多个节点与具有多个可能标签值的至少一个标签标识符相关联,其中所述可能标签值的数量至少与被标准化后的数据元素的数量一样多,其中在去标准化后的记录中表示不同数据元素的节点与所述标签标识符的不同值关联。2.根据权利要求1所述的方法,其中,由一个或多个节点的所述第一集合中的一个或多个节点执行的计算包括:接收第一记录和第二记录,所述第一记录包括与所述第一组多个节点中的第一节点相关联的第一字段,所述第一字段存储有第一类型的值,所述第二记录包括与所述第一组多个节点中的第二节点相关联的第二字段,所述第二字段存储有所述第一类型的值;生成标准化后的记录,所述标准化后的记录包括第三字段以及第四字段,所述第三字段存储有来自所述第一字段的值和来自所述第二字段的值,所述第四字段存储有用于标识是所述第一字段还是所述第二字段的值;以及将所述标准化后的记录存储在所述数据存储器中。3.根据权利要求2所述的方法,其中,由所述一个或多个节点的所述第一集合中的一个或多个节点执行的计算包括:从所述数据存储器取回所述标准化后的记录;以及至少部分基于所述第四字段中的值生成第一去标准化后的记录和第二去标准化后的记录,所述第一去标准化后的记录包括与所述第二组多个节点中的第三节点相关联的第五字段,所述第五字段存储来自所述第三字段的所述第一类型的值,所述第二去标准化后的记录包括与所述第二组多个节点中的第四节点相关联的第六字段,所述第六字段存储来自所述第三字段的所述第一类型的值。4.根据权利要求3所述的方法,其中,一个或多个节点的所述第一集合包括:用于表示被执行以生成所述标准化后的记录的计算部分的节点;用于表示包括所述标准化后的记录的存储在所述数据存储器中的数据元素的节点;以及用于表示被执行以生成所述第一去标准化后的记录和所述第二去标准化后的记录的计算部分的节点。5.根据权利要求2所述的方法,其中:将所述第一组多个节点与所述标签标识符的不同值相关联包括将所述第一节点与所述标签标识符的第一值相关联,以及将所述第二节点与所述标签标识符的第二值相关联,所述标签标识符的第二值与所述标签标识符的第一值不同;以及将所述第二组多个节点与所述标签标识符的不同值相关联包括将所述第三节点与所述标签标识符的第一值相关联,以及将所述第四节点与所述标签标识符的第二值相关联。6.根据权利要求5所述的方法,还包括:使用至少一个处理器处理针对所述第三节点的数据沿袭的表示的请求,所述处理包括:确定所述第三节点与所述至少一个标签标识符之间的关联关系,确定所述标签标识符的所述多个可能标签值中的至少一个且少于全部的所述多个可能标签值的第一子集,所述第一子集包括所述标签标识符的所述第一值;沿着从所述第三节点开始的有向链路的第一沿袭路径遍历多个节点,以确定所述第三节点的数据沿袭,其中确定所述数据沿袭包括:对于每个被遍历的节点,至少部分基于与所述被遍历的节点相关联的任何标签标识符或者标签值,确定是将所述被遍历的节点添加至所述数据沿袭还是将所述被遍历的节点从所述数据沿袭排除。7.根据权利要求6所述的方法,其中,确定所述数据沿袭包括:遍历所述第一沿袭路径上的所述第一节点;响应于确定所述第一节点与所述标签标识符相关联并且与包括在所述第一子集中的所述标签标识符的所述第一值相关联,将所述第一节点添加到所述数据沿袭中;沿着从所述第三节点开始的有向链路的第二沿袭路径遍历节点,以确定所述第三节点的数据沿袭,包括遍历所述第二沿袭路径上的所述第二节点;以及响应于确定所述第二节点与所述标签标识符相关联但不与包括在所述第一子集中的任何标签标识符相关联,将所述第二节点从所述数据沿袭中排除。8.根据权利要求7所述的方法,其中,确定所述数据沿袭还包括遍历一个或多个节点的所述第一集合,以及响应于确定一个或多个节点的所述第一集合不与所述标签标识符相关联而将一个或多个节点的所述第一集合添加到所述数据沿袭中。9.根据权利要求6所述的方法,其中,确定所述数据沿袭包括:对于每个被遍历的节点:如果所述被遍历的节点不与所述标签标识符相关联,或者所述被遍历的节点与所述标签标识符相关联并且与所述第一子集中的至少一个标签值相关联,则将所述被遍历的节点添加到所述数据沿袭中;或如果所述被遍历的节点与所述标签标识符相关联但不与所述标签标识符的所述多个可能标签值的第一子集中的至少一个标签值相关联,则将所述被遍历的节点从所述数据沿袭中排除。10.根据权利要求9所述的方法,还包括:在将被遍历的节点从所述数据沿袭中排除时,终止所述第一沿袭路径的遍历。11.根据权利要求6所述的方法,还包括:在遍历所述多个节点中的节点之前,分析所述多个节点,以确定与所述标签标识符相关联但不与所述标签标识符的所述多个可能标签值的所述第一子集中的至少一个标签值相关联的所述多个节点的第一子集。12.根据权利要求11所述的方法,其中,确定是将所述被遍历的节点添加到所述数据沿袭还是...

【专利技术属性】
技术研发人员:D·拉迪沃杰维奇
申请(专利权)人:起元科技有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1