【技术实现步骤摘要】
跨异构系统的网络的计算数据沿袭
本领域涉及一种跨异构系统的网络的计算数据沿袭。
技术介绍
数据沿袭(lineage)信息描述数据的起源和历史。更具体地,数据沿袭信息描述了数据生命周期阶段,包括数据的创建、转换和处理。数据可以以多种方式表示,范围从文件到分析数据集、关键性能指标(KPI)和仪表板。诸如数据建模、数据管理、数据集成等的数据管理任务依赖于数据沿袭信息。随着组织机构越来越多地采用诸如或等大数据基础架构来存储各种类型的数据集(日志、收据、订阅源等),数据沿袭信息对大数据项目也很有价值。这些组织机构还利用作为构建软件信息的开发基础架构,其中原始数据集被变换并组合成聚合数据。通过或数据管道(datapipeline)提供的数据可以加载到商业智能(BI)基础架构中。但是,理解、管理和支配(govern)为大数据项目创建的大量数据变得越来越困难。例如,符合政府法规和数据政策对各个行业变得越来越重要。由于缺乏数据控制构成了多个行业数据基础设施的基础水平,因此审计和遵守数据管理法规变得更加复杂。数据沿袭的两个主要用例是影响和沿袭分析。例如,当开发人员执行维护操作时,需要跨连接系统进行影响分析。更改数据集的组织以满足应用程序的要求或更改描述数据变换的计算规范的定义可能需要了解此类更改可能对相关计算规范和数据集(可能位于所连接的系统)的影响。相反,当访问数据集时,用户可以请求从中生成数据集的原始数据集以及可能跨连接系统应用以生成数据集的连续数据变换链。在这种情况下,需要跨连接的系统的数据集的沿袭分析。因此,构成组织机构的公共数据图景的数据量不断增长,包括企业数据和大 ...
【技术保护点】
1.一种计算机实现的方法,包括:生成对应于多个数据对象的多个沿袭图,其中,所述多个数据对象的数据对象处的数据包括在存储在数据沿袭服务器(DLS)处的多个源数据集表的源数据集表中,并且其中,所述数据对象表示存储在数据源系统(DSS)处的多个数据集的数据集;从所述多个沿袭图中确定对应于数据集的沿袭图;以及基于沿袭图,提供一个或多个数据沿袭结构,其定义所述数据对象与一个或多个数据对象之间的关系,该一个或多个数据对象对应于与所述数据集相关的一个或多个数据集,其中,所述一个或多个数据沿袭结构包括来自所述数据集和来自所述一个或多个数据集的数据。
【技术特征摘要】
2017.12.20 US 15/849,0871.一种计算机实现的方法,包括:生成对应于多个数据对象的多个沿袭图,其中,所述多个数据对象的数据对象处的数据包括在存储在数据沿袭服务器(DLS)处的多个源数据集表的源数据集表中,并且其中,所述数据对象表示存储在数据源系统(DSS)处的多个数据集的数据集;从所述多个沿袭图中确定对应于数据集的沿袭图;以及基于沿袭图,提供一个或多个数据沿袭结构,其定义所述数据对象与一个或多个数据对象之间的关系,该一个或多个数据对象对应于与所述数据集相关的一个或多个数据集,其中,所述一个或多个数据沿袭结构包括来自所述数据集和来自所述一个或多个数据集的数据。2.如权利要求1所述的方法,其中,生成所述沿袭图以包括多条边和多个节点,其中,所述多个节点包括引用所述源数据集表的节点,引用对应于所述一个或多个数据集的一个或多个源数据集表的一个或多个节点,以及引用应用于所述一个或多个数据集以生成所述数据集的一个或多个变换操作的一个或多个变换节点。3.如权利要求2所述的方法,其中,所述沿袭图的生成包括:访问多个计算规范的计算规范,其中,所述计算规范与DSS处的数据集相关联;对于在所述计算规范中识别的变换操作:识别所述变换操作中的一个或多个语句;生成对应于所述变换操作的变换节点,其中,所述变换节点包括一个或多个属性计算节点,并且其中,所述一个或多个属性计算节点的属性计算节点包括所述一个或多个语句的语句;以及在与所述一个或多个数据集的父数据集相关联的输入源数据集表的列、所述属性计算节点和所述源数据集表的列之间创建映射,其中,所述输入源数据集表的列对应于所述父数据集的组件,并且其中,通过在所述父数据集的所述组件上应用语句来计算所述数据集的所述组件;以及对于计算规范,生成包括多个属性节点、一个或多个变换节点和多条边的计算节点图,其中,所述多个属性节点包括表示输入源数据集表的列的起源属性节点和表示源数据集表的列的目标属性节点,其中,所述一个或多个变换节点包括所述变换节点,并且其中,所述多条边包括表示所述起源属性节点和所述属性计算节点之间的映射的第一边,以及表示所述属性计算节点和所述目标属性节点之间的映射的第二边。4.如权利要求3所述的方法,其中,所述沿袭图的生成还包括:将所述计算节点图加载到数据沿袭存储器中,其中,所述加载包括:对于所述变换节点:从所述计算节点图中的所述多个属性节点继承起源属性节点和目标属性节点;继承包含所述一个或多个语句的所述一个或多个属性计算节点;以及基于所述多条边生成多个沿袭边,其中,所述多个沿袭边的第一沿袭边连接所述起源属性节点与所述属性计算节点,并且所述多个沿袭边的第二沿袭边连接所述属性计算节点与所述目标属性节点;以及基于所述多个变换节点生成所述沿袭图。5.如权利要求3所述的方法,还包括:在所述DLS和所述DSS之间建立远程源连接;基于所述远程源连接的凭证,访问所述多个数据集和所述多个数据集的元数据;将所述多个源数据集翻译为所述多个源数据集表;从所述多个源数据集表中获取所述多个数据对象;在所述DLS处存储所述多个数据对象和所述多个源数据集表;在所述DLS和所述DSS之间建立元数据连接;以及基于所述元数据连接的凭证,迭代地访问所述多个计算规范。6.如权利要求5所述的方法,其中,在DLS处存储所述多个源数据集表包括:合并与所述数据集相关联的一组源数据集表,其中,所述一组源数据集表由所述DLS的沿袭提取器通过相应的一组远程连接提供;在所述DLS处存储合并的源数据集表,其中,所述合并的源数据集表对应于所述源数据集;将所述合并的源数据集表与由所述DLS的不同沿袭提取器提供并且包括所述数据集的一个或多个组件的至少一个源数据集表相关联;以及创建与所述数据集对应的中介表。7.如权利要求1所述的方法,还包括:在用户界面(UI)设备处提供所述多个数据对象;以及通过所述UI设备接收来自用户的提供所述数据对象的数据沿袭信息的请求。8.如权利要求7所述的方法,还包括:检查所述用户的权限;以及模糊所述一个或多个数据沿袭结构的数据沿袭结构中的至少一个数据对象,其中,基于所述用户的权限,所述用户不能访问所述至少一个数据对象。9.一种用于在异构网络中提供沿袭信息的计算机系统,所述系统包括:处理器;以及与所述处理器相关联的存储器,存储与以下相关的指令:生成对应于多个数据对象的多个沿袭图,其中,所述多个数据对象的数据对象的数据包括在存储在数据沿袭服务器(DLS)处的多个源数据集表的源数据集表中,并且其中,所述数据对象表示存储在数据源系统(DSS)处的多个数据集的数据集;从所述多个沿袭图中确定对应于所述数据集的沿袭图;以及基于所述沿袭图,提供一个或多个数据沿袭结构,其定义所述数据对象与一个或多个数据对象之间的关系,该一个或多个数据对象对应于与所述数据集相关的一个或多个数据集,其中,所述一个或多个数据沿袭结构包括来自所述数据集以及来自所述一个或多个数据集的数据。10.如权利要求9所述的系统,其中,生成所述沿袭图以包括多条边和多个节点,其中,所述多个节点包括引用所述源数据集表的节点,引用对应于所述一个或多个数据集的一个或多个源数据集表的一个或多个节点,以及引用应用于所述一个或多个数据集以生成数据集的一个或多个变换操作的一个或多个变换节点。11.如权利要求9所述的系统,其中,所述沿袭图的生成包括:访问多个计算规范的计算规范,其中,所述计算规范与DSS处的数据集相关联;对于在计算规范中识别的变换操作:识别所述变换操作中的一个或多个语句;生成与所述变换操作对应的变换节点,其中,所述变换节点包括一个或多个属性计算节点,并且其中,所述一个或多个属性计算节点的属性计算节点包括所述一个或多...
【专利技术属性】
技术研发人员:E西蒙,F利尔巴特,
申请(专利权)人:SAP欧洲公司,
类型:发明
国别省市:德国,DE
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。