当前位置: 首页 > 专利查询>SAP欧洲公司专利>正文

跨异构系统的网络的计算数据沿袭技术方案

技术编号:21477737 阅读:31 留言:0更新日期:2019-06-29 04:50
生成对应于数据对象的沿袭图。所述数据对象之中的数据对象与存储在数据沿袭服务器(DLS)处的源数据集表相关联。所述源数据集表包括从存储在数据源系统(DSS)处的数据集接收的数据对象的数据。从所述沿袭图确定对应于所述数据集的沿袭图。基于所述沿袭图,提供一个或多个数据沿袭结构。所述一个或多个数据沿袭结构包括来自所述数据集和来自与所述数据集相关的一个或多个数据集的数据,并定义所述数据对象与对应于所述一个或多个数据集的一个或多个数据对象之间的沿袭关系。

【技术实现步骤摘要】
跨异构系统的网络的计算数据沿袭
本领域涉及一种跨异构系统的网络的计算数据沿袭。
技术介绍
数据沿袭(lineage)信息描述数据的起源和历史。更具体地,数据沿袭信息描述了数据生命周期阶段,包括数据的创建、转换和处理。数据可以以多种方式表示,范围从文件到分析数据集、关键性能指标(KPI)和仪表板。诸如数据建模、数据管理、数据集成等的数据管理任务依赖于数据沿袭信息。随着组织机构越来越多地采用诸如或等大数据基础架构来存储各种类型的数据集(日志、收据、订阅源等),数据沿袭信息对大数据项目也很有价值。这些组织机构还利用作为构建软件信息的开发基础架构,其中原始数据集被变换并组合成聚合数据。通过或数据管道(datapipeline)提供的数据可以加载到商业智能(BI)基础架构中。但是,理解、管理和支配(govern)为大数据项目创建的大量数据变得越来越困难。例如,符合政府法规和数据政策对各个行业变得越来越重要。由于缺乏数据控制构成了多个行业数据基础设施的基础水平,因此审计和遵守数据管理法规变得更加复杂。数据沿袭的两个主要用例是影响和沿袭分析。例如,当开发人员执行维护操作时,需要跨连接系统进行影响分析。更改数据集的组织以满足应用程序的要求或更改描述数据变换的计算规范的定义可能需要了解此类更改可能对相关计算规范和数据集(可能位于所连接的系统)的影响。相反,当访问数据集时,用户可以请求从中生成数据集的原始数据集以及可能跨连接系统应用以生成数据集的连续数据变换链。在这种情况下,需要跨连接的系统的数据集的沿袭分析。因此,构成组织机构的公共数据图景的数据量不断增长,包括企业数据和大数据湖,以及诸如分析师和数据科学家等授权用户访问和准备数据的持续趋势,增加了对跨异构系统连接的网络的沿袭和影响分析的必要性。
技术实现思路
根据一个或多个示范性实施例,一种计算机实现的方法包括:生成对应于多个数据对象的多个沿袭图,其中,所述多个数据对象的数据对象处的数据包括在存储在数据沿袭服务器(DLS)处的多个源数据集表的源数据集表中,并且其中,所述数据对象表示存储在数据源系统(DSS)处的多个数据集的数据集;从所述多个沿袭图中确定对应于数据集的沿袭图;以及基于沿袭图,提供一个或多个数据沿袭结构,其定义所述数据对象与一个或多个数据对象之间的关系,该一个或多个数据对象对应于与所述数据集相关的一个或多个数据集,其中,所述一个或多个数据沿袭结构包括来自所述数据集和来自所述一个或多个数据集的数据。附图说明权利要求具体阐述了实施例。在附图中通过示例的方式示出,而不是限制实施例,其中相同的附图标记表示相似的元件。从以下结合附图的详细描述中可以最好地理解实施例及其优点。图1是示出根据一个实施例的提供数据对象的数据沿袭信息的系统的框图。图2是示出根据一个实施例的提供数据对象的数据沿袭信息的过程的流程图。图3是示出根据一个实施例的从异构系统提取数据沿袭信息的系统的框图。图4A-图4B是示出根据一个实施例的生成属性沿袭图的过程的流程图。图5是示出根据一个实施例的数据集级别(level)沿袭模型的统一建模语言(UML)类图。图6是示出根据一个实施例的属性级别沿袭模型的UML类图。图7是示出根据一个实施例的数据集级别沿袭图的模型的UML类图。图8是示出根据一个实施例的属性级别沿袭图的模型的UML类图。图9是示出根据一个实施例的异构系统的示例性网络的框图。图10是示出根据一个实施例的互连异构沿袭数据的系统的框图。图11是示出根据一个实施例的提供数据对象的沿袭信息的数据结构的框图。图12是根据一个实施例的表示为多个表的示例性数据集。图13示出了根据一个实施例的示例性计算规范。图14示出了根据一个实施例的示例性计算节点图。图15示出了根据一个实施例的示例性数据集级别沿袭图。图16示出了根据一个实施例的示例性属性级别沿袭图。图17是示出根据一个实施例的数据集、源数据集表、中介表、合并数据集表和提取器之间的关系的UML类图。图18是根据一个实施例的示例性计算机系统的框图。具体实施方式本文描述了用于跨异构系统的网络计算数据沿袭的技术的实施例。在以下描述中,阐述了多个具体细节以提供对实施例的透彻理解。然而,相关领域的技术人员将认识到,可以在没有一个或多个具体细节的情况下或者利用其他方法、组件、材料等来实践实施例。在其他情况下,众所周知的结构、材料或操作未详细示出或描述。本说明书中对“一个实施例”、“该实施例”和类似短语的引用意味着结合该实施例描述的特定特征、结构或特性包括在一个或多个实施例中的至少一个中。因此,贯穿本说明书在各个地方出现的这些短语不一定都指同一实施例。此外,特定特征、结构或特性可以在一个或多个实施例中以任何合适的方式组合。数据沿袭服务提供跨异构系统的网络的数据沿袭和数据影响分析。数据沿袭服务在数据沿袭服务器(DLS)上运行。数据沿袭服务创建异构数据集的基于表的表示。另外,数据沿袭服务根据定义了数据操纵的统一表示的数据沿袭元数据模型来变换沿袭信息。基于数据沿袭元数据模型,数据沿袭服务将异构计算规范翻译为数据结构。数据沿袭服务提供具有不同粒度的数据沿袭信息,包括数据集级别和属性级别沿袭信息。图1示出了根据一个实施例的提供数据沿袭信息的系统100。系统100包括用户界面(UI)115、数据源系统(DSS)105和DLS120。DSS105是可以存储和操纵数据的系统。数据源系统(DSS)的示例包括文件系统、数据库系统、数据存储库等。此外,DSS可以向按需计算数据集的系统提供功能,例如经由对所存储的数据运行查询或者经由动态调用操纵数据的程序。DSS还包括诸如Web服务、分析应用程序、商业智能(BI)平台等的数据平台。可以在由统一资源定位符(URL)定义的网络位置处访问DSS105。在一个实施例中,DSS105包括元数据155和诸如数据集110的多个数据集。数据集110是作为一个单元可以由计算机程序操纵的有组织的个体数据元素(或数据项)的命名集合。数据集的示例包括但不限于具有列和行的表(数据库表)、逗号分隔值(CSV)文件、多变量统计中维度(dimension)为“n”乘“p”的数据矩阵,其中“n”是观察到的样本数,“p”是样本中测量的变量(特征)的数量等。此外,数据集可以是包含传感器数据、图形、时间序列、图像、如可扩展标记语言(XML)文件的具有嵌套结构的文件、多维数据立方体等。在一个实施例中,元数据155包括存储在DSS105中的多个数据集的元数据。元数据155还包括数据集110的元数据。数据集的元数据包括与数据集相关联的计算规范以及对父数据集和子数据集的引用(reference)。计算规范可以包括来自DSS105和/或来自其他DSS的父数据集和子数据集。计算规范描述了如何从父数据集计算数据集以及如何从数据集计算子数据集。例如,计算规范可以是数据库过程或脚本程序。在一个实施例中,DLS120向诸如UI115的客户端计算机程序提供数据沿袭信息。客户端计算机程序包括但不限于web浏览器、语音浏览器、应用程序客户端和可以是访问、消耗(consume)和显示内容的其他软件。在一个实施例中,UI115在UI设备(未示出)上运行。UI设备可以远程访问DLS120。然而,应当理解,本文档来自技高网
...

【技术保护点】
1.一种计算机实现的方法,包括:生成对应于多个数据对象的多个沿袭图,其中,所述多个数据对象的数据对象处的数据包括在存储在数据沿袭服务器(DLS)处的多个源数据集表的源数据集表中,并且其中,所述数据对象表示存储在数据源系统(DSS)处的多个数据集的数据集;从所述多个沿袭图中确定对应于数据集的沿袭图;以及基于沿袭图,提供一个或多个数据沿袭结构,其定义所述数据对象与一个或多个数据对象之间的关系,该一个或多个数据对象对应于与所述数据集相关的一个或多个数据集,其中,所述一个或多个数据沿袭结构包括来自所述数据集和来自所述一个或多个数据集的数据。

【技术特征摘要】
2017.12.20 US 15/849,0871.一种计算机实现的方法,包括:生成对应于多个数据对象的多个沿袭图,其中,所述多个数据对象的数据对象处的数据包括在存储在数据沿袭服务器(DLS)处的多个源数据集表的源数据集表中,并且其中,所述数据对象表示存储在数据源系统(DSS)处的多个数据集的数据集;从所述多个沿袭图中确定对应于数据集的沿袭图;以及基于沿袭图,提供一个或多个数据沿袭结构,其定义所述数据对象与一个或多个数据对象之间的关系,该一个或多个数据对象对应于与所述数据集相关的一个或多个数据集,其中,所述一个或多个数据沿袭结构包括来自所述数据集和来自所述一个或多个数据集的数据。2.如权利要求1所述的方法,其中,生成所述沿袭图以包括多条边和多个节点,其中,所述多个节点包括引用所述源数据集表的节点,引用对应于所述一个或多个数据集的一个或多个源数据集表的一个或多个节点,以及引用应用于所述一个或多个数据集以生成所述数据集的一个或多个变换操作的一个或多个变换节点。3.如权利要求2所述的方法,其中,所述沿袭图的生成包括:访问多个计算规范的计算规范,其中,所述计算规范与DSS处的数据集相关联;对于在所述计算规范中识别的变换操作:识别所述变换操作中的一个或多个语句;生成对应于所述变换操作的变换节点,其中,所述变换节点包括一个或多个属性计算节点,并且其中,所述一个或多个属性计算节点的属性计算节点包括所述一个或多个语句的语句;以及在与所述一个或多个数据集的父数据集相关联的输入源数据集表的列、所述属性计算节点和所述源数据集表的列之间创建映射,其中,所述输入源数据集表的列对应于所述父数据集的组件,并且其中,通过在所述父数据集的所述组件上应用语句来计算所述数据集的所述组件;以及对于计算规范,生成包括多个属性节点、一个或多个变换节点和多条边的计算节点图,其中,所述多个属性节点包括表示输入源数据集表的列的起源属性节点和表示源数据集表的列的目标属性节点,其中,所述一个或多个变换节点包括所述变换节点,并且其中,所述多条边包括表示所述起源属性节点和所述属性计算节点之间的映射的第一边,以及表示所述属性计算节点和所述目标属性节点之间的映射的第二边。4.如权利要求3所述的方法,其中,所述沿袭图的生成还包括:将所述计算节点图加载到数据沿袭存储器中,其中,所述加载包括:对于所述变换节点:从所述计算节点图中的所述多个属性节点继承起源属性节点和目标属性节点;继承包含所述一个或多个语句的所述一个或多个属性计算节点;以及基于所述多条边生成多个沿袭边,其中,所述多个沿袭边的第一沿袭边连接所述起源属性节点与所述属性计算节点,并且所述多个沿袭边的第二沿袭边连接所述属性计算节点与所述目标属性节点;以及基于所述多个变换节点生成所述沿袭图。5.如权利要求3所述的方法,还包括:在所述DLS和所述DSS之间建立远程源连接;基于所述远程源连接的凭证,访问所述多个数据集和所述多个数据集的元数据;将所述多个源数据集翻译为所述多个源数据集表;从所述多个源数据集表中获取所述多个数据对象;在所述DLS处存储所述多个数据对象和所述多个源数据集表;在所述DLS和所述DSS之间建立元数据连接;以及基于所述元数据连接的凭证,迭代地访问所述多个计算规范。6.如权利要求5所述的方法,其中,在DLS处存储所述多个源数据集表包括:合并与所述数据集相关联的一组源数据集表,其中,所述一组源数据集表由所述DLS的沿袭提取器通过相应的一组远程连接提供;在所述DLS处存储合并的源数据集表,其中,所述合并的源数据集表对应于所述源数据集;将所述合并的源数据集表与由所述DLS的不同沿袭提取器提供并且包括所述数据集的一个或多个组件的至少一个源数据集表相关联;以及创建与所述数据集对应的中介表。7.如权利要求1所述的方法,还包括:在用户界面(UI)设备处提供所述多个数据对象;以及通过所述UI设备接收来自用户的提供所述数据对象的数据沿袭信息的请求。8.如权利要求7所述的方法,还包括:检查所述用户的权限;以及模糊所述一个或多个数据沿袭结构的数据沿袭结构中的至少一个数据对象,其中,基于所述用户的权限,所述用户不能访问所述至少一个数据对象。9.一种用于在异构网络中提供沿袭信息的计算机系统,所述系统包括:处理器;以及与所述处理器相关联的存储器,存储与以下相关的指令:生成对应于多个数据对象的多个沿袭图,其中,所述多个数据对象的数据对象的数据包括在存储在数据沿袭服务器(DLS)处的多个源数据集表的源数据集表中,并且其中,所述数据对象表示存储在数据源系统(DSS)处的多个数据集的数据集;从所述多个沿袭图中确定对应于所述数据集的沿袭图;以及基于所述沿袭图,提供一个或多个数据沿袭结构,其定义所述数据对象与一个或多个数据对象之间的关系,该一个或多个数据对象对应于与所述数据集相关的一个或多个数据集,其中,所述一个或多个数据沿袭结构包括来自所述数据集以及来自所述一个或多个数据集的数据。10.如权利要求9所述的系统,其中,生成所述沿袭图以包括多条边和多个节点,其中,所述多个节点包括引用所述源数据集表的节点,引用对应于所述一个或多个数据集的一个或多个源数据集表的一个或多个节点,以及引用应用于所述一个或多个数据集以生成数据集的一个或多个变换操作的一个或多个变换节点。11.如权利要求9所述的系统,其中,所述沿袭图的生成包括:访问多个计算规范的计算规范,其中,所述计算规范与DSS处的数据集相关联;对于在计算规范中识别的变换操作:识别所述变换操作中的一个或多个语句;生成与所述变换操作对应的变换节点,其中,所述变换节点包括一个或多个属性计算节点,并且其中,所述一个或多个属性计算节点的属性计算节点包括所述一个或多...

【专利技术属性】
技术研发人员:E西蒙F利尔巴特
申请(专利权)人:SAP欧洲公司
类型:发明
国别省市:德国,DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1