【技术实现步骤摘要】
【国外来华专利技术】跟踪数据集血缘关系中的错误
[0001]本专利技术的领域是数据处理,或更确切地是用于跟踪数据集血缘关系(lineage)中的错误的方法、装置和产品。
技术介绍
[0002]现代企业可以将大量数据存储在基于云的数据仓库内的远程数据库中。可以使用数据库查询语言(诸如结构化查询语言(structured query language,SQL))来访问该数据。然而,数据的不同显示和配置可能需要构建复杂的查询,这对于大多数用户而言可能是困难的。进一步,不同用户可能会用不同方式从数据库检索和组织数据,从而导致相同数据的多个不同视图。
技术实现思路
[0003]用于跟踪数据集血缘关系中的错误的方法、系统和装置。跟踪数据集血缘关系中的错误包括:从用户接收对模型数据集的改变,其中,模型数据集是包括从数据仓库检索的数据源的至少一部分的可重复使用的建模层;访问将模型数据集用作数据源的相关工作表的列表,其中,每个相关工作表均被配置为在不改变模型数据集的情况下对模型数据集内的第一数据源的该部分执行分析;生成利用模型数据集的相关工作表的错误报告,包括:针对利用模型数据集的相关工作表的列表中的每个相关工作表,利用对模型数据集的改变来重建相关工作表以及确定所重建的相关工作表是否引起至少一个错误;以及向用户提供利用模型数据集的相关工作表的错误报告。
[0004]根据如在附图中示出的本专利技术的示例性实施例的以下更具体的描述,本专利技术的前述和其他目的、特征以及优点将是显而易见的,其中,相同的参考标记总体上表示本专利技术的示例性 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种跟踪数据集血缘关系中的错误的方法,所述方法包括:从用户接收对模型数据集的改变,其中,所述模型数据集是包括从数据仓库检索的数据源的至少一部分的可重复使用的建模层;访问将所述模型数据集用作数据源的相关工作表的列表,其中,每个相关工作表均被配置为在不改变所述模型数据集的情况下对所述模型数据集内的第一数据源的一部分执行分析;生成利用所述模型数据集的所述相关工作表的错误报告,包括:针对利用所述模型数据集的所述相关工作表的列表中的每个相关工作表,利用对所述模型数据集的所述改变来重建所述相关工作表;以及确定所重建的相关工作表是否引起至少一个错误;以及向所述用户提供利用所述模型数据集的所述相关工作表的所述错误报告。2.根据权利要求1所述的方法,其中,利用对所述模型数据集的所述改变来重建所述相关工作表包括:在不从所述数据仓库检索所述数据源的情况下重建所述相关工作表。3.根据权利要求1所述的方法,其中,利用对所述模型数据集的所述改变来重建所述相关工作表包括:使用本地数据源来重建所述相关工作表。4.根据权利要求1所述的方法,其中,生成利用所述模型数据集的所述相关工作表的所述错误报告还包括:组织所述错误报告以将来自不同相关工作表的相似错误分组在一起。5.根据权利要求1所述的方法,其中,向所述用户提供利用所述模型数据集的所述相关工作表的所述错误报告包括:生成建议的错误解决动作。6.根据权利要求1所述的方法,其中,确定所重建的相关工作表是否引起至少一个错误包括:确定所重建的相关工作表中的函数是否涉及移除的元素。7.根据权利要求1所述的方法,其中,对模型数据集的所述改变是对所述模型数据集的列的改变。8.一种用于跟踪数据集血缘关系中的错误的装置,所述装置包括:计算机处理器、操作地耦接至所述计算机处理器的计算机存储器,所述计算机存储器中布置有计算机程序指令,所述计算机程序指令在由所述计算机处理器执行时,使所述装置执行以下步骤:从用户接收对模型数据集的改变,其中,所述模型数据集是包括从数据仓库检索的数据源的至少一部分的可重复使用的建模层;访问将所述模型数据集用作数据源的相关工作表的列表,其中,每个相关工作表均被配置为在不改变所述模型数据集的情况下对所述模型数据集内的第一数据源的一部分执行分析;生成利用所述模型数据集的所述相关工作表的错误报告,包括:针对利用所述模型数据集的所述相关工作表的列表中的每个相关工作表,利用对所述模型数据集的所述改变来重建所述相关工作表;以及确定所重建的相关工作表是否引起至少一个错误;以及向所述用户提供利用所述模型数据集的所述相关工作表的所述错误报告。9.根据权利要求8所述的装置,其中,利用对所述模型数据集的所述改变来重建所...
【专利技术属性】
技术研发人员:约瑟夫,
申请(专利权)人:西格玛计算机有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。