一种基于数据流的数据溯源方法及计算机存储介质技术

技术编号:32973166 阅读:19 留言:0更新日期:2022-04-09 11:44
本发明专利技术公开了一种基于数据流的数据溯源方法及计算机存储介质,包括配置多个逐级指向的数据流转节点,形成一数据工厂并执行数据计算,于各数据流转节点的首端和/或末端生成对应的输入数据集和输出数据集;响应于所述数据工厂的数据计算,于数据流转节点的末端生成对应的数据计算日志;设置溯源范围并配置各数据流转节点的溯源信息,结合所述溯源信息和数据计算日志对输出数据集中的数据进行逆向逐级溯源得到原始输入数据记录,溯源过程灵活,且溯源结果准确可靠。溯源结果准确可靠。溯源结果准确可靠。

【技术实现步骤摘要】
一种基于数据流的数据溯源方法及计算机存储介质


[0001]本专利技术涉及工业互联网平台的数据处理
,具体公开了一种基于数据流的数据溯源方法及计算机存储介质。

技术介绍

[0002]数据工厂虽然可对业务主体的业务数据进行整合和分析计算,但对于数据在整合和分析过程的数据处理、关联和演变,不能直观有效的表达,此时,则需要对数据进行溯源,以对输出数据衍生前的原始数据以及演变过程进行描述,以直观的理解和分析数据处理和演变过程,对于分析数据工厂的准确性和有效性具有不可替代的价值。
[0003]目前,对于数据工厂,传统的溯源通常是通过标记查询的方法进行,即通过为单一的数据集配置数据查询的条件和查询结果展示,该方法中溯源结果的准确性依赖于配置人员的业务和技术素养,并且,由于查询条件的配置和数据工厂的运行逻辑不一致,耦合匹配依赖对该数据工厂配置的理解,如数据工厂的配置发生变化,则需要重新配置相应的查询条件,不具有通用性,且工作量大。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种基于数据流的数据溯源方法及计算机存储介质,以解决现有技术中的数据溯源方法不具有通用性的问题。
[0005]为达到上述目的,本专利技术的第一方面提供一种基于数据流的数据溯源方法,包括以下步骤:
[0006]S1:配置多个逐级指向的数据流转节点,形成一数据工厂并执行数据计算,于各数据流转节点的首端和/或末端生成对应的输入数据集和输出数据集;
[0007]S2:响应于所述数据工厂的数据计算,于数据流转节点的末端生成对应的数据计算日志;
[0008]S3:设置溯源范围并配置各数据流转节点的溯源信息,结合所述溯源信息和数据计算日志对输出数据集中的数据进行逆向逐级溯源得到原始输入数据记录。
[0009]进一步的,在步骤S1中,所述多个逐级指向的数据流转节点包括至少一个输入节点、一个输出节点以及至少一个配置在输入节点和输出节点之间并逐级连接的操作节点,所述操作节点中配置有对流入该操作节点的数据进行数据计算的计算规则;所述数据工厂根据配置的计算规则逐级执行数据计算,且计算过程中生成的各输入数据集分别对应形成于对应的操作节点和输出节点的首端,各输出数据集分别对应形成于对应的输入节点和操作节点的末端。
[0010]进一步的,在步骤S1中,所述数据工厂执行数据计算的具体方法为:
[0011]S101:在输入节点中添加数据源并设置输入字段,基于所述输入字段获取数据源中对应的数据于所述输入节点的末端形成输入节点的输出数据集;
[0012]S102:所述输入节点的输出数据集沿各操作节点逐级流转,于所述操作节点的首
端形成操作节点的输入数据集,并经配置于操作节点的计算规则执行计算后,于该操作节点的末端形成对应操作节点的输出数据集;其中,所述计算规则包括数据连接、抽取转换、筛选过滤和分组聚合;
[0013]S103:最后一级所述操作节点的输出数据集继续流转,于所述输出节点的首端形成所述输出节点的输入数据集,设置输出字段后经所述输出节点输出。
[0014]进一步的,在步骤S1中,所述输入数据集中包括至少一条数据结构相同的输入数据记录,所述输出数据集中包括至少一条数据结构相同的输出数据记录,输入数据记录和输出数据记录的数据结构均包括数据字段和数据约束,所述输入数据记录和输出数据记录中分别存储有数据字段对应的数据信息。
[0015]进一步的,在步骤S102中,配置有数据连接的操作节点具有至少两个对应的输入数据集,配置数据连接的操作节点对输入数据集进行计算的具体方法为:
[0016]在两个数据输入集中确定至少一个相同数据字段为连接字段,对两个数据集按照设置的连接规则进行数据连接,并返回连接后的数据形成所述输出数据集,所述输出数据集的数据字段为所述两个输入数据集的数据字段去重后的并集;
[0017]配置抽取转换的操作节点对输入数据集进行计算的具体方法为:
[0018]在所述输入数据集中确定至少一个数据字段为抽取字段,利用所述抽取字段抽取对应的数据记录形成所述输出数据集;
[0019]和/或
[0020]在所述输入数据集中确定至少一个数据字段为转换字段,配置转换规则,并根据转换规则设置一新增字段,利用所述转换规则对转换字段对应的输入数据记录进行转换得到转换后的数据记录并填充至新增字段中形成所述输出数据集;
[0021]配置筛选过滤的操作节点对输入数据集进行计算的具体方法为:
[0022]在所述输入数据集中确定至少一个数据字段为筛选字段或者过滤字段,配置执行筛选过滤过的筛选字段及过滤字段的值,利用所述筛选字段或过滤字段的值对输入数据集中输入数据记录进行筛选或过滤形成所述输出数据集;其中,当确定有多个筛选字段或过滤字段时,多个筛选字段或过滤字段的值之间逻辑关系为“且”;
[0023]配置分组聚合的操作节点对输入数据集进行计算的具体方法为:
[0024]在所述输入数据集中确定至少一个数据字段为分组字段,利用所述分组字段对输入数据记录进行分组,并根据分组情况设置一聚合字段,设置聚合规则,利用所述聚合规则对分组后的输入数据记录进行聚合得到聚合后的数据记录并填充至聚合字段中,形成所述输出数据集。
[0025]进一步的,在步骤S2中,所述数据计算日志中写入有对应数据流转节点的输出数据集及其对应的处理规则,其中,所述输入节点的处理规则为设置输入字段,所述操作节点的处理规则为对应节点的计算规则,所述输出节点的处理规则为设置输出字段。
[0026]进一步的,所述步骤S3具体包括以下步骤:
[0027]S301:设置数据溯源范围,确定数据溯源的起始节点和结束节点;
[0028]S302:以所述起始节点为当前节点,并确定当前节点的节点类型,根据当前节点的输出数据集及对应的处理规则配置该节点的溯源信息;其中,所述节点类型为输入节点、操作节点或输出节点;
[0029]S303:在输出数据集中确定需溯源的输出数据记录,利用所述溯源信息在对应的数据计算日志的输入数据集中匹配与所述输出数据记录相对应的输入数据记录;
[0030]S304:判断所述输出数据记录与输入数据记录是否匹配成功,若匹配成功,则跳转执行步骤S305,否则跳转执行步骤S306;
[0031]S305:提取匹配成功的输入数据记录,并判断当前节点是否为结束节点,若是,则结束溯源,否则以当前节点为一新的起始节点返回执行步骤S302;
[0032]S306:对匹配失败的输出数据记录进行报错,并判断是否存在用户自定义的溯源限制规则,若存在,则根据所述溯源限制规则修改溯源信息后返回执行步骤S304。
[0033]进一步的,在步骤S302中,配置溯源信息的具体方法为:
[0034]当所述当前节点为输入节点或输出节点时,在输出数据集中获取至少一个数据字段形成所述溯源信息;
[0035]当所述当前节点为操作节点时,获取所述操作节点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据流的数据溯源方法,其特征在于,包括以下步骤:S1:配置多个逐级指向的数据流转节点,形成一数据工厂并执行数据计算,于各数据流转节点的首端和/或末端生成对应的输入数据集和输出数据集;S2:响应于所述数据工厂的数据计算,于数据流转节点的末端生成对应的数据计算日志;S3:设置溯源范围并配置各数据流转节点的溯源信息,结合所述溯源信息和数据计算日志对输出数据集中的数据进行逆向逐级溯源得到原始输入数据记录。2.根据权利要求1所述的一种基于数据流的数据溯源方法,其特征在于,在步骤S1中,所述多个逐级指向的数据流转节点包括至少一个输入节点、一个输出节点以及至少一个配置在输入节点和输出节点之间并逐级连接的操作节点,所述操作节点中配置有对流入该操作节点的数据进行数据计算的计算规则;所述数据工厂根据配置的计算规则逐级执行数据计算,且计算过程中生成的各输入数据集分别对应形成于对应的操作节点和输出节点的首端,各输出数据集分别对应形成于对应的输入节点和操作节点的末端。3.根据权利要求2所述的一种基于数据流的数据溯源方法,其特征在于,在步骤S1中,所述数据工厂执行数据计算的具体方法为:S101:在输入节点中添加数据源并设置输入字段,基于所述输入字段获取数据源中对应的数据于所述输入节点的末端形成输入节点的输出数据集;S102:所述输入节点的输出数据集沿各操作节点逐级流转,于所述操作节点的首端形成操作节点的输入数据集,并经配置于操作节点的计算规则执行计算后,于该操作节点的末端形成对应操作节点的输出数据集;其中,所述计算规则包括数据连接、抽取转换、筛选过滤和分组聚合;S103:最后一级所述操作节点的输出数据集继续流转,于所述输出节点的首端形成所述输出节点的输入数据集,设置输出字段后经所述输出节点输出。4.根据权利要求3所述的一种基于数据流的数据溯源方法,其特征在于,在步骤S1中,所述输入数据集中包括至少一条数据结构相同的输入数据记录,所述输出数据集中包括至少一条数据结构相同的输出数据记录,输入数据记录和输出数据记录的数据结构均包括数据字段和数据约束,所述输入数据记录和输出数据记录中分别存储有数据字段对应的数据信息。5.根据权利要求4所述的一种基于数据流的数据溯源方法,其特征在于,在步骤S102中,配置有数据连接的操作节点具有至少两个对应的输入数据集,配置数据连接的操作节点对输入数据集进行计算的具体方法为:在两个数据输入集中确定至少一个相同数据字段为连接字段,对两个数据集按照设置的连接规则进行数据连接,并返回连接后的数据形成所述输出数据集,所述输出数据集的数据字段为所述两个输入数据集的数据字段去重后的并集;配置抽取转换的操作节点对输入数据集进行计算的具体方法为:在所述输入数据集中确定至少一个数据字段为抽取字段,利用所述抽取字段抽取对应的数据记录形成所述输出数据集;和/或在所述输入数据集中确定至少一个数据字段为转换字段,配置转换规则,并根据转换
规则设置一新增字段,利用所述转换规则对转换字段对应的输入数据记录进行转换得到转换后的数据记录并...

【专利技术属性】
技术研发人员:张利松汪香莲
申请(专利权)人:重庆允成互联网科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1