一种数据溯源方法以及相应的数据溯源装置制造方法及图纸

技术编号:20916675 阅读:27 留言:0更新日期:2019-04-20 09:43
本发明专利技术公开了一种数据溯源方法以及相应的数据溯源装置,该数据溯源方法包括:对每条源数据添加唯一的标识信息,建立原始数据集;对原始数据集进行目标数据操作,得到与目标数据操作相匹配的目标结果集,每个结果记录包含与其相匹配的源数据的标识信息;整合结果记录的元组编号、结果记录所包含的标识信息以及目标数据操作,得到每个结果记录对应的溯源信息,以依据溯源信息进行数据溯源。本发明专利技术的数据溯源方法,在数据溯源过程中,依据溯源信息中的数据操作以及源数据的标识信息,追踪结果记录的来源以及演变过程,提高了结果记录来源分析的可靠性和可信度,还有效提高数据溯源的效率。

A Data Traceability Method and Its Corresponding Data Traceability Device

The invention discloses a data Traceability Method and a corresponding data traceability device. The data Traceability Method includes: adding unique identification information to each source data to establish the original data set; performing target data operation on the original data set to obtain the target result set matching the target data operation, and each result record contains the identification information of the matching source data. Integrating the tuple number of the result record, the identification information contained in the result record and the operation of the target data, the traceability information corresponding to each result record can be obtained to trace the data according to the traceability information. The data Traceability Method of the present invention traces the origin and evolution process of the result record according to the data operation in the traceability information and the identification information of the source data, improves the reliability and reliability of the analysis of the source of the result record, and effectively improves the efficiency of the data traceability.

【技术实现步骤摘要】
一种数据溯源方法以及相应的数据溯源装置
本专利技术属于数据库
,更具体地,涉及一种数据溯源方法以及相应的数据溯源装置。
技术介绍
数据溯源指追踪数据的起源和派生过程。在大数据时代,由于数据汇集的阶段性、技术性以及不同类型数据本身的特点等因素,导致数据汇集过程中积累了大量来源不同、质量各异的数据。以政务大数据共享平台为例,该平台汇集各下属应用系统和网站业务运作过程中所产生的大量数据,对上述数据进行统一集中分析,从而向各部门提供辅助决策、统计分析以及业务管理等全方位支撑。从系统层面上支持数据溯源,可以了解分析结果的来源及演变过程,因此,数据溯源具有重要意义。例如,根据溯源信息可帮助解释分析结果,理解分析结果的特殊语义,根据结果数据的来源,分析支撑数据的可靠性和可信度,还可以追踪分析结果之间的关联等。然而,现有的数据溯源技术研究主要集中于关系数据库。在基于关系数据库的大数据平台中,往往积累的是大量不同结构与不同存储方式的数据,包括文档、表格等复杂多源异构数据,由于多表的关联查询以及复杂的数据分析类型,导致当用户量和访问量较大时,查询效率极低,数据来源的可靠性不高。因此,传统关系数据库在功能和性能上的局限性日益显著。为了获取更快速的查询效率,人们开始更多使用NoSQL(NotOnlyStructuredQueryLanguage)数据库,不过,目前没有较为成熟的面向NoSQL数据库的数据溯源技术,因此,NoSQL数据库的数据溯源技术的研究,成为待解决的核心问题。鉴于此,克服该现有技术所存在的缺陷是本
亟待解决的问题。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种数据溯源方法以及数据溯源装置,其目的在于在数据溯源过程中,依据溯源信息中的数据操作以及源数据的标识信息,追踪结果记录的来源以及演变过程,提高了结果记录来源分析的可靠性和可信度,还有效提高数据溯源的效率,由此解决目前数据溯源效率低、数据来源分析可靠性不高的技术问题。为实现上述目的,按照本专利技术的一个方面,提供了一种数据溯源方法,所述数据溯源方法包括:对每条源数据添加唯一的标识信息,建立原始数据集,其中,所述原始数据集中包含至少一条源数据;对所述原始数据集进行目标数据操作,得到与所述目标数据操作相匹配的目标结果集,其中,所述目标结果集中包含至少一个结果记录,每个结果记录包含与其相匹配的源数据的标识信息;整合结果记录的元组编号、结果记录所包含的标识信息以及所述目标数据操作,得到每个结果记录对应的溯源信息,以依据所述溯源信息进行数据溯源。优选地,所述对每条源数据添加唯一的标识信息,建立原始数据集,其中,所述原始数据集中包含至少一条源数据包括:采用哈希算法,依据每条源数据创建的时间生成唯一的哈希值;将哈希值添加到对应的源数据中,作为源数据唯一的标识信息,建立原始数据集,其中,所述原始数据集中包含至少一条源数据。优选地,所述整合结果记录的元组编号、结果记录所包含的标识信息以及所述目标数据操作,得到每个结果记录对应的溯源信息,以依据所述溯源信息进行数据溯源包括:将结果记录的元组编号、结果记录所包含的标识信息以及所述目标数据操作,按照预设的映射规则进行存储,得到每个结果记录对应的溯源信息,以依据所述溯源信息进行数据溯源。优选地,所述将结果记录的元组编号、结果记录所包含的标识信息以及所述目标数据操作,按照预设的映射规则进行存储,得到每个结果记录对应的溯源信息,以依据所述溯源信息进行数据溯源包括:将结果记录的元组编号以及结果记录所包含的标识信息,作为来源信息进行存储;将结果记录的元组编号、结果记录所包含的标识信息以及所述目标数据操作,作为演变过程信息进行存储;整合所述来源信息以及所述演变过程信息,得到每个结果记录对应的溯源信息,以依据所述溯源信息进行数据溯源。优选地,所述目标数据操作至少包括第一目标数据操作和第二目标数据操作;对所述原始数据集进行目标数据操作,得到与所述目标数据操作相匹配的目标结果集包括:对第一原始数据集进行第一数据操作,得到与所述第一数据操作相匹配的第一结果集;对第二原始数据集进行第二数据操作,得到与所述第二数据操作相匹配的第二结果集;依据所述第一数据操作和所述第二数据操作之间的连接域,连接所述第一结果集中的标识信息以及所述第二结果集中的标识信息,得到目标结果集。优选地,所述数据溯源方法面向于MongoDB数据库,所述MongoDB数据库包括find函数和aggregate函数;所述数据溯源方法还包括:对find函数和aggregate函数分别添加标识信息读取以及标识信息写入的执行过程,得到目标数据操作。优选地,所述aggregate函数包括sum函数、avg函数、min函数、max函数、first函数及last函数;所述对find函数和aggregate函数分别添加标识信息读取以及标识信息写入的执行过程,得到目标数据操作包括:对find函数添加标识信息读取以及标识信息写入的执行过程,得到findRes函数;依次对first函数、last函数、max函数、min函数、avg函数以及sum函数添加标识信息读取以及标识信息写入的执行过程,得到getFirst函数、getLast函数、getMax函数、getMin函数、getAvg函数及getCount函数,其中,所述目标数据操作包括findRes函数、getFirst函数、getLast函数、getMax函数、getMin函数、getAvg函数及getCount函数中的至少一种。优选地,当所述目标数据操作为findRes函数时;对所述原始数据集进行目标数据操作,得到与所述目标数据操作相匹配的目标结果集包括:根据findRes函数中携带的查询参数,全局搜索所述原始数据集,得到与所述查询参数相匹配的结果记录;获取每个结果记录对应的源数据的标识信息,并整合所有的结果记录以及每个结果记录对应的标识信息,得到目标结果集。优选地,当所述目标数据操作为getFirst函数、getLast函数、getMax函数或getMin函数时;对所述原始数据集进行目标数据操作,得到与所述目标数据操作相匹配的目标结果集包括:根据getFirst函数、getLast函数、getMax函数或getMin函数中携带的分组域以及获取参数,在所述原始数据集中,获取与所述分组域以及获取参数均相匹配的结果记录;根据getFirst函数、getLast函数、getMax函数或getMin函数中携带的分组域以及获取参数,在所述原始数据集中,获取与所述分组域以及获取参数均相匹配的源数据的标识信息;整合所有的结果记录以及每个结果记录对应的标识信息,得到目标结果集。按照本专利技术的另一方面,提供了一种数据溯源装置,包括至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被程序设置为执行本专利技术所述的数据溯源方法。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,具有如下有益效果:本专利技术的数据溯源方法,采用对每条源数据添加唯一的标识信息的方式,区分不同的源数据,同时,基于数据操作以及结果记录对应的源数据的标识信息,生成溯源信息。在数据溯源过程中,依据溯源信本文档来自技高网...

【技术保护点】
1.一种数据溯源方法,其特征在于,所述数据溯源方法包括:对每条源数据添加唯一的标识信息,建立原始数据集,其中,所述原始数据集中包含至少一条源数据;对所述原始数据集进行目标数据操作,得到与所述目标数据操作相匹配的目标结果集,其中,所述目标结果集中包含至少一个结果记录,每个结果记录包含与其相匹配的源数据的标识信息;整合结果记录的元组编号、结果记录所包含的标识信息以及所述目标数据操作,得到每个结果记录对应的溯源信息,以依据所述溯源信息进行数据溯源。

【技术特征摘要】
1.一种数据溯源方法,其特征在于,所述数据溯源方法包括:对每条源数据添加唯一的标识信息,建立原始数据集,其中,所述原始数据集中包含至少一条源数据;对所述原始数据集进行目标数据操作,得到与所述目标数据操作相匹配的目标结果集,其中,所述目标结果集中包含至少一个结果记录,每个结果记录包含与其相匹配的源数据的标识信息;整合结果记录的元组编号、结果记录所包含的标识信息以及所述目标数据操作,得到每个结果记录对应的溯源信息,以依据所述溯源信息进行数据溯源。2.根据权利要求1所述的数据溯源方法,其特征在于,所述对每条源数据添加唯一的标识信息,建立原始数据集,其中,所述原始数据集中包含至少一条源数据包括:采用哈希算法,依据每条源数据创建的时间生成唯一的哈希值;将哈希值添加到对应的源数据中,作为源数据唯一的标识信息,建立原始数据集,其中,所述原始数据集中包含至少一条源数据。3.根据权利要求1所述的数据溯源方法,其特征在于,所述整合结果记录的元组编号、结果记录所包含的标识信息以及所述目标数据操作,得到每个结果记录对应的溯源信息,以依据所述溯源信息进行数据溯源包括:将结果记录的元组编号、结果记录所包含的标识信息以及所述目标数据操作,按照预设的映射规则进行存储,得到每个结果记录对应的溯源信息,以依据所述溯源信息进行数据溯源。4.根据权利要求3所述的数据溯源方法,其特征在于,所述将结果记录的元组编号、结果记录所包含的标识信息以及所述目标数据操作,按照预设的映射规则进行存储,得到每个结果记录对应的溯源信息,以依据所述溯源信息进行数据溯源包括:将结果记录的元组编号以及结果记录所包含的标识信息,作为来源信息进行存储;将结果记录的元组编号、结果记录所包含的标识信息以及所述目标数据操作,作为演变过程信息进行存储;整合所述来源信息以及所述演变过程信息,得到每个结果记录对应的溯源信息,以依据所述溯源信息进行数据溯源。5.根据权利要求1所述的数据溯源方法,其特征在于,所述目标数据操作至少包括第一数据操作和第二数据操作;对所述原始数据集进行目标数据操作,得到与所述目标数据操作相匹配的目标结果集包括:对第一原始数据集进行第一数据操作,得到与所述第一数据操作相匹配的第一结果集;对第二原始数据集进行第二数据操作,得到与所述第二数据操作相匹配的第二结果集;依据所述第一数据操作和所述第二数据操作之间的连接域,连接所述第一结果集中的标识信息以及所述第二结果集中的标识信息,得到目标结果集。6.根据权利要求1~5任一项所述的数据溯源方法,其特征在于,所述数据溯源方法面向于MongoDB数据库,所述MongoDB数据库包括f...

【专利技术属性】
技术研发人员:桂耀伟王梅张圆
申请(专利权)人:上海达梦数据技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1