The invention discloses a data Traceability Method and a corresponding data traceability device. The data Traceability Method includes: adding unique identification information to each source data to establish the original data set; performing target data operation on the original data set to obtain the target result set matching the target data operation, and each result record contains the identification information of the matching source data. Integrating the tuple number of the result record, the identification information contained in the result record and the operation of the target data, the traceability information corresponding to each result record can be obtained to trace the data according to the traceability information. The data Traceability Method of the present invention traces the origin and evolution process of the result record according to the data operation in the traceability information and the identification information of the source data, improves the reliability and reliability of the analysis of the source of the result record, and effectively improves the efficiency of the data traceability.
【技术实现步骤摘要】
一种数据溯源方法以及相应的数据溯源装置
本专利技术属于数据库
,更具体地,涉及一种数据溯源方法以及相应的数据溯源装置。
技术介绍
数据溯源指追踪数据的起源和派生过程。在大数据时代,由于数据汇集的阶段性、技术性以及不同类型数据本身的特点等因素,导致数据汇集过程中积累了大量来源不同、质量各异的数据。以政务大数据共享平台为例,该平台汇集各下属应用系统和网站业务运作过程中所产生的大量数据,对上述数据进行统一集中分析,从而向各部门提供辅助决策、统计分析以及业务管理等全方位支撑。从系统层面上支持数据溯源,可以了解分析结果的来源及演变过程,因此,数据溯源具有重要意义。例如,根据溯源信息可帮助解释分析结果,理解分析结果的特殊语义,根据结果数据的来源,分析支撑数据的可靠性和可信度,还可以追踪分析结果之间的关联等。然而,现有的数据溯源技术研究主要集中于关系数据库。在基于关系数据库的大数据平台中,往往积累的是大量不同结构与不同存储方式的数据,包括文档、表格等复杂多源异构数据,由于多表的关联查询以及复杂的数据分析类型,导致当用户量和访问量较大时,查询效率极低,数据来源的可靠性不高。因此,传统关系数据库在功能和性能上的局限性日益显著。为了获取更快速的查询效率,人们开始更多使用NoSQL(NotOnlyStructuredQueryLanguage)数据库,不过,目前没有较为成熟的面向NoSQL数据库的数据溯源技术,因此,NoSQL数据库的数据溯源技术的研究,成为待解决的核心问题。鉴于此,克服该现有技术所存在的缺陷是本
亟待解决的问题。
技术实现思路
针对现有技术的以上缺陷或 ...
【技术保护点】
1.一种数据溯源方法,其特征在于,所述数据溯源方法包括:对每条源数据添加唯一的标识信息,建立原始数据集,其中,所述原始数据集中包含至少一条源数据;对所述原始数据集进行目标数据操作,得到与所述目标数据操作相匹配的目标结果集,其中,所述目标结果集中包含至少一个结果记录,每个结果记录包含与其相匹配的源数据的标识信息;整合结果记录的元组编号、结果记录所包含的标识信息以及所述目标数据操作,得到每个结果记录对应的溯源信息,以依据所述溯源信息进行数据溯源。
【技术特征摘要】
1.一种数据溯源方法,其特征在于,所述数据溯源方法包括:对每条源数据添加唯一的标识信息,建立原始数据集,其中,所述原始数据集中包含至少一条源数据;对所述原始数据集进行目标数据操作,得到与所述目标数据操作相匹配的目标结果集,其中,所述目标结果集中包含至少一个结果记录,每个结果记录包含与其相匹配的源数据的标识信息;整合结果记录的元组编号、结果记录所包含的标识信息以及所述目标数据操作,得到每个结果记录对应的溯源信息,以依据所述溯源信息进行数据溯源。2.根据权利要求1所述的数据溯源方法,其特征在于,所述对每条源数据添加唯一的标识信息,建立原始数据集,其中,所述原始数据集中包含至少一条源数据包括:采用哈希算法,依据每条源数据创建的时间生成唯一的哈希值;将哈希值添加到对应的源数据中,作为源数据唯一的标识信息,建立原始数据集,其中,所述原始数据集中包含至少一条源数据。3.根据权利要求1所述的数据溯源方法,其特征在于,所述整合结果记录的元组编号、结果记录所包含的标识信息以及所述目标数据操作,得到每个结果记录对应的溯源信息,以依据所述溯源信息进行数据溯源包括:将结果记录的元组编号、结果记录所包含的标识信息以及所述目标数据操作,按照预设的映射规则进行存储,得到每个结果记录对应的溯源信息,以依据所述溯源信息进行数据溯源。4.根据权利要求3所述的数据溯源方法,其特征在于,所述将结果记录的元组编号、结果记录所包含的标识信息以及所述目标数据操作,按照预设的映射规则进行存储,得到每个结果记录对应的溯源信息,以依据所述溯源信息进行数据溯源包括:将结果记录的元组编号以及结果记录所包含的标识信息,作为来源信息进行存储;将结果记录的元组编号、结果记录所包含的标识信息以及所述目标数据操作,作为演变过程信息进行存储;整合所述来源信息以及所述演变过程信息,得到每个结果记录对应的溯源信息,以依据所述溯源信息进行数据溯源。5.根据权利要求1所述的数据溯源方法,其特征在于,所述目标数据操作至少包括第一数据操作和第二数据操作;对所述原始数据集进行目标数据操作,得到与所述目标数据操作相匹配的目标结果集包括:对第一原始数据集进行第一数据操作,得到与所述第一数据操作相匹配的第一结果集;对第二原始数据集进行第二数据操作,得到与所述第二数据操作相匹配的第二结果集;依据所述第一数据操作和所述第二数据操作之间的连接域,连接所述第一结果集中的标识信息以及所述第二结果集中的标识信息,得到目标结果集。6.根据权利要求1~5任一项所述的数据溯源方法,其特征在于,所述数据溯源方法面向于MongoDB数据库,所述MongoDB数据库包括f...
【专利技术属性】
技术研发人员:桂耀伟,王梅,张圆,
申请(专利权)人:上海达梦数据技术有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。