一种基于大数据模型平台下的细粒度数据溯源方法技术

技术编号:16365553 阅读:36 留言:0更新日期:2017-10-10 21:35
本发明专利技术公开了一种基于大数据模型平台下的细粒度数据溯源方法,针对大数据模型平台构建出一种细粒度数据溯源方法,用于解决大数据平台下细粒度溯源数据的依赖区分问题。该方法包括以下步骤:S1:模型工作流分析,在Hadoop平台下对Oozie引擎所构成的模型工作流的分析;S2:细粒度溯源定义,以一种递归的形式表示工作流的细粒度数据溯源;S3:溯源信息捕获,在模型执行过程中,动态地产生并获取溯源信息;S4:溯源标记存储,对捕获的溯源信息以关联形式在HDFS上存储;S5:溯源追踪,用来追溯产生结果数据文件中的细粒度数据项的来源输入数据项。本发明专利技术适用性强,为溯源文件建立索引,减少了IO操作,提高了查询速度。

A fine-grained data Traceability Method Based on large data model platform

The invention discloses a method for tracing fine-grained data model based on big data platform for big data platform, model to construct a fine-grained data tracing method is used to solve the data dependency of fine-grained traceability of big data platform problem. The method comprises the following steps: S1, workflow analysis model, analysis model of workflow of a Oozie engine in the Hadoop platform; S2: fine-grained traceability defined in a recursive form of fine-grained data source workflow; S3: traceability information captured in the model implementation process, dynamic and real estate to obtain traceability information; S4: marking traceability storage, to capture the correlation with traceability information on HDFS storage; S5: tracing, used to trace the results in the data file of fine-grained data items from input data items. The invention has the advantages of strong applicability, indexing for the traceability file, reducing the IO operation, and improving the query speed.

【技术实现步骤摘要】
一种基于大数据模型平台下的细粒度数据溯源方法
本专利技术涉及一种数据溯源方法,尤其是一种基于大数据模型平台下的细粒度数据溯源方法。
技术介绍
近些年随着计算机和移动互联网的发展,各种信息呈爆炸式的增长,这些信息基本可以分成两类,一类是原始的录入数据,另一类是由这些数据经过若干处理派生出来的数据。但是一般暴露给用户的往往是结果数据,这些数据对于使用者来说,其处理过程或者说可信度来说是不得而知的,而有时候结果数据和原始数据没有任何关系,这就使得用户必须去关心结果数据的来源,因此产生了数据溯源技术。数据溯源是对数据起源和数据产生过程的描述,这些信息在很多方面发挥着重要的作用,例如调试数据和转换、审计、评估数据的质量和信任度以及实现对数据的访问控制等方面。数据溯源可以分为粗粒度溯源和细粒度溯源,在细粒度溯源方面,国内研究相对较少。传统的细粒度数据溯源方法主要集中在数据库领域,其解决方法是通过增加标记字段来记录数据库中每一项的处理传播过程,而在大数据平台下,不管是源数据还是结果数据,都存储在HDFS上,无法直接对每个输入数据项进行注释。因此本专利技术提出一种针对大数据模型平台的细粒度数据溯源方本文档来自技高网...
一种基于大数据模型平台下的细粒度数据溯源方法

【技术保护点】
一种基于大数据模型平台下的细粒度数据溯源方法,其特征在于,它包括以下步骤:S1:模型工作流分析,在Hadoop平台下对Oozie引擎所构成的模型工作流的分析;S2:细粒度溯源定义,以一种递归的形式表示工作流的细粒度数据溯源;S3:溯源信息捕获,在模型执行过程中,动态地产生并获取溯源信息;S4:溯源标记存储,对捕获的溯源信息以关联形式在HDFS上存储;S5:溯源追踪,用来追溯产生结果数据文件中的细粒度数据项的来源输入数据项。

【技术特征摘要】
1.一种基于大数据模型平台下的细粒度数据溯源方法,其特征在于,它包括以下步骤:S1:模型工作流分析,在Hadoop平台下对Oozie引擎所构成的模型工作流的分析;S2:细粒度溯源定义,以一种递归的形式表示工作流的细粒度数据溯源;S3:溯源信息捕获,在模型执行过程中,动态地产生并获取溯源信息;S4:溯源标记存储,对捕获的溯源信息以关联形式在HDFS上存储;S5:溯源追踪,用来追溯产生结果数据文件中的细粒度数据项的来源输入数据项。2.根据权利要求1所述的一种基于大数据模型平台下的细粒度数据溯源方法,其特征在于,所述的模型工作流是在Hadoop平台上由控制流节点和动作节点组成的工作流,并由HadoopOozie工作流引擎服务器解释执行。3.根据权利要求1所述的一种基于大数据模型平台下的细粒度数据溯源方法,其特征在于,所述的细粒度溯源定义,通过给定一个大数据平台下的工作流W,并用一个四元组表示为W={I,O,M,P},其中I表示该工作流的输入集,O表示工作流的输出集,M表示工作流中的模型集,P表示工作流的细粒度数据溯源操作。4.根据权利要求1所述的一种基于大数据模型平台下的细粒度数据溯源方法,其特征在于,所述溯源信息捕获,通过对模型处理框架扩展,并加入溯源信息的产生和传递功能,使在模型执行过程中产生的溯源信息在工作流处理模型中传递。5.根据权利要求1所述的一种基于大数据模型平台下的细粒度数据溯源方法,其特征在于,所述溯源标记存储,通过使用中间标识来对每个模型的输入和输出项之间建立关联,并将溯源信息的关联以文件的形式存储在HDFS上。6.根据权利要求1所述的一种基于大数据模型平台下的细粒度数据溯源方法,其特征在于,所述溯源追踪,基于溯源存储文件,并以一种递归的方式对任意结果数据项来追踪产生其的所有相关输入项,溯源追踪的粒度基于行级数据项。7.根据权利要求1所述的一种基于大数据模型平台下的细粒度数据溯源方法,其特征在于,所述的细粒度溯源定义包括以下子步骤:S21:单个模型溯源表示:假设工作流中任何一个模型转换表示为T,给定一个转换实例T(I)=O,输入集为I,单个的输出元素o∈O,细粒度溯源需要能够确定出那些贡献给输出元素o的输入子集S22:工作流溯源表示:工作流溯源是对当前工作流中涉及到所有模型转换的溯源,并用递归方式表示方式根据单个转换溯源。8.根据权利要求1所述的一种基于大数据模型平台下的细粒度数据溯源方法,其特征在于,所述的溯源信息捕获包括以下子步骤:S31:RecordReader扩展:RecordReader的封装器将每次产生的输出键值和相对应的唯一标识一起传递给Mapper;S32:Mapper扩展:Mapper封装器将传来数据作为输入,并对其分解,将输出键值...

【专利技术属性】
技术研发人员:林劼杜亚伟刘铸高泽仁段炜煜
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1