当前位置: 首页 > 专利查询>河海大学专利>正文

基于数据起源依赖关系分析模型的数据依赖分析方法技术

技术编号:10093987 阅读:184 留言:0更新日期:2014-05-28 18:08
本发明专利技术公开了一种数据依赖关系分析的方法,在OPM基础上,建立数据起源依赖关系分析模型,具体给出数据起源依赖关系和数据依赖关系,利用细化操作和合成操作具体分析数据依赖关系,其特征在于,包括以下步骤:(1)建立一种数据起源依赖关系分析模型,具体给出数据起源依赖关系和数据依赖关系,以及该模型中相关操作;(2)基于数据起源依赖关系分析模型,设计一种数据依赖关系分析方法;(3)基于规则,重点设计数据依赖分析细化、合成算法。采用本发明专利技术的模型及方法,充分考虑了数据起源语义完备和存储空间节约需求,实现了不同抽象级别数据起源分析,很好满足了不同用户对于数据起源的个性化追踪,有很好的转化前景。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种数据依赖关系分析的方法,在OPM基础上,建立数据起源依赖关系分析模型,具体给出数据起源依赖关系和数据依赖关系,利用细化操作和合成操作具体分析数据依赖关系,其特征在于,包括以下步骤:(1)建立一种数据起源依赖关系分析模型,具体给出数据起源依赖关系和数据依赖关系,以及该模型中相关操作;(2)基于数据起源依赖关系分析模型,设计一种数据依赖关系分析方法;(3)基于规则,重点设计数据依赖分析细化、合成算法。采用本专利技术的模型及方法,充分考虑了数据起源语义完备和存储空间节约需求,实现了不同抽象级别数据起源分析,很好满足了不同用户对于数据起源的个性化追踪,有很好的转化前景。【专利说明】
本专利技术涉及数据管理
,更具体的讲,涉及到数据起源、工作流、依赖关系、语义等
,提出了一种,具体完成数据起源依赖关系和数据起源依赖关系分析模型定义,利用细化操作和合成操作分析依赖关系。
技术介绍
数据起源(DataProvenance, Data Lineage, Data Pedigree, Data Derivation)又称为数据血统、数据血缘、数据世系、数据谱系、数据来源等。数据起源是对数据处理的整个历史信息,包括数据的来源和处理这些数据的所有后继过程(数据产生、并随着时间推移而演变的整个过程)。数据起源依赖关系实质上就是数据起源的语义信息。在抽象级别上,数据起源是一种依赖关系,描述数据产品是如何得到的,相关的数据和过程的作用是什么,角色是什么。依赖关系的研究需要很强的语义基础支撑,所以,数据起源信息需要清晰的形式化描述,定义追踪操作的语义,增强数据起源依赖分析和推理能力。目前,数据起源依赖关系分析的主流模型之一为OPM (The Open ProvenanceModel),0PM是社区驱动的数据起源模型,支持起源技术的互操作。OPM基于有向无环图,表示数据产品和计算中关联的过程,以及他们之间的因果依赖关系。本专利技术基于标注的数据起源语义信息,对OPM进行细化,提出一种,主要建立数据起源依赖关系分析模型,利用交、并、细化以及合成操作,进一步分析依赖关系,并且设计了一套规则,给出了数据依赖图的构造、细化以及合成算法,满足不同用户对于不同抽象层次数据起源信息查询的需求。
技术实现思路
专利技术目的:为了解决数据起源依赖关系分析的问题,本专利技术的目的在于提出一种供数据依赖分析的方法,给出数据起源依赖关系以及数据起源依赖关系分析模型,基于该模型,设计了一种数据依赖分析的方法,具体包括一系列规则的设计,以及数据依赖图构造、细化及合成算法的构建,从而满足不同抽象级别、不同信息类别的数据起源信息需求。技术方案:一种,包括如下内容:数据起源依赖关系概念:数据起源依赖关系在本质上是数据起源的语义信息,可以分为数据依赖关系、过程依赖关系和控制依赖关系。本专利技术参照0ΡΜ,给出数据起源依赖关系定义及其性质。定义I数据起源依赖关系定义为一个5元组DP_Dependency=(Data_Set,Process_Set, Data_Data_Dependency, Data_Process_Dependency, Process_Data_Dependency,Process—Process—Dependency),其中 Data—Set是数据的集合; Process—Set 是过程的集合; Data—Data—Dependency:Data—Set — Data—Set,是数据到数据的映射关系,称为数据依赖关系; Data—Process—Dependency:Data—Set — Process—Set,是数据到过程的映射关系,称为过程对数据依赖关系,即过程依赖于数据,数据是过程的输入; Process—Data—Dependency !Process—Set — Data—Set,是过程到数据的映射关系,称为数据对过程依赖关系,即数据依赖于过程,数据是过程的输出; Process—Process—Dependency !Process—Set — Process—Set,是过程到过程的映射关系,称为过程依赖关系; 过程对数据依赖关系和数据对过程依赖关系统称为控制依赖关系。定理I数据依赖关系具有传递性如果Dl,D2, D3 ^ Data—Set,满足 D2:Data—Data—Dependency (Dl),D3:Data_Data—Dependency (D2),则 D3:Data—Data—Dependency (Dl)成立,数据依赖关系满足传递性。定理2控制依赖关系具有传递性如果Dl,D2 G Data—Set,PI, P2 ^ Process—Set,满足下列情况之一的,控制依赖关系满足传递性: 满足 Dl:Data—Process—Dependency (PD, P2 !Process—Process—Dependency(Pl)JJDl:Data—Process—Dependency (P2); 满足 D2:Data—Data—Dependency (D1),D1:Data—Process—Dependency (Pl),则D2:Data—Process—Dependency (Pl); 满足 Dl !Process—Data—Dependency (P2),P2 !Process—Process—Dependency(Pl)JUDl !Process—Data—Dependency (Pl); 满足 D2:Data—Data—Dependency (D1),D1 !Process—Data—Dependency (Pl),则D2 !Process—Data—Dependency (Pl)。定理3过程依赖关系具有传递性如果P1,P2,P3 ^ Process—Set,满足 P2 !Process—Process—Dependency (Pl ),P3:Process—Process—Dependency (P2),则 P3 !Process—Process—Dependency (Pl),称过程依赖关系满足传递性。定理4数据依赖关系不具有自反性和对称性。根据数据起源依赖关系的定义,数据依赖关系、过程依赖关系和控制依赖关系都不会依赖于本身,都不满足自反性。同样,数据依赖关系、过程依赖关系和控制依赖关系都不满足对称性。如果将定义的数据起源依赖关系釆用图的方式描述,则点表示数据或过程,边表示依赖关系。WasGeneratedBy和Used表示的是控制依赖关系,WasDerivedFrom表示的是数据依赖关系,WasInformedBy表示的是过程依赖关系。数据起源依赖关系分析模型:本专利技术设计的一种数据起源依赖关系分析模型,是为了满足用户对数据起源的信息查询服务,以标注的数据起源信息为基础,提供清晰的描述数据产品对于其他数据、过程的依赖信息,满足不同用户的基于不同应用主题、不同抽象层次需求的数据起源应用功能,包含以下功能层:(I)数据起源依赖关系层:基于标注的数据起源信息,主要包括数据依赖、过程依赖以及控制依赖这三类数据起源依赖关系;(2)依赖关系操作层:基于数据起源依赖关系层,本文档来自技高网
...

【技术保护点】
一种基于数据起源依赖关系分析模型的数据依赖分析方法,其特征在于,包括以下步骤:1)建立数据起源依赖关系分析模型;2)设计数据依赖分析方法;所述步骤1)所建立的数据起源依赖关系分析模型,以数据起源信息为基础,提供清晰的描述数据产品对于其他数据、过程的依赖信息,满足数据起源追踪深层次的分析需求,满足不同用户的基于不同应用主题、不同抽象层次需求的数据起源应用功能,包括数据起源查询和推理,数据可信性、数据安全和数据质量的判断分析,数据集成和数据起源可视化,该模型由数据起源依赖关系、依赖关系操作和依赖关系视图三个层次组成,进一步包含以下步骤:11)在数据起源依赖关系层,具体分为数据依赖、过程依赖和控制依赖三种类型;12)在依赖关系操作层,对于11)所述的三种类型的依赖关系通过交、并、细化和合成操作进行计算;13)在依赖关系视图层,根据12)的计算,得到基于不同抽象级别或不同信息类别的依赖关系视图;也可以根据用户指定的关注点进行细化和合成操作,得到基于用户关注点的依赖关系视图;所述步骤2)的数据依赖分析方法,是基于数据起源依赖关系分析模型,依据面向过程标注的数据起源信息,包含了数据依赖图的构造、细化和合成这三类方法:21)数据依赖图的构造:从基本流程的构成角度,设计了相应的规则用于数据依赖图的构造,并给出了数据依赖图构造的具体算法;22)数据依赖图的细化:从基本流程的构成和完全、部分依赖角度,设计了相应的规则用于数据依赖图的细化,并且给出了数据依赖图细化的具体算法;23)数据依赖图的合成:从基本流程的构成和完全、部分依赖角度,设计了相应的规则用于数据依赖图的合成,并且给出了数据依赖图合成的具体算法。...

【技术特征摘要】

【专利技术属性】
技术研发人员:许国艳王志坚杨莉
申请(专利权)人:河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1