本发明专利技术公开了一种基于图数据库的数据血统分析的方法,创建元数据顶点标签Lab1,设置Lab1的属性;增加Lab1具体顶点,作为数据结构血统的起源,创建数据项顶点标签Lab2,设置Lab2的属性;增加Lab2的具体顶点,为Lab2各顶点增加边,由Lab1顶点指向Lab2顶点,设置边的属性,创建表示表结构的顶点标签Lab3,设置Lab3的属性,增加Lab3具体顶点;本发明专利技术中应用图形李璐存储实体之间的位关系信息,从数据结构血统的起源开始记录,记录了整个血统数据的生命流程,利用分布式存储降低查询复杂度,提高了查询分析率,实现了对表结构及表记录血统流向使用图形理论的方式记录,使用图检索、图分析,利用分布式存储及分布式搜索引擎,快速检索、分析血统数据。
【技术实现步骤摘要】
一种基于图数据库的数据血统分析的方法
本专利技术涉及数据分析领域,具体涉及一种基于图数据库的数据血统分析的方法。
技术介绍
数据血统是近几年随着数据库和网络的发展而发展起来的一个研究领域,主要包括数据血统的计算、存储、传播和查询,数据血统记载了对数据处理的整个历史,包括数据的起源和处理这些数据所有的后续过程,对于数据库系统,有时需要追溯查询结果的来源,以衡量数据的可靠性、数据质量等。目前数据血统分析方法,基于关系型数据库存储数据处理过程的关联关系,来记录数据血统,此方法需要在数据库中单独创建一张表,用来存储所有的关联关系和处理关系,在数据关系、处理流程较为简单时,能快速方便的查看到数据血统,但当数据关系较为复杂,中间处理流程较为繁琐,如存在多对多关系、多种自关联关系,关系的建立、存储、查询都将面临巨大的考验,血统分析的查询复杂、缓慢、超出预期,面对日益增多、日益复杂的数据,如何有效、快速、准确的建立数据生命全流程的血统,如何降低血统分析查询复杂度,提高查询分析效率,是该领域亟需解决的难题。
技术实现思路
本专利技术所要解决的技术问题在于:现有的目前数据血统分析方法,基于关系型数据库存储数据处理过程的关联关系,来记录数据血统,此方法需要在数据库中单独创建一张表,用来存储所有的关联关系和处理关系,在数据关系、处理流程较为简单时,能快速方便的查看到数据血统,但当数据关系较为复杂,中间处理流程较为繁琐,如存在多对多关系、多种自关联关系,关系的建立、存储、查询都将面临巨大的考验,血统分析的查询复杂、缓慢、超出预期。本专利技术是通过以下技术方案解决上述技术问题的,一种基于图数据库的数据血统分析的方法,该方法具体包括如下步骤:步骤一:建立数据结构血统;步骤二:建立数据记录血统;其中,步骤一具体为:S1:创建元数据顶点标签,设置元数据顶点标签的属性,并增加具体顶点,作为数据结构血统的起源;S2:创建数据项顶点标签,设置数据项顶点的属性,并增加具体顶点;S3:建立元数据到数据项的边,并设置边属性;S4:根据数据项标签中各顶点创建业务数据表对应的表结构标签及表数据标签,其中表结构标签与数据项标签建立边,边起点为数据项标签顶点,边终点为表结构标签顶点,表数据标签用于S2中数据血统记录;S5:根据已有表结构标签创建其他表结构标签,并建立边;S6:根据需要,重复S4、S5步。优选的,步骤二具体为:1)、通过数据采集或其他数据接入方式,为部分表数据标签生成顶点。2)、通过已有表数据标签顶点,使用各种清洗、融合手段,为其他表数据标签生成顶点,并建立边。3)、根据需要,重复1-2步,生成各数据标签顶点及边。优选的,步骤一更具体为:A1:创建元数据顶点标签Lab1,设置Lab1的属性;增加Lab1具体顶点,作为数据结构血统的起源;A2:创建数据项顶点标签Lab2,设置Lab2的属性;增加Lab2的具体顶点;A3:为Lab2各顶点增加边,由Lab1顶点指向Lab2顶点,设置边的属性;A4:创建表示表结构的顶点标签Lab3,设置Lab3的属性,增加Lab3具体顶点,为Lab3各顶点增加边,由Lab2顶点指向Lab3顶点,并设置边的属性;A5:创建Lab3结构对应的表数据标签Lab3’,属性为Lab3所有顶点,在A2中为Lab3’生成顶点;A6:使用第A4步再次创建表结构顶点标签Lab4,设置属性及增加顶点;并设置边及边属性,使用A5创建Lab4对应的Lab4’,并在步骤二中生成顶点;A7:根据需要,重复A4、A5步;边的设置需注意从表结构标签到表结构标签的情况,与步骤A4中边的起点不同;上述Lab3具体顶点为Lab3表结构所需字段,Lab3’生成顶点为表数据记录。优选的,步骤二更具体为:B1:通过数据采集或其他数据接入方式,为标签Lab3’和Lab4’生成顶点;B2:通过Lab3’数据,使用相关清洗手段,为Lab5’生成顶点,并与Lab3’建立边关系;边的起点为Lab3’的顶点,终点为Lab5’的顶点;并为此边设置属性;B3:通过Lab4’数据,使用相关清洗手段,为Lab6’生成顶点,并与Lab4’建立边关系;边的起点为Lab4’的顶点,终点为Lab6’的顶点,并为此边设置属性;B4:通过Lab5’及Lab6’的顶点数据,使用关联字段进行列融合,为Lab7’生成顶点,并与Lab5’和Lab6’建立边关系;边的起点分别为Lab5’和Lab6’的顶点,终点皆为Lab7’的顶点,并为边设置属性;B5:通过Lab5’及Lab6’的顶点数据,进行行融合,为Lab8’生成顶点,并与Lab5’和Lab6’建立边关系;边的起点分别为Lab5’和Lab6’的顶点,终点皆为Lab8’的顶点;并为边设置属性;B6:根据需要,重复B1-B5步,生成各标签顶点及边。优选的,步骤B2中清洗手段为设置字段默认值,字段默认值设置为Y,Y为Lab5’生成顶点值,步骤B3中清洗手段为过滤选取手段,通过对Lab4’数据过滤选取,为Lab6’生成顶点。本专利技术相比现有技术具有以下优点:本专利技术中应用图形李璐存储实体之间的位关系信息,从数据结构血统的起源开始记录,记录了整个血统数据的生命流程,利用分布式存储降低查询复杂度,提高了查询分析率,实现了对表结构及表记录血统流向使用图形理论的方式记录,使用图检索、图分析,利用分布式存储及分布式搜索引擎,快速检索、分析血统数据。附图说明图1是本专利技术的数据结构血统图;图2是本专利技术的数据记录血统图。具体实施方式下面对本专利技术的实施例作详细说明,本实施例在以本专利技术技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。如图1-2所示,一种基于图数据库的数据血统分析的方法,该方法具体包括如下步骤:步骤一:建立数据结构血统;步骤二:建立数据记录血统;其中,步骤一具体为:S1:创建元数据顶点标签,设置元数据顶点标签的属性,并增加具体顶点,作为数据结构血统的起源;S2:创建数据项顶点标签,设置数据项顶点的属性,并增加具体顶点;S3:建立元数据到数据项的边,并设置边属性;S4:根据数据项标签中各顶点创建业务数据表对应的表结构标签及表数据标签,其中表结构标签与数据项标签建立边,边起点为数据项标签顶点,边终点为表结构标签顶点,表数据标签用于S2中数据血统记录;S5:根据已有表结构标签创建其他表结构标签,并建立边;S6:根据需要,重复S4、S5步。步骤二具体为:1)、通过数据采集或其他数据接入方式,为部分表数据标签生成顶点。2)、通过已有表数据标签顶点,使用各种清洗、融合手段,为其他表数据标签生成顶点,并建立边。3)、根据需要,重复1-2本文档来自技高网...
【技术保护点】
1.一种基于图数据库的数据血统分析的方法,其特征在于,该方法具体包括如下步骤:/n步骤一:建立数据结构血统;/n步骤二:建立数据记录血统;/n其中,步骤一具体为:/nS1:创建元数据顶点标签,设置元数据顶点标签的属性,并增加具体顶点,作为数据结构血统的起源;/nS2:创建数据项顶点标签,设置数据项顶点的属性,并增加具体顶点;/nS3:建立元数据到数据项的边,并设置边属性;/nS4:根据数据项标签中各顶点创建业务数据表对应的表结构标签及表数据标签,其中表结构标签与数据项标签建立边,边起点为数据项标签顶点,边终点为表结构标签顶点,表数据标签用于S2中数据血统记录;/nS5:根据已有表结构标签创建其他表结构标签,并建立边;/nS6:根据需要,重复S4、S5步。/n
【技术特征摘要】
1.一种基于图数据库的数据血统分析的方法,其特征在于,该方法具体包括如下步骤:
步骤一:建立数据结构血统;
步骤二:建立数据记录血统;
其中,步骤一具体为:
S1:创建元数据顶点标签,设置元数据顶点标签的属性,并增加具体顶点,作为数据结构血统的起源;
S2:创建数据项顶点标签,设置数据项顶点的属性,并增加具体顶点;
S3:建立元数据到数据项的边,并设置边属性;
S4:根据数据项标签中各顶点创建业务数据表对应的表结构标签及表数据标签,其中表结构标签与数据项标签建立边,边起点为数据项标签顶点,边终点为表结构标签顶点,表数据标签用于S2中数据血统记录;
S5:根据已有表结构标签创建其他表结构标签,并建立边;
S6:根据需要,重复S4、S5步。
2.根据权利要求1所述的一种基于图数据库的数据血统分析的方法,其特征在于:步骤二具体为:
1)、通过数据采集或其他数据接入方式,为部分表数据标签生成顶点。
2)、通过已有表数据标签顶点,使用各种清洗、融合手段,为其他表数据标签生成顶点,并建立边。
3)、根据需要,重复1-2步,生成各数据标签顶点及边。
3.根据权利要求1所述的一种基于图数据库的数据血统分析的方法,其特征在于:步骤一更具体为:
A1:创建元数据顶点标签Lab1,设置Lab1的属性;增加Lab1具体顶点,作为数据结构血统的起源;
A2:创建数据项顶点标签Lab2,设置Lab2的属性;增加Lab2的具体顶点;
A3:为Lab2各顶点增加边,由Lab1顶点指向Lab2顶点,设置边的属性;
A4:创建表示表结构的顶点标签Lab3,设置Lab3的属性,增加Lab3具体顶点,为Lab3各顶点增加边,由Lab2顶点指向Lab3顶点,并设置边的属性;
A5:创建Lab3结构对应的表数据标签Lab3’,属性为Lab3所有顶点,在...
【专利技术属性】
技术研发人员:鲁红军,
申请(专利权)人:陕西云基华海信息技术有限公司,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。