【技术实现步骤摘要】
一种元数据地图构建系统
[0001]本专利技术涉及元数据
,尤其涉及一种元数据地图构建系统
。
技术介绍
[0002]目前大数据平台中的元数据管理模块记录了数据处理生命周期中的数据来源和数据去向,形成数据血缘
。
对数据进行采集
、
加工
、
转换生成新的数据,数据血缘就是指数据生成的链路关系
。
一般用有向无环图描述数据血缘
。
[0003]数据血缘带来的价值:
(1)
故障影响分析
。
当出现故障后,某个表及其字段的数据出现问题,可以迅速判断后续影响
。(2)
数据波动分析
。
当某个数据有较大波动时,可进行溯源分析,找出哪些上游数据影响了该数据的波动
。(3)
数据价值评估
。
通过数据血缘推算元数据关联数量,元数据被关联引用越多,说明该元数据越重要
。
[0004]目前大数据平台中的数据共享交换模块实现了不同系统不同数据库之间表中数据的数据同步
。
数据共享交换模块是一个枢纽,管理数据提供方和数据需求方之间的数据共享交换
。
现有的元数据地图展示的是元数据管理模块中记录的数据血缘
。
[0005]中国申请号为
201410072773.0
的专利技术专利公开了一种构建数据仓库表血缘关系图的方法和装置,其服务器解析访问数据仓库的每个数据仓库操作语 ...
【技术保护点】
【技术特征摘要】
1.
一种元数据地图构建系统,其特征在于,包括:元数据管理模块,其配置为对元数据进行采集,基于数据表构建数据血缘关系,将元数据和数据血缘关系存储至数据库;数据共享交换模块,其配置为根据数据的交换记录构建数据交换关系,将数据交换关系存储至数据库;数据计算模块,其配置为根据数据血缘关系和数据交换关系计算数据表之间的关系
、
数据库之间的关系和系统之间的关系;元数据地图模块,其配置为根据数据表之间的关系绘制数据表元数据地图
、
根据数据库之间的关系绘制数据库元数据地图以及根据系统之间的关系绘制系统元数据地图
。2.
如权利要求1所述的一种元数据地图构建系统,其特征在于,构建数据血缘关系的过程包括:对数据表的表名信息和字段信息进行
SQL
解析,分析词法和语法,得到
AST
,
AST
中含有数据血缘信息;对
AST
进行语义分析,通过遍历分析
AST
,获得数据表的表名和字段;将数据表的表名和字段根据数据血缘信息进行一一映射,形成数据血缘关系
。3.
如权利要求2所述的一种元数据地图构建系统,其特征在于,构建数据交换关系的过程包括:根据需求表名模糊匹配搜索数据表,依据数据血缘关系在已发布的数据表中搜索需求表名的上游数据表和下游数据表,统计搜索结果数据表中上游数据表和下游数据表的数据交换次数;根据数据交换次数从高到低的顺序对搜索结果数据表进行排序,用户根据排序结果推荐顺序选择数据表作为数据提供方,从元数据管理模块获取数据表对应的表名和字段,整理得到数据提供方信息,数据提供方信息包括最优提供方的数据表
、
表名
、
字段和数据交换次数;用户选择数据表作为数据需求方,从元数据管理模块获取对应的表名和字段,整理得到数据需求方信息,数据需求方信息包括数据需求方的数据表
、
表名
、
字段和数据交换次数;根据数据提供方信息和数据需求方信息构建数据交换关系,每一组数据交换关系为数据提供方信息中的字段与对应的数据需求方信息中的字段之间的一一映射关系
。4.
如权利要求3所述的一种元数据地图构建系统,其特征在于,所述数据共享交换模块还配置为对数据交换关系进行校验:步骤一
、
随机选择一组数据交换关系,将该组数据交换关系中数据提供方信息的数据表作为校验数据表,将该组数据交换关系中数据需求方信息的数据表作为对比数据表;步骤二
、
根据校验数据表的表名和字段在元数据管理模块中按照数据血缘关系搜索其上游数据表,得到校验上游数据表;步骤三
、
将校验上游数据表与对比数据表进行比对,若校验上游数据表与对比数据表相同,则判定该组数据交换关系异常,对该组数据交换关系予以删除;步骤四
、
重复步骤一到步骤三,直至所有的数据交换关系均校验完毕
。5.
如权利要求3所述的一种元数据地图构建系统,其特征在于,所述数据共享交换模块
还配置为执行数据交换:数据共享交换模块设有调度单元,调度单元根据交换任务发起调度请求;根据调度请求从数据库中读取交换任务的数据提供方信息和数据需求方信息,对交换任务执行数据交换,同时使用
DataX
对交换任务进行离线数据同步;在执行数据交换后,在交换任务对应的数据提供方信息和数据需求方信息中分别累加数据交换次数,并更新数据交换关系
。6.
如权利要求2所...
【专利技术属性】
技术研发人员:胡琦,严鹤,王警军,王俊,向涛,
申请(专利权)人:云启智慧科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。