构建数据建模关联的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35591519 阅读:17 留言:0更新日期:2022-11-16 15:08
本公开关于一种构建数据建模关联的方法、装置、电子设备及存储介质,该方法包括:扫描目标系统所包含的多个数据库中的多个表文件,以获得多个表文件各自对应的库表数据,库表数据至少包括业务数据,然后根据每个表文件的业务数据,获取每个表文件的表数据以及表数据所包含的多个字段数据,对多个字段进行处理,建立多个表文件之间的关联关系。本公开在相关文档、日志、规范等信息都有缺失或不完善时,根据目标系统中的所有数据库所包含的表文件,得到每个表文件的库表数据,然后,直接对库表数据进行处理,得到任意两个字段数据对应的字段向量之间的距离,即可建立表文件之间的关联关系,从而能快速帮助数据盘点理解。从而能快速帮助数据盘点理解。从而能快速帮助数据盘点理解。

【技术实现步骤摘要】
构建数据建模关联的方法、装置、电子设备及存储介质


[0001]本公开涉及数据处理
,尤其涉及一种构建数据建模关联的方法、装置、电子设备及存储介质。

技术介绍

[0002]对于数据盘点,一般采取人工记录或数据目录记录系统方式去进行数据盘点信息登记,但数据多、业务复杂且数据在持续变化中,这让数据盘点工作难以招架,亟需提升业务大数据盘点理解的动态能力。
[0003]相关技术中,业务数据的元数据构建方案,都是建立在有规范文档、数据库遵循范式、数据库日志、功能系统日志上。而在数据中心建设初期,数据盘点相关信息元素大多会有一定问题,甚至缺失的情况,例如:系统数据库设计范式遵循不完备,库表(表文件)内关联缺失,由于性能原因数据库查询日志时长并未打开,库表间关联缺失,业务系统日志并未合理记录数据与功能的关联,数据与功能关联缺失,从而导致数据盘点困难。

技术实现思路

[0004]本公开提供一种构建数据建模关联的方法、装置、电子设备及存储介质,以至少解决相关技术中由于数据关联缺失而造成的数据盘点困难的问题。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种构建数据建模关联的方法,包括:
[0006]扫描目标系统所包含的多个数据库中的多个表文件,以获得多个表文件各自对应的库表数据,所述库表数据至少包括业务数据;
[0007]根据每个表文件的业务数据,获取每个表文件的表数据以及所述表数据所包含的多个字段数据;
[0008]对多个字段数据进行向量化,得到多个字段数据各自对应的字段向量;
[0009]根据多个字段数据各自对应的字段向量,得到任意两个字段数据对应的字段向量之间的距离;
[0010]根据多个字段数据中任意两个字段数据对应的字段向量之间的距离以及每个表文件的表数据所包含的多个字段数据,建立多个表文件之间的关联关系。
[0011]可选地,所述库表数据还包括建表描述,每个表文件的建表描述包括该表文件的表结构和该表文件所包含的每个字段数据的字段类型;
[0012]在对多个字段数据进行向量化,得到多个字段数据各自对应的字段向量之前,所述方法还包括:
[0013]根据每个表文件所包含的每个字段数据的字段类型,从多个字段数据中得到目标字段数据,所述目标字段数据至少包括关系类型的字段数据;
[0014]对多个字段数据进行向量化,得到多个字段数据各自对应的字段向量,包括:
[0015]对所述目标字段数据中的多个关系类型的字段数据进行向量化,得到多个字段数据各自对应的字段向量。
[0016]可选地,根据多个字段数据中任意两个字段数据对应的字段向量之间的距离以及每个表文件的表数据所包含的多个字段数据,建立多个表文件之间的关联关系,包括:
[0017]根据多个字段数据中任意两个字段数据对应的字段向量之间的距离,建立多个字段数据之间的关联关系,以得到字段知识图谱,所述字段知识图谱包括多个关联关系组团,每个关联关系组团由多个建立关联关系的字段数据组成;
[0018]根据所述字段知识图谱和每个表文件的表数据所包含的多个字段数据,建立多个表文件之间的关联关系,以得到表文件知识图谱。
[0019]可选地,所述目标字段数据还包括时序类型的字段数据;
[0020]在根据所述字段知识图谱和每个表文件的表数据所包含的多个字段数据,建立多个表文件之间的关联关系,以得到表文件知识图谱之后,所述方法还包括:
[0021]根据每个表文件内的关系类型的字段数据和时序类型的字段数据,对每个表文件内的字段数据之间的关联关系进行时序描述,得到具有时序性的表文件知识图谱。
[0022]可选地,在根据每个表文件内的关系类型的字段数据和时序类型的字段数据,对每个表文件内的字段数据之间的关联关系进行时序描述,得到具有时序性的表文件知识图谱之后,所述方法还包括:
[0023]根据具有时序性的表文件知识图谱,生成面向数据盘点管理的系统界面;
[0024]根据系统界面的约束条件和具有时序性的表文件知识图谱,生成业务主题。
[0025]可选地,对多个字段数据进行向量化,得到多个字段数据各自对应的字段向量,包括:
[0026]根据多个表文件,确定过滤器预期支持的元素个数和过滤器位数组值;
[0027]根据过滤器预期支持的元素个数、假阳性概率和过滤器位数组值,确定哈希函数的个数K;
[0028]针对每一个字段数据,通过K个散列函数将该字段数据映射为一个位数组中的K个点位,并将该位数组中的所述K个点位上的0置换为1,不同字段数据所得到的K个点位的位置不完全相同;
[0029]根据每个字段数据所映射得到的位数组,得到每个字段数据所对应的字段向量。
[0030]可选地,根据多个字段数据各自对应的字段向量,得到任意两个字段数据对应的字段向量之间的距离,包括:
[0031]计算多个字段数据各自对应的字段向量中任意两个字段数据对应的字段向量之间的距离,其中,采用的距离计算方法包括以下至少一者:欧几里德距离、曼哈顿距离、切比雪夫距离、汉明距离和余弦距离。
[0032]根据本公开实施例的第二方面,提供一种构建数据建模关联的装置,包括:
[0033]扫描模块,用于扫描目标系统所包含的多个数据库中的多个表文件,以获得多个表文件各自对应的库表数据,所述库表数据至少包括业务数据;
[0034]获取模块,用于根据每个表文件的业务数据,获取每个表文件的表数据以及所述表数据所包含的多个字段数据;
[0035]第一获得模块,用于对多个字段数据进行向量化,得到多个字段数据各自对应的字段向量;
[0036]第二获得模块,用于根据多个字段数据各自对应的字段向量,得到任意两个字段
数据对应的字段向量之间的距离;
[0037]建立模块,用于根据多个字段数据中任意两个字段数据对应的字段向量之间的距离以及每个表文件的表数据所包含的多个字段数据,建立多个表文件之间的关联关系。
[0038]可选地,所述库表数据还包括建表描述,每个表文件的建表描述包括该表文件的表结构和该表文件所包含的每个字段数据的字段类型;
[0039]在所述第一获得模块之前,所述装置还包括:
[0040]第三获得模块,用于根据每个表文件所包含的每个字段数据的字段类型,从多个字段数据中得到目标字段数据,所述目标字段数据至少包括关系类型的字段数据;
[0041]所述第一获得模块,包括:
[0042]第一获得子模块,用于对所述目标字段数据中的多个关系类型的字段数据进行向量化,得到多个字段数据各自对应的字段向量。
[0043]可选地,所述建立模块,包括:
[0044]第一建立子模块,用于根据多个字段数据中任意两个字段数据对应的字段向量之间的距离,建立多个字段数据之间的关联关系,以得到字段知识图谱,所述字段知识图谱包括多个关联关系组团,每个关联关系组团由多个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种构建数据建模关联的方法,其特征在于,所述方法包括:扫描目标系统所包含的多个数据库中的多个表文件,以获得多个表文件各自对应的库表数据,所述库表数据至少包括业务数据;根据每个表文件的业务数据,获取每个表文件的表数据以及所述表数据所包含的多个字段数据;对多个字段数据进行向量化,得到多个字段数据各自对应的字段向量;根据多个字段数据各自对应的字段向量,得到任意两个字段数据对应的字段向量之间的距离;根据多个字段数据中任意两个字段数据对应的字段向量之间的距离以及每个表文件的表数据所包含的多个字段数据,建立多个表文件之间的关联关系。2.根据权利要求1所述的一种构建数据建模关联的方法,其特征在于,所述库表数据还包括建表描述,每个表文件的建表描述包括该表文件的表结构和该表文件所包含的每个字段数据的字段类型;在对多个字段数据进行向量化,得到多个字段数据各自对应的字段向量之前,所述方法还包括:根据每个表文件所包含的每个字段数据的字段类型,从多个字段数据中得到目标字段数据,所述目标字段数据至少包括关系类型的字段数据;对多个字段数据进行向量化,得到多个字段数据各自对应的字段向量,包括:对所述目标字段数据中的多个关系类型的字段数据进行向量化,得到多个字段数据各自对应的字段向量。3.根据权利要求2所述的一种构建数据建模关联的方法,其特征在于,根据多个字段数据中任意两个字段数据对应的字段向量之间的距离以及每个表文件的表数据所包含的多个字段数据,建立多个表文件之间的关联关系,包括:根据多个字段数据中任意两个字段数据对应的字段向量之间的距离,建立多个字段数据之间的关联关系,以得到字段知识图谱,所述字段知识图谱包括多个关联关系组团,每个关联关系组团由多个建立关联关系的字段数据组成;根据所述字段知识图谱和每个表文件的表数据所包含的多个字段数据,建立多个表文件之间的关联关系,以得到表文件知识图谱。4.根据权利要求3所述的一种构建数据建模关联的方法,其特征在于,所述目标字段数据还包括时序类型的字段数据;在根据所述字段知识图谱和每个表文件的表数据所包含的多个字段数据,建立多个表文件之间的关联关系,以得到表文件知识图谱之后,所述方法还包括:根据每个表文件内的关系类型的字段数据和时序类型的字段数据,对每个表文件内的字段数据之间的关联关系进行时序描述,得到具有时序性的表文件知识图谱。5.根据权利要求4所述的一种构建数据建模关联的方法,其特征在于,在根据每个表文件内的关系类型的...

【专利技术属性】
技术研发人员:沈寓实姚正斌刘凯毅
申请(专利权)人:飞诺门阵北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1