一种数据库元数据字段匹配方法、装置、设备及介质制造方法及图纸

技术编号:34717817 阅读:11 留言:0更新日期:2022-08-31 18:01
本说明书实施例公开了一种数据库元数据字段匹配方法,包括:获取未匹配的数据库字段,得到未匹配的数据库字段的主干特征词语;若主干数据结构的数值中存在未匹配的数据库字段的主干特征词语,在主干数据结构匹配出未匹配的数据库字段对应的数据库元数据字段;若主干数据结构的数值中不存在未匹配的数据库字段的主干特征词语,根据预先训练的词向量模型将未匹配的数据库字段的主干特征词语转化为待匹配的词向量,确定出未匹配的数据库字段的主干特征词语的向量值;计算未匹配的数据库字段的主干特征词语的向量值,与预先生成的向量数据结构中数据库元数据字段的向量值的相似度;根据相似度匹配出未匹配的数据库字段对应的数据库元数据字段。数据库元数据字段。数据库元数据字段。

【技术实现步骤摘要】
一种数据库元数据字段匹配方法、装置、设备及介质


[0001]本说明书涉及计算机
,尤其涉及一种数据库元数据字段匹配方法、装置、设备及介质。

技术介绍

[0002]数据库字段是数据库的基本组成部分,它表示一个数据库记录对象的属性,每个数据库字段包括数据库记录对象中某个具体属性的信息,例如学生姓名,学生联系电话,家庭住址等。
[0003]元数据字段是数据库字段的含义表示,其表示的含义更加通用,范围更加广泛,可以使用元数据字段作为类别对数据库字段进行分类,例如“学生姓名”字段的元数据字段为“姓名”,“家庭住址”字段的元数据字段为“地址”。
[0004]数据库元数据字段匹配即通过对数据库字段名的分析,找到与其含义相近的元数据字段进行匹配,一个元数据字段可匹配多个数据库字段,一个数据库字段只能有一个对应的元数据字段。对数据库元数据字段的匹配可以理清数据库字段之间的关联关系,划分其类别,便于进一步提高数据质量,使数据之间的逻辑更加清晰。
[0005]现有技术中,大都采用人工方式进行数据库元数据字段匹配,效率较低,无法满足用户的需求。

技术实现思路

[0006]本说明书一个或多个实施例提供了一种数据库元数据字段匹配方法、装置、设备及介质,用于解决如下技术问题:
[0007]现有技术中,大都采用人工方式进行数据库元数据字段匹配,效率较低,无法满足用户的需求。
[0008]本说明书一个或多个实施例采用下述技术方案:
[0009]本说明书一个或多个实施例提供的一种数据库元数据字段匹配方法,包括:
[0010]获取未匹配的数据库字段,对所述未匹配的数据库字段进行预先设定的依存句法分析,得到所述未匹配的数据库字段的主干特征词语;
[0011]判断预先生成的主干数据结构中是否存在所述未匹配的数据库字段的主干特征词语;
[0012]若主干数据结构的数值中存在所述未匹配的数据库字段的主干特征词语,在所述主干数据结构匹配出所述未匹配的数据库字段对应的数据库元数据字段;
[0013]若主干数据结构的数值中不存在所述未匹配的数据库字段的主干特征词语,根据预先训练的词向量模型将所述未匹配的数据库字段的主干特征词语转化为待匹配的词向量,确定出所述未匹配的数据库字段的主干特征词语的向量值;
[0014]计算所述未匹配的数据库字段的主干特征词语的向量值,与预先生成的向量数据结构中数据库元数据字段的向量值的相似度;
[0015]根据所述相似度匹配出所述未匹配的数据库字段对应的数据库元数据字段。
[0016]本说明书一个或多个实施例提供的一种数据库元数据字段匹配装置,包括:
[0017]获取分析单元,获取未匹配的数据库字段,对所述未匹配的数据库字段进行预先设定的依存句法分析,得到所述未匹配的数据库字段的主干特征词语;
[0018]判断单元,判断预先生成的主干数据结构中是否存在所述未匹配的数据库字段的主干特征词语;
[0019]第一匹配单元,若主干数据结构的数值中存在所述未匹配的数据库字段的主干特征词语,在所述主干数据结构匹配出所述未匹配的数据库字段对应的数据库元数据字段;
[0020]向量转化单元,若主干数据结构的数值中不存在所述未匹配的数据库字段的主干特征词语,根据预先训练的词向量模型将所述未匹配的数据库字段的主干特征词语转化为待匹配的词向量,确定出所述未匹配的数据库字段的主干特征词语的向量值;
[0021]计算单元,计算所述未匹配的数据库字段的主干特征词语的向量值,与预先生成的向量数据结构中数据库元数据字段的向量值的相似度;
[0022]第二匹配单元,根据所述相似度匹配出所述未匹配的数据库字段对应的数据库元数据字段。
[0023]本说明书一个或多个实施例提供的一种数据库元数据字段匹配设备,包括:
[0024]至少一个处理器;以及,
[0025]与所述至少一个处理器通信连接的存储器;其中,
[0026]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
[0027]获取未匹配的数据库字段,对所述未匹配的数据库字段进行预先设定的依存句法分析,得到所述未匹配的数据库字段的主干特征词语;
[0028]判断预先生成的主干数据结构中是否存在所述未匹配的数据库字段的主干特征词语;
[0029]若主干数据结构的数值中存在所述未匹配的数据库字段的主干特征词语,在所述主干数据结构匹配出所述未匹配的数据库字段对应的数据库元数据字段;
[0030]若主干数据结构的数值中不存在所述未匹配的数据库字段的主干特征词语,根据预先训练的词向量模型将所述未匹配的数据库字段的主干特征词语转化为待匹配的词向量,确定出所述未匹配的数据库字段的主干特征词语的向量值;
[0031]计算所述未匹配的数据库字段的主干特征词语的向量值,与预先生成的向量数据结构中数据库元数据字段的向量值的相似度;
[0032]根据所述相似度匹配出所述未匹配的数据库字段对应的数据库元数据字段。
[0033]本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
[0034]获取未匹配的数据库字段,对所述未匹配的数据库字段进行预先设定的依存句法分析,得到所述未匹配的数据库字段的主干特征词语;
[0035]判断预先生成的主干数据结构中是否存在所述未匹配的数据库字段的主干特征词语;
[0036]若主干数据结构的数值中存在所述未匹配的数据库字段的主干特征词语,在所述
主干数据结构匹配出所述未匹配的数据库字段对应的数据库元数据字段;
[0037]若主干数据结构的数值中不存在所述未匹配的数据库字段的主干特征词语,根据预先训练的词向量模型将所述未匹配的数据库字段的主干特征词语转化为待匹配的词向量,确定出所述未匹配的数据库字段的主干特征词语的向量值;
[0038]计算所述未匹配的数据库字段的主干特征词语的向量值,与预先生成的向量数据结构中数据库元数据字段的向量值的相似度;
[0039]根据所述相似度匹配出所述未匹配的数据库字段对应的数据库元数据字段。
[0040]本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
[0041]本说明书实施例进行元数据字段匹配,有助于梳理数据之间的关系,理清数据之间的相近关系,提高数据资产的质量。期间,本说明书实施例使用自然语言处理中的词向量方法进行词语之间的相似性判断,可以在高效的同时保证相似性判断的准确性。使用依存句法分析对字段进行主要信息提取,可以减小无关业务词汇对元字段匹配结果造成的影响。此外,本说明书实施例可以自动快速的为新增字段匹配元字段,不需要人工从众多元字段中挑选以及人工匹配,更加高效。
附图说明
[0042]为了更清楚地说明本说明书实施例或现有技术中的技术方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据库元数据字段匹配方法,其特征在于,包括:获取未匹配的数据库字段,对所述未匹配的数据库字段进行预先设定的依存句法分析,得到所述未匹配的数据库字段的主干特征词语;判断预先生成的主干数据结构中是否存在所述未匹配的数据库字段的主干特征词语;若主干数据结构的数值中存在所述未匹配的数据库字段的主干特征词语,在所述主干数据结构匹配出所述未匹配的数据库字段对应的数据库元数据字段;若主干数据结构的数值中不存在所述未匹配的数据库字段的主干特征词语,根据预先训练的词向量模型将所述未匹配的数据库字段的主干特征词语转化为待匹配的词向量,确定出所述未匹配的数据库字段的主干特征词语的向量值;计算所述未匹配的数据库字段的主干特征词语的向量值,与预先生成的向量数据结构中数据库元数据字段的向量值的相似度;根据所述相似度匹配出所述未匹配的数据库字段对应的数据库元数据字段。2.根据权利要求1所述的方法,其特征在于,所述判断预先生成的主干数据结构中是否存在所述未匹配的数据库字段的主干特征词语前,所述方法还包括:根据业务需求以及数据表结构确定所需的数据库元数据字段;将预先获取的数据库字段与数据库元数据字段进行匹配,并将匹配的所述数据库字段与所述数据库元数据字段存储到数据集;对所述数据集中的数据库字段进行依存句法分析,得到所述数据库字段的主干特征词语;将所述数据库字段的主干特征词语与所述数据库元数据字段进行匹配,并通过主干数据结构将匹配的所述数据库字段的主干特征词语与数据库元数据字段存储到所述数据集。3.根据权利要求2所述的方法,其特征在于,所述主干数据结构中存储有第一键值对,所述数据库元数据字段作为所述第一键值对的键值,所述数据库元字段对应的所述数据库字段的主干特征词语组成的清单作为所述第一键值对的数值。4.根据权利要求2所述的方法,其特征在于,所述字段数据结构中存储有第二键值对,所述数据库元数据字段作为所述第二键值对的键值,所述数据库元字段对应的数据库字段组成的清单作为所述第二键值对的数值。5.根据权利要求2所述的方法,其特征在于,所述计算所述未匹配的数据库字段的主干特征词语的向量值,与预先生成的向量数据结构中数据库元数据字段的向量值的相似度前,所述方法还包括:根据所述词向量模型,将所述数据库元数据字段对应的所述数据库字段的主干特征词语转化成词向量,并将所述词向量作为所述数据库元数据字段的向量值;将所述数据库元数据字段与所述数据库元数据字段的向量值进行匹配,并将匹配的所述数据库元数据字段与所述数据库元数据字段的向量值存储到所述数据集;对于所述匹配的所述数据库元数据字段与所述数据库元数据字段的向量值,通过向量数据结构进行存储,所述向量数据结构中存储有第三键值对,所述数据库元数据字段作为所述第三键值对的键值,所述数据库元数据字段的向量值作为所述第三键值对的数值。6.根据权利要求5所述的方法,其特征在于,每个所述数据库元数据字段对应多个数据库字段的主干特征词语;
所述根据所述词向量模型,将所述数据库元数据字段对应的所述数据库字段的主干特征词语转化成词向量,并将所述词向量作为所述数据库元数据字段的向量值,具体包括:根据所述词向量模型,将所述数据库元数据字段对应的多个所述数据库字段的主干特征词语转化成多个词向量;将所述多个词向量进行加和并取平均,得到平均词向量;将所述平均词向量作为所述数据库元数据字段的向量值。7.根据权利要求1所述的方法,其特征在于,所述对所述未匹配的数据库字段进行预先设定的依存句法分析,得到所述未匹配的数据库字段的主干特...

【专利技术属性】
技术研发人员:傅玉鑫孙永超申传旺李照川罗森张艳雪
申请(专利权)人:浪潮卓数大数据产业发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1