【技术实现步骤摘要】
一种数据库元数据字段匹配方法、装置、设备及介质
[0001]本说明书涉及计算机
,尤其涉及一种数据库元数据字段匹配方法、装置、设备及介质。
技术介绍
[0002]数据库字段是数据库的基本组成部分,它表示一个数据库记录对象的属性,每个数据库字段包括数据库记录对象中某个具体属性的信息,例如学生姓名,学生联系电话,家庭住址等。
[0003]元数据字段是数据库字段的含义表示,其表示的含义更加通用,范围更加广泛,可以使用元数据字段作为类别对数据库字段进行分类,例如“学生姓名”字段的元数据字段为“姓名”,“家庭住址”字段的元数据字段为“地址”。
[0004]数据库元数据字段匹配即通过对数据库字段名的分析,找到与其含义相近的元数据字段进行匹配,一个元数据字段可匹配多个数据库字段,一个数据库字段只能有一个对应的元数据字段。对数据库元数据字段的匹配可以理清数据库字段之间的关联关系,划分其类别,便于进一步提高数据质量,使数据之间的逻辑更加清晰。
[0005]现有技术中,大都采用人工方式进行数据库元数据字段匹配,效率较低,无法满足用户的需求。
技术实现思路
[0006]本说明书一个或多个实施例提供了一种数据库元数据字段匹配方法、装置、设备及介质,用于解决如下技术问题:
[0007]现有技术中,大都采用人工方式进行数据库元数据字段匹配,效率较低,无法满足用户的需求。
[0008]本说明书一个或多个实施例采用下述技术方案:
[0009]本说明书一个或多个实施例提供的一种数据 ...
【技术保护点】
【技术特征摘要】
1.一种数据库元数据字段匹配方法,其特征在于,包括:获取未匹配的数据库字段,对所述未匹配的数据库字段进行预先设定的依存句法分析,得到所述未匹配的数据库字段的主干特征词语;判断预先生成的主干数据结构中是否存在所述未匹配的数据库字段的主干特征词语;若主干数据结构的数值中存在所述未匹配的数据库字段的主干特征词语,在所述主干数据结构匹配出所述未匹配的数据库字段对应的数据库元数据字段;若主干数据结构的数值中不存在所述未匹配的数据库字段的主干特征词语,根据预先训练的词向量模型将所述未匹配的数据库字段的主干特征词语转化为待匹配的词向量,确定出所述未匹配的数据库字段的主干特征词语的向量值;计算所述未匹配的数据库字段的主干特征词语的向量值,与预先生成的向量数据结构中数据库元数据字段的向量值的相似度;根据所述相似度匹配出所述未匹配的数据库字段对应的数据库元数据字段。2.根据权利要求1所述的方法,其特征在于,所述判断预先生成的主干数据结构中是否存在所述未匹配的数据库字段的主干特征词语前,所述方法还包括:根据业务需求以及数据表结构确定所需的数据库元数据字段;将预先获取的数据库字段与数据库元数据字段进行匹配,并将匹配的所述数据库字段与所述数据库元数据字段存储到数据集;对所述数据集中的数据库字段进行依存句法分析,得到所述数据库字段的主干特征词语;将所述数据库字段的主干特征词语与所述数据库元数据字段进行匹配,并通过主干数据结构将匹配的所述数据库字段的主干特征词语与数据库元数据字段存储到所述数据集。3.根据权利要求2所述的方法,其特征在于,所述主干数据结构中存储有第一键值对,所述数据库元数据字段作为所述第一键值对的键值,所述数据库元字段对应的所述数据库字段的主干特征词语组成的清单作为所述第一键值对的数值。4.根据权利要求2所述的方法,其特征在于,所述字段数据结构中存储有第二键值对,所述数据库元数据字段作为所述第二键值对的键值,所述数据库元字段对应的数据库字段组成的清单作为所述第二键值对的数值。5.根据权利要求2所述的方法,其特征在于,所述计算所述未匹配的数据库字段的主干特征词语的向量值,与预先生成的向量数据结构中数据库元数据字段的向量值的相似度前,所述方法还包括:根据所述词向量模型,将所述数据库元数据字段对应的所述数据库字段的主干特征词语转化成词向量,并将所述词向量作为所述数据库元数据字段的向量值;将所述数据库元数据字段与所述数据库元数据字段的向量值进行匹配,并将匹配的所述数据库元数据字段与所述数据库元数据字段的向量值存储到所述数据集;对于所述匹配的所述数据库元数据字段与所述数据库元数据字段的向量值,通过向量数据结构进行存储,所述向量数据结构中存储有第三键值对,所述数据库元数据字段作为所述第三键值对的键值,所述数据库元数据字段的向量值作为所述第三键值对的数值。6.根据权利要求5所述的方法,其特征在于,每个所述数据库元数据字段对应多个数据库字段的主干特征词语;
所述根据所述词向量模型,将所述数据库元数据字段对应的所述数据库字段的主干特征词语转化成词向量,并将所述词向量作为所述数据库元数据字段的向量值,具体包括:根据所述词向量模型,将所述数据库元数据字段对应的多个所述数据库字段的主干特征词语转化成多个词向量;将所述多个词向量进行加和并取平均,得到平均词向量;将所述平均词向量作为所述数据库元数据字段的向量值。7.根据权利要求1所述的方法,其特征在于,所述对所述未匹配的数据库字段进行预先设定的依存句法分析,得到所述未匹配的数据库字段的主干特...
【专利技术属性】
技术研发人员:傅玉鑫,孙永超,申传旺,李照川,罗森,张艳雪,
申请(专利权)人:浪潮卓数大数据产业发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。