一种数据字段映射方法、装置及存储介质制造方法及图纸

技术编号：27935237 阅读：33 留言：0更新日期：2021-04-02 14:15

本公开提供了一种数据字段映射方法、装置及存储介质，用于解决数据库字段映射效率低的技术问题。本公开使用半监督的自然语言处理模型对源数据库的待映射字段和目标数据库的目标字段的字段名称进行向量化得到字段特征向量，使用自然语言处理模型计算待映射字段与目标字段之间的近似度，从而预测二者的映射关系，并通过人工修正，将修正后的对应关系加入训练样本，对模型进行迭代训练从而提高预测准确性。本公开借助机器学习技术辅助进行字段映射，相比于纯人工标注，减少了人工操作的工作量，提高了数据字段映射效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据字段映射方法、装置及存储介质
本公开涉及通信及人工智能
，尤其涉及一种数据字段映射方法、装置及存储介质。
技术介绍
在研发型企业中，由于开发时间或开发部门的不同，往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行，这些系统的数据源彼此独立、相互封闭，使得数据难以在系统之间交流、共享和融合，从而形成了“信息孤岛”。随着信息化应用的不断深入，在数字时代，组织必须对其数据进行一流的控制，以保持与市场的相关性。数据集成就是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而为企业提供全面的数据共享。数据映射是大型数据迁移和数据集成过程的必要组成部分，它是一种将数据源中的字段与数据仓库或其他存储库中的目标字段进行匹配的机制，字段可以是名称、电话、电子邮件等任何输入。在组织拥有比以往更多的数据源、类型和格式的时候将数据映射作为整体数据战略的一部分来解决问题尤其重要，数据映射可以中和数据错误和不匹配的可能性，有助于数据标准化过程并使预期的数据目的更清晰更容易理解。对于现有的集成数据映射的...

【技术保护点】
1.一种数据字段映射方法，其特征在于，所述方法包括：/n获取待映射数据源的待映射字段集及目标数据源的目标字段集；/n对待映射字段集中的待映射字段和目标字段集中的目标字段分别进行词嵌入处理得到各字段的字段特征向量；/n将待映射字段和目标字段的字段特征向量作为自然语言处理模型的输入，分别计算每个待映射字段与各目标字段之间的相似度；所述自然语言处理模型经标注过的训练样本训练获得；/n将相似度最高的待映射字段与目标字段作为预测结果输出。/n

【技术特征摘要】
1.一种数据字段映射方法，其特征在于，所述方法包括：
获取待映射数据源的待映射字段集及目标数据源的目标字段集；
对待映射字段集中的待映射字段和目标字段集中的目标字段分别进行词嵌入处理得到各字段的字段特征向量；
将待映射字段和目标字段的字段特征向量作为自然语言处理模型的输入，分别计算每个待映射字段与各目标字段之间的相似度；所述自然语言处理模型经标注过的训练样本训练获得；
将相似度最高的待映射字段与目标字段作为预测结果输出。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
将预测结果输出以供用户确定映射关系；
接收经过修正的待映射字段和目标字段，并将修正的待映射字段和目标字段作为新的标注样本加入训练样本集，并对所述自然语言处理模型进行迭代训练。

3.根据权利要求1所述的方法，其特征在于，
所述预测结果中包括相似度最高的待映射字段、目标字段及相似度。

4.根据权利要求1所述的方法，其特征在于，所述自然语言处理模型经标注过的训练样本集训练获得的方法为:
使用所述自然语言处理模型对经过标注的训练样本集中的训练样本进行向量化得到样本中源字段和目标字段的字段特征向量；
将训练样本集中的训练样本的字段特征向量输入到自然语言处理模型对模型进行训练，当模型预测结果的准确率和召回率未达到预设的迭代截止条件时，调整模型参数对所述自然语言处理模型迭代训练直到达到迭代截止条件。

5.根据权利要求1所述的方法，其特征在于，
采用人工标注或规则标注的方式对所述训练样本集中的训练样本进行标注；
所述自然语言处理模型为word2Vec或GloVe。

6.一种数据字段映...

【专利技术属性】
技术研发人员：刘畅，
申请(专利权)人：新华三大数据技术有限公司，
类型：发明
国别省市：河南;41

全部详细技术资料下载我是这个专利的主人