当前位置: 首页 > 专利查询>武汉大学专利>正文

一种跨域跨源的数据对齐方法、系统及电子设备技术方案

技术编号:37470813 阅读:21 留言:0更新日期:2023-05-06 09:51
本发明专利技术公开了一种跨域跨源的数据对齐方法、系统及电子设备,方法首先输入待对齐的多组表格数据;然后提取数据中的键值对以及两者在表格中的位置;接着使用数据多模态表示模型,生成键、值、视觉位置的向量表达;计算来自不同数据的向量表达的语义距离;最后对不同数据之间的语义距离进行评价,确定对齐结果。本发明专利技术在使用键之间的配对之外,增加考虑值的匹配情况,增强现有技术中键的匹配。本发明专利技术在本文表示之外,融合了表格视觉结构作为键值对的语义表示的一部分,突破了现有技术仅采用单模态信息进行匹配的限制。态信息进行匹配的限制。态信息进行匹配的限制。

【技术实现步骤摘要】
一种跨域跨源的数据对齐方法、系统及电子设备


[0001]本专利技术属于计算机
,涉及一种数据对齐方法、系统及电子设备,尤其涉及一种含有多字段或多单元格表格的数据对齐方法、系统及电子设备。

技术介绍

[0002]企业、政府机关、科研机构在日常的生产、经营、管理、研究中生产了大量的数据,这些数据存储于大量的、分散的、自行定义的数据库或数据表格中,这些数据库或表格缺乏统一的数据划分标准和字段命名规范,导致相同相似内容的数据,在不同领域、不同来源的数据中使用多种表述方式,造成了难以对齐的问题。因为上述问题的存在,在涉及到数据统计、数据挖掘分析应用时,如跨部门、跨单位的数据汇总、人员信息收集、数据审计等需求时,往往需要使用人工逐项比对的方式进行数据的对齐,投入大量的人力财力,造成了大量浪费。
[0003]现存的机器自动数据对齐或匹配的方法,主要思想是计算字段名或键值对中的键的相似度,挑选其中的相似度高的数据对作为匹配预测结果。相似度计算的方式包括传统的字符匹配、关键词匹配,基于统计方法的TF

IDF及深度学习的基于预训练Word2Vec、WordEmbedding的相似度计算等等。
[0004]人工规则方法和统计方法,在面对不规则命名的字段名时匹配正确率不高。至于深度学习方法,因为键的数量相对较少且文本长度较短、缺少上下文,导致文本短文本多义性问题(polysemy)难以解决,如不同数据来源中“备注”的内容差异巨大,不能简单地归为一类。并且现有的预训练语言模型在训练时使用的训练预料多为句子,而数据的键一般是词或者短语,两者存在分布差异(distribution gap),也导致训练好的模型难以大面积推广使用,需要针对不同的领域来源的表格反复构建和调整匹配策略,效率低下。

技术实现思路

[0005]针对数据对齐需求和现有技术的不足,本专利技术提供了一种跨域跨源的数据对齐方法、系统及电子设备,其输入为多组待匹配的键值对数据,输出为他们之间的匹配结果。
[0006]本专利技术的方法所采用的技术方案是:一种跨域跨源的数据对齐方法,包括以下步骤:
[0007]步骤1:输入待对齐的多组表格数据;
[0008]步骤2:提取数据中的键值对以及两者在表格中的位置;
[0009]步骤3:使用数据多模态表示模型,生成键、值、视觉位置的向量表达;
[0010]所述数据多模态表示模型,用于对数据中的键、值分别从文本和数据在表格视觉上进行向量表示;
[0011]所述多模态表示模型包括输入模块、数据内容嵌入模块、数据位置嵌入模块、编码模块、解码模块和特征输出模块;
[0012]所述输入模块,用于文本和表格图片两种模态的输入,且均为序列形式;同时输入
仅包含[start]标签的序列;
[0013]所述数据内容嵌入模块,包括文本嵌入模块和图片嵌入模块;所述文本嵌入模块形式为Embedding嵌入层;所述图片嵌入模块,为卷积神经网络层,第一层是卷积核大小为3的卷积层,步长为1;第二层为卷积核大小为5的卷积层,步长为1;第三以及第四层是卷积核大小为7的卷积层,步长都为2;所述第一、二层卷积层之后均加入有残差块,所述第三、第四层卷积层之后均依次加入有归一化层、激活层和残差块;
[0014]所述数据位置嵌入模块,用于对文本序列和图片序列的相对位置进行表示,其中文本序列采用一维位置,图片序列将原本的二维坐标按照从左到右从上到下的顺序排列为一维位置;
[0015]所述编码模块,包含若干结构相同的计算单元,每一个计算单元依次包括多头自注意力模块、加操作层、归一化层、前馈网络层、加操作层和归一化层;每个加操作层、归一化层都与残差块连接;
[0016]所述多头自注意力模块,由若干自注意力模块组成,每个自注意力模块独立地从不同的表示子空间中提取信息;所述自注意力模块,为输入为同一个向量的注意力模块,用于计算不同特征图之间加权;取不同特征图a和b,对两者进行矩阵乘法和Softmax操作得到两者间的局部相似性,结果再与b相乘,得到新的带有注意力的特征图c,作为所述注意力模块的输出;
[0017]所述解码模块,依次包括自注意力模块、加操作层、归一化层、交叉注意力模块、加操作层、归一化层、前馈网络层、加操作层和归一化层;每个加操作层、归一化层都与残差块连接;所述交叉注意力模块,为输入为两个不同向量的注意力模块,输入其一来自编码模块的输出,其二来自前一解码模块的输出;
[0018]所述特征输出模块,为最后一个解码模块的输出;
[0019]步骤4:计算来自不同数据的向量表达的语义距离;
[0020]步骤5:对不同数据之间的语义距离进行评价,确定对齐结果。
[0021]本专利技术的系统所采用的技术方案是:一种跨域跨源的数据对齐系统,包括以下模块:
[0022]模块1,用于输入待对齐的多组表格数据;
[0023]模块2,用于提取数据中的键值对以及两者在表格中的位置;
[0024]模块3,用于使用数据多模态表示模型,生成键、值、视觉位置的向量表达;
[0025]所述数据多模态表示模型,用于对数据中的键、值分别从文本和数据在表格视觉上进行向量表示;
[0026]所述多模态表示模型包括输入模块、数据内容嵌入模块、数据位置嵌入模块、编码模块、解码模块和特征输出模块;
[0027]所述输入模块,用于文本和表格图片两种模态的输入,且均为序列形式;同时输入仅包含[start]标签的序列;
[0028]所述数据内容嵌入模块,包括文本嵌入模块和图片嵌入模块;所述文本嵌入模块形式为Embedding嵌入层;所述图片嵌入模块,为卷积神经网络层,第一层是卷积核大小为3的卷积层,步长为1;第二层为卷积核大小为5的卷积层,步长为1;第三以及第四层是卷积核大小为7的卷积层,步长都为2;所述第一、二层卷积层之后均加入有残差块,所述第三、第四
层卷积层之后均依次加入有归一化层、激活层和残差块;
[0029]所述数据位置嵌入模块,用于对文本序列和图片序列的相对位置进行表示,其中文本序列采用一维位置,图片序列将原本的二维坐标按照从左到右从上到下的顺序排列为一维位置;
[0030]所述编码模块,包含若干结构相同的计算单元,每一个计算单元依次包括多头自注意力模块、加操作层、归一化层、前馈网络层、加操作层和归一化层;每个加操作层、归一化层都与残差块连接;
[0031]所述多头自注意力模块,由若干自注意力模块组成,每个自注意力模块独立地从不同的表示子空间中提取信息;所述自注意力模块,为输入为同一个向量的注意力模块,用于计算不同特征图之间加权;取不同特征图a和b,对两者进行矩阵乘法和Softmax操作得到两者间的局部相似性,结果再与b相乘,得到新的带有注意力的特征图c,作为所述注意力模块的输出;
[0032]所述解码模块,依次包括自注意力模块、加操作层、归一化层、交叉注意力模块、加操作层、归一化层、前馈网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨域跨源的数据对齐方法,其特征在于,包括以下步骤:步骤1:输入待对齐的多组表格数据;步骤2:提取数据中的键值对以及两者在表格中的位置;步骤3:使用数据多模态表示模型,生成键、值、视觉位置的向量表达;所述数据多模态表示模型,用于对数据中的键、值分别从文本和数据在表格视觉上进行向量表示;所述多模态表示模型包括输入模块、数据内容嵌入模块、数据位置嵌入模块、编码模块、解码模块和特征输出模块;所述输入模块,用于文本和表格图片两种模态的输入,且均为序列形式;同时输入仅包含[start]标签的序列;所述数据内容嵌入模块,包括文本嵌入模块和图片嵌入模块;所述文本嵌入模块形式为Embedding嵌入层;所述图片嵌入模块,为卷积神经网络层,第一层是卷积核大小为3的卷积层,步长为1;第二层为卷积核大小为5的卷积层,步长为1;第三以及第四层是卷积核大小为7的卷积层,步长都为2;所述第一、二层卷积层之后均加入有残差块,所述第三、第四层卷积层之后均依次加入有归一化层、激活层和残差块;所述数据位置嵌入模块,用于对文本序列和图片序列的相对位置进行表示,其中文本序列采用一维位置,图片序列将原本的二维坐标按照从左到右从上到下的顺序排列为一维位置;所述编码模块,包含若干结构相同的计算单元,每一个计算单元依次包括多头自注意力模块、加操作层、归一化层、前馈网络层、加操作层和归一化层;每个加操作层、归一化层都与残差块连接;所述多头自注意力模块,由若干自注意力模块组成,每个自注意力模块独立地从不同的表示子空间中提取信息;所述自注意力模块,为输入为同一个向量的注意力模块,用于计算不同特征图之间加权;取不同特征图a和b,对两者进行矩阵乘法和Softmax操作得到两者间的局部相似性,结果再与b相乘,得到新的带有注意力的特征图c,作为所述注意力模块的输出;所述解码模块,依次包括自注意力模块、加操作层、归一化层、交叉注意力模块、加操作层、归一化层、前馈网络层、加操作层和归一化层;每个加操作层、归一化层都与残差块连接;所述交叉注意力模块,为输入为两个不同向量的注意力模块,输入其一来自编码模块的输出,其二来自前一解码模块的输出;所述特征输出模块,为最后一个解码模块的输出;步骤4:计算来自不同数据的向量表达的语义距离;步骤5:对不同数据之间的语义距离进行评价,确定对齐结果。2.根据权利要求1所述的跨域跨源的数据对齐方法,其特征在于:步骤1中,所述表格数据指的是具有“键值对”关系的数据,同一键对应的值可以是唯一的也可以是不唯一的,且不限定表格数据的存放格式,包括Word、Excel、PDF、HTML。3.根据权利要求1所述的跨域跨源的数据对齐方法,其特征在于:步骤4中所述计算来自不同数据的向量表达的语义距离,采用余弦距离计算两个向量之间的距离。4.根据权利要求1所述的跨域跨源的数据对齐方法,其特征在于:步骤5中,所述对不同
数据之间的语义距离进行评价,是按照步骤4中计算得到的语义距离的远近程度对匹配结果进行排序,取其中距离最近的n个数据对;其中,n是模型的超参数。5.根据权利要求1

4任意一项所述的跨域跨源的数据对齐方法,其特征在于:所述数据多模态表示模型,是训练好的数据多模态表示模型;其训练过程包括以下步骤:(1)输入若干组表格数据;(2)提取数据中的键值对以及两者...

【专利技术属性】
技术研发人员:陆伟于丰畅黄佳妮
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1