一种面向数据湖的多表语义连接方法技术

技术编号:34837571 阅读:27 留言:0更新日期:2022-09-08 07:33
本发明专利技术提供的一种面向数据湖的多表语义连接方法,基于两个构建列嵌入向量模型构建孪生网络模型,将步骤一获得新表格,根据给定的标签,组建表格对;将多组表格对输入到孪生网络模型中,对其进行训练,因此只需要提供表格具有基本的内容信息就能够进行表格的可连接性预测,并快速计算出结果;该方法没有多余的预处理不需要额外的计算步骤,且设计简单容易实现,提高了多表语义连接方法和预测模型的效率,具备良好的可扩展性、鲁棒性和稳定性;采用Simhash对表格内的行进行抽样,只需按照相同的比例重新构造一张数据行更少的新表格作为输入,这既可以减小表格的输入规模,又可以最大限度的保留表格的特征。大限度的保留表格的特征。大限度的保留表格的特征。

【技术实现步骤摘要】
一种面向数据湖的多表语义连接方法


[0001]本专利技术属于大数据分析与挖掘
,具体涉及一种面向数据湖的多表语义连接方法。

技术介绍

[0002]表格是数据湖中最常见的存储形式之一,关于表的可连接性研究作为数据湖中数据应用的关键环节受到了广泛关注。商业场景下,多表连接的传统方法需要利用数据库技术和数据仓库的ETL技术,需消耗大量人力和物力进行数据清洗并仅能应对表格格式规整、表格属性值较简单且数据噪声较小的场景,同时这些方法也局限于处理等值连接这样的简单情况。面对日益复杂的业务挑战采用不等值连接已经成为一种必然选择,对于不等值连接的复杂情况已出现基于规则和基于统计的诸多方法,然而这些方法仍然不能很好地解决模式结构和数据内容相对复杂的场景。考虑到数据湖环境下属性值多样化的特点,利用不等值连接并从语义层面去解决多表连接问题具有重要的研究价值和商业价值。
[0003]表的不等值连接技术是当前研究的热点内容,目前该方向已经产出很多的研究成果,根据每种方法所能处理的数据场景及所应用的技术原理,我们可以将这些方法大体分为三类,分别是基于规则的多表连接方法、基于统计的多表连接方法和基于语义的多表连接方法。其中,基于语义的多表连接方法与本专利技术的方法同属一个类型。基于语义的多表连接方法所能解决的场景涵盖了前两类方法所能处理的所有场景,得益于近些年来自然语言处理领域取得的突破性进展,使得多表语义连接问题受到了广泛研究。Yuyang Dong等人提出了数据湖中识别表可连接性的PEXESO方法,该方法先将表中的文本内容映射成高维空间中的向量表示,再根据高维向量上的相似性度量方法(比如计算欧式距离等)来识别相关联的表格并完成多表连接。利用词嵌入向量来表示文本特征并在语义层面上去评估表格间可连接性的方法是非常有价值的,但同时高维向量的相似度计算又是非常耗费资源的,在有限的条件下不易实施和落地。此外,该方法的模型也较为复杂,识别效率和识别精度仍达不到商业使用的水平。
[0004]Maryam Habibi等人设计了一种深度神经网络模型,他们对一些公开数据库中的数据集进行分析处理,发现数据集中除了表格内容外还具有网页标题、导航标题、表格标题等层级结构内容,其中蕴含着的语义特征信息可被所设计的模型表示成特征向量,在后续识别表格可连接性的步骤中,这些特征向量被视作是对表格语义的有效补充。该方法被认为是目前已知的解决多表语义连接问题的最好方法。但该方法的不足之处在于利用了很多表格之外的抽象信息,而经过调研发现,在数据湖场景下这些信息很可能是缺失的,因此该方法在通用性和鲁棒性方面会存在缺陷。
[0005]表相似度问题可以建模为一个分类问题,使用一种一次性学习框架来学习一个训练对数量较低的TS度量。为此,利用深度神经网络来提取相关的表特征并学习相似性度量。给定两个表,网络产生一个等于或大于零的距离分数。分数为0表示完全相似,分数越大表示相似度越小。这些分数还可以用于分类,其中分数低于给定阈值的配对将被视为相似,而
所有其他的配对将被视为不同。在方法中,每个表由两个神经网络串联表示,一个提取表格内容t,另一个建模表格标题c。这些网络中的权重由两个表共享,以确保相似度模型是对称的。两个表表示的计算距离被提供给一个对比丢失函数,这确保语义相似的表对被放置在一个近距离。在下文中将描述用于表内容和标题表示的共享层,以及用于相似性学习的具有对比损失函数的神经网络。
[0006]每个表标题都被建模为一个固定大小(被裁剪或用零填充)的一维数组,由Tc标记组成。标题的标记首先由嵌入向量表示,以将单词标记映射到捕获共现相邻单词频率的低维空间。它们被传递到Bi

LSTM层,以建模标题中标记之间的关系。对嵌入层和Bi

LSTM层进行详细描述:
[0007]1)嵌入层:每个标题c首先由标记序列Tc={w1,w2,

,wn}表示。每个令牌wt由一个长度为|v|(词汇表大小)的二进制向量表示,其中向量的所有元素都设为0,字典中令牌的索引设为1。在嵌入层中,将每个二进制向量映射到一个低维向量空间et=We
×
wt,其中We是映射权矩阵,et是嵌入空间中令牌wt的表示。用一个预先训练的单词嵌入模型初始化,然后在网络中重新训练。
[0008]Bi

LSTM层:嵌入层的输出是嵌入空间中的符号序列。将每个序列发送到Bi

LSTM网络中,对序列中两个方向的标记之间的语义依赖关系进行建模。Bi

LSTM层由两个LSTM层组成,一个是向前的LSTM层,一个是向后的LSTM层。Bi

LSTM层的输出被指定为φ(c)=h(y)
×
h(i),其中h(y)和h(i)是LSTM前向层和后向层的最后一个输出。
[0009]一个单元格包含一个单词标记序列,其中单词的顺序包含含义。为了推断这一含义,首先用嵌入层表示每个单元u的标记,将每个标记映射到低维语义空间,然后将嵌入向量传递到Bi

LSTM,该Bi

LSTM捕获单元内标记之间的依赖关系。得到的向量为单元格u的表示φ(u)。列由一组单元格组成,每一列都由所有列共享的置换不变网络表示。该层首先根据相应列中的上下文表示每个单元格。然后将单元格表示连接并压缩到一个低维空间作为列表示。该网络能够提取表格结构中列之间的关系。
[0010]列表示:列内的所有单元被交给一个神经网络来捕获单元语义,再使用一个网络层来重新计算每个cell的新表示,给定来自列k的单元格Wk,定义了带有单元格关系信息的新表示φ(uk)。列k的列表示φ(col

k)是通过连接所有的细胞表示,并将它们传递给多层感知器进行降维来估计的。
[0011]列聚合:由于表中列的顺序通常没有意义,因此对表t中的列应用另一个网络层来生成新的列表示φ(col

k)。然后将每个列的网络层层的输出连接起来,并以表格形式表示φ(t)给一个MLP层。
[0012]Habibi提出的方法的主要缺陷如下:
[0013]该方法需要利用表格完整的模式信息,而表格的模式信息在真实场景下无法保证一定存在且准确,因此方法不具备一般性。
[0014]一般情况下,表格的内容规模参差不齐。对于这种情况,该算法构建的模型无法保证训练效率,因此会消耗大量的时间和计算资源。
[0015]由于该方法仅考虑了表格中列维度的信息而忽略了行维度等其他方面的信息,这不仅会导致预测性能大打折扣,更使得方法缺乏较好的鲁棒性和稳定性。

技术实现思路

[0016]有鉴于此,本专利技术的目的是提供一种面向数据湖的多表语义连接方法,充分利用了表格的内容和结构信息,提高了多表语义连接方法和预测模型的效率,具备良好的可扩展性、鲁棒性和稳定性。
[0017]一种面向数据湖的多表语义连接方法,包括:
[0018]步骤一、获取表格本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向数据湖的多表语义连接方法,其特征在于,包括:步骤一、获取表格,对每个表格进行抽样,得到新的表格;步骤二、基于两个构建列嵌入向量模型构建孪生网络模型,将步骤一获得新表格,根据给定的标签,组建表格对;将多组表格对输入到孪生网络模型中,对其进行训练;步骤三、对于输入的两个表格,按照步骤一的方法进行抽样后,输入到步骤二训练好的孪生网络模型中,得到预测结果,即该两个表格是否为相似表格。2.如权利要求1所述的一种面向数据湖的多表语义连接方法,其特征在于,所述步骤二中,列嵌入向量模型顺次包括词嵌入向量网络层、注意力网络层以及全连接网络层;词嵌入向量网络层采用经预训练的词向量编码器将表格的文本表示转化成向量表示φ(u
ik
);注意力网络层包括行注意力子网络层和列注意力子网络层;行注意力子网络层将向量表示φ(u
ik
)的每行中的信息进行融合,输出新的向量表示列注意力子网络层将向量进行融合,输出最终的向量表示Ψ(u
ik
);全连接网络层中只设置一个隐藏层,将向量表示Ψ(u
ik
)转化为目标列的列嵌入向量表示φ(col
k
)。3.如权利要求1或2所述的一种面向数据湖的多表语义连接方法,其特征在于,所述步骤一中,基于Simhash对表格进行抽样。4.如权利要求1或2所述的一种面向数据湖的多表语义连接方法,其特征在于,所述步骤一包...

【专利技术属性】
技术研发人员:杨晓春于明飞王佳佳张志威王国仁
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1