一种面向数据湖的多表语义连接方法技术

技术编号：34837571 阅读：27 留言：0更新日期：2022-09-08 07:33

本发明专利技术提供的一种面向数据湖的多表语义连接方法，基于两个构建列嵌入向量模型构建孪生网络模型，将步骤一获得新表格，根据给定的标签，组建表格对；将多组表格对输入到孪生网络模型中，对其进行训练，因此只需要提供表格具有基本的内容信息就能够进行表格的可连接性预测，并快速计算出结果；该方法没有多余的预处理不需要额外的计算步骤，且设计简单容易实现，提高了多表语义连接方法和预测模型的效率，具备良好的可扩展性、鲁棒性和稳定性；采用Simhash对表格内的行进行抽样，只需按照相同的比例重新构造一张数据行更少的新表格作为输入，这既可以减小表格的输入规模，又可以最大限度的保留表格的特征。大限度的保留表格的特征。大限度的保留表格的特征。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向数据湖的多表语义连接方法

[0001]本专利技术属于大数据分析与挖掘
，具体涉及一种面向数据湖的多表语义连接方法。

技术介绍

[0002]表格是数据湖中最常见的存储形式之一，关于表的可连接性研究作为数据湖中数据应用的关键环节受到了广泛关注。商业场景下，多表连接的传统方法需要利用数据库技术和数据仓库的ETL技术，需消耗大量人力和物力进行数据清洗并仅能应对表格格式规整、表格属性值较简单且数据噪声较小的场景，同时这些方法也局限于处理等值连接这样的简单情况。面对日益复杂的业务挑战采用不等值连接已经成为一种必然选择，对于不等值连接的复杂情况已出现基于规则和基于统计的诸多方法，然而这些方法仍然不能很好地解决模式结构和数据内容相对复杂的场景。考虑到数据湖环境下属性值多样化的特点，利用不等值连接并从语义层面去解决多表连接问题具有重要的研究价值和商业价值。
[0003]表的不等值连接技术是当前研究的热点内容，目前该方向已经产出很多的研究成果，根据每种方法所能处理的数据场景及所应用的技术原理，我们可以将这些方法大体分为三类，分别是基于规则的多表连接方法、基于统计的多表连接方法和基于语义的多表连接方法。其中，基于语义的多表连接方法与本专利技术的方法同属一个类型。基于语义的多表连接方法所能解决的场景涵盖了前两类方法所能处理的所有场景，得益于近些年来自然语言处理领域取得的突破性进展，使得多表语义连接问题受到了广泛研究。Yuyang Dong等人提出了数据湖中识别表可连接性的PEXESO方法，该方法先将表中的文本内容映射成...

【技术保护点】

【技术特征摘要】
1.一种面向数据湖的多表语义连接方法，其特征在于，包括：步骤一、获取表格，对每个表格进行抽样，得到新的表格；步骤二、基于两个构建列嵌入向量模型构建孪生网络模型，将步骤一获得新表格，根据给定的标签，组建表格对；将多组表格对输入到孪生网络模型中，对其进行训练；步骤三、对于输入的两个表格，按照步骤一的方法进行抽样后，输入到步骤二训练好的孪生网络模型中，得到预测结果，即该两个表格是否为相似表格。2.如权利要求1所述的一种面向数据湖的多表语义连接方法，其特征在于，所述步骤二中，列嵌入向量模型顺次包括词嵌入向量网络层、注意力网络层以及全连接网络层；词嵌入向量网络层采用经预训练的词向量编码器将表格的文本表示转化成向量表示φ(u
ik
)；注意力网络层包括行注意力子网络层和列注意力子网络层；行注意力子网络层将向量表示φ(u
ik
)的每行中的信息进行融合，输出新的向量表示列注意力子网络层将向量进行融合，输出最终的向量表示Ψ(u
ik
)；全连接网络层中只设置一个隐藏层，将向量表示Ψ(u
ik
)转化为目标列的列嵌入向量表示φ(col
k
)。3.如权利要求1或2所述的一种面向数据湖的多表语义连接方法，其特征在于，所述步骤一中，基于Simhash对表格进行抽样。4.如权利要求1或2所述的一种面向数据湖的多表语义连接方法，其特征在于，所述步骤一包...

【专利技术属性】
技术研发人员：杨晓春，于明飞，王佳佳，张志威，王国仁，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人