一种基于深度学习的表格检索方法技术

技术编号：31157205 阅读：15 留言：0更新日期：2021-12-04 09:53

本发明专利技术公开了一种基于深度学习的表格检索方法。包括接收用户输入的查询语句q，加载数据库中所有表格的行、列、单元格的特征信息集合F以及数据库中所有表的背景信息C，然后开始推断过程。本发明专利技术采用了比BERT效果更好的RoBERTa预训练模型，并在原有深度学习模型基础上加入了统计特征进行特征融合，使得相似度的计算时候利用了统计层面上相似度信息，具有全面性和准确性；同时在训练的时候，采用了BM25与增加难负例训练相结合的训练方法，让训练出来的模型对于易出错样本有更强的适应能力，提升了模型精度。提升了模型精度。提升了模型精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的表格检索方法

[0001]本专利技术涉及表格检索
，具体涉及一种基于深度学习的表格检索方法。

技术介绍

[0002]信息技术的发展不断推动着互联网技术的变革，数据表格和知识图谱是当前结构化知识库的常用储存形式，因此，如何快速检索表格中与查询最相关的信息对于智能搜索、问答等任务有重要意义，同时提升用户工作效率，改善体验。
[0003]当前很多的表格的检索系统对表格内容信息都采用了深度学习的神经网络结构，如BiLSTM、BERT等，但未利用到针对于表格所特有的统计特征，降低表征向量的表征能力，并且对于复杂的难样本的检索效果水平还是较低。

技术实现思路

[0004]本专利技术的目的是针对现有技术存在的不足，提供一种基于深度学习的表格检索方法。
[0005]为实现上述目的，本专利技术提供了一种基于深度学习的表格检索方法，包括：步骤1、接收用户输入的查询语句q，加载数据库中所有表格T的行、列以及单元格的语料库集合，每个特征信息是表格的一行、一列或者单元格内容组成的列表集，1≤i≤m；同时载入数据库中所有表的背景信息，其中，一张表格包含行、列、单元格信息特征，，n≤m，所述表格的背景信息为，j≤k；步骤2、对于每张表格的信息特征进行统计特征提取，每个信息特征生成一个统计特征向量a，将a放入多层感知机中，计算出，具体如下：其中，为多层感知机的参数，为偏置参数；步骤3、将用户查询语句q、表格的背景信息集合和单个特征信息连接，并用[SEP]间隔开形成拼接向量I，所述拼接向量I的格...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的表格检索方法，其特征在于，包括：步骤1、接收用户输入的查询语句q，加载数据库中所有表格T的行、列以及单元格的语料库集合，每个特征信息是表格的一行、一列或者单元格内容组成的列表集，1≤i≤m；同时载入数据库中所有表的背景信息，其中，一张表格包含行、列、单元格信息特征，，n≤m，所述表格的背景信息为，j≤k；步骤2、对于每张表格的信息特征进行统计特征提取，每个信息特征生成一个统计特征向量a，将a放入多层感知机中，计算出，具体如下：其中，为多层感知机的参数，为偏置参数；步骤3、将用户查询语句q、表格的背景信息集合和单个特征信息连接，并用[SEP]间隔开形成拼接向量I，所述拼接向量I的格式如下：其中，是拼接向量I起始占位符；将所述拼接向量I当作输入，放入已经训练好的RoBERTa模型中；步骤4、取RoBERTa模型最后一层输出的[CLS]向量与感知机输出拼接成包含相似度信息的特征向量O，具体如下：步骤5、将包含相似度信息的特征向量O通过一个全连接线性层回归函数计算相似度得分，具体如下：其中，，R为常数，d为的维度，h为RoBERTa隐含层的维度；以相似度得分排名最高的若干个表格作为检索结果输出。2.根据权利要求1所述的基于深度学习的表格检索方法，其特征在于，所述统计特征包括与查询语句q相同字个数、相同词个数、最大公共子字串、表中行标题是否存在和表中列标题是否存在。3.根据权利要求1所述的基于深度学习的表格检索方法，其特征在于，所述RoBERTa模型通过以下方式训练获得：步骤101、对于正样本，收集用户的查询语句集合Q、每个查询语句q相匹配单张表格的背景信息集合、与查询语句q匹配的表格特征信息以及与查询语句q相匹配表格的信息特征，查询语句q∈Q，标注相似度分数，作为正样本Data
‑
P；对于负样本，在生成正样本的基础上，用BM25获得与查询语句q非正确匹配但相似程度排前5名的表格的背景信息集合、表格特征信息和信息特征...

【专利技术属性】
技术研发人员：杜振东，
申请(专利权)人：南京云问网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人