基于长文本的查询检索方法、装置以及电子设备制造方法及图纸

技术编号：36425805 阅读：16 留言：0更新日期：2023-01-20 22:35

本发明专利技术公开了一种基于长文本的查询检索方法、装置以及电子设备，提出了与词语信息相关的语义检索及具有鲁棒性的重排序策略，以此兼顾检索效果及效率。具体是按不同粒度对长文本进行分割，且在分割过程中结合查询需求及分割文本粒度进行与词语信息相关的多阶段检索，然后利用预先由自动伪标签机制建模的重排序模型，将多阶段检索最终输出的若干候选与查询需求进行语义相关性预测，得到精排序的检索结果，从而获得对应查询的目标检索文本。本发明专利技术能够准确检索出用户所需信息，并减少变化查询条件的次数，而对检索结果的重排过程依靠具有鲁棒性的预建模型，有效提高了针对长文本的检索泛化能力及检索效果，从而能够大幅改善对于搜索引擎的使用体验。搜索引擎的使用体验。搜索引擎的使用体验。

全部详细技术资料下载

【技术实现步骤摘要】
基于长文本的查询检索方法、装置以及电子设备

[0001]本专利技术涉及自然语言处理
，尤其涉及一种基于长文本的查询检索方法、装置以及电子设备。

技术介绍

[0002]目前在处理长文本，尤其是针对篇章级长文本(例如但不限于新闻、工作报告、学术论文、书籍等)的检索任务时，搜索引擎的核心技术路线是通过输入的查询文本(query)，从长文本(document)中返回与查询条件高度相关的目标文档。
[0003]当前，主流的搜索引擎大多会使用如下检索策略：
[0004](1)基于关键词匹配的检索策略，通过计算query与document之间的词语重叠情况来获得检索结果，然而，基于关键词的检索方法无法解决词语语义一致但表述不一致的问题(即，难以处理不存在词语重叠的检索任务)。
[0005](2)基于语义关联的检索策略，为克服上述关键词匹配的弊端，继而实现有效检索，业界普遍认为检索引擎应理解query和document的语义，由此形成有如下语义检索算法：基于语言模型的语义检索、基于语义向量的快速语义检索、基于对比学习的语义检索。
[0006]本专利技术针对后者策略，也即是基于语义关联的检索策略在篇章级长文本中进行检索的实际应用情况进行了分析，发现其中至少存在如下缺陷：
[0007]目前语义检索的策略并未针对长文本检索场景进行针对性建模，一方面虽然那基于深度语义的检索方式可以获得相比基于关键词匹配更佳的检索效果，但检索效率却远远不如关键词匹配方式，其主要原因在于，当前的语义检索策略无法对每...

【技术保护点】

【技术特征摘要】
1.一种基于长文本的查询检索方法，其特征在于，包括：按不同的粒度对长文本进行分割，且对应于分割文本的粒度，结合查询文本进行分阶段检索；其中，所述分阶段检索采用融合词语及序列语义相关性的检索策略；根据预设的重排序模型，将所述分阶段检索的若干个最终输出结果与查询文本结合形成语义上的交互，得到重排序结果；其中，所述重排序模型采用自动伪标签机制进行建模；利用所述重排序结果得到对应于查询需求的目标检索文本。2.根据权利要求1所述的基于长文本的查询检索方法，其特征在于，所述融合词语及序列语义相关性的检索策略包括：分别将查询文本以及分割文本进行分词；基于分词结果，分别获取查询文本与分割文本各自的词语级向量及序列级向量；基于所述词语级向量获取查询文本与分割文本的第一相似度，并由所述第一相似度确定初始检索分值；其中，所述第一相似度表征词语之间的重叠程度；基于所述序列级向量获取查询文本与分割文本的第二相似度，并将所述第二相似度与所述初始检索分值融合，得到目标检索分值。3.根据权利要求2所述的基于长文本的查询检索方法，其特征在于，所述基于所述词语级向量获取查询文本与分割文本的第一相似度，并由所述第一相似度确定初始检索分值包括：在分词后的文本上求取全部词语的预设权重值；利用各词语的预设权重值，将第一相似度最高的多个词语级向量的第一相似度数值进行加权求和，得到所述初始检索分值。4.根据权利要求1所述的基于长文本的查询检索方法，其特征在于，所述自动伪标签机制包括：先采用预先针对各条输入数据给定的真实标签，联合训练若干个随机种子不同的二分类语义检索模型；在训练过程达到既定程度后，基于若干个二分类语义检索模型对于同一输入数据的预测概率分布，得到用于后续训练的伪标签；其中，将表征所述最终输出结果的候选检索内容与查询文本拼接作为所述输入数据。5.根据权利要求4所述的基于长文本的查询检索方法，其特征在于，获取所述伪标签进行后续训练的方式包括：获取若干个二分类语义检索模型基于同一输入数据的若干个预测概率分布向量；求取若干个预...

【专利技术属性】
技术研发人员：张浩宇，吴飞，方四安，刁永祥，
申请(专利权)人：合肥讯飞数码科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人