基于长文本的查询检索方法、装置以及电子设备制造方法及图纸

技术编号:36425805 阅读:16 留言:0更新日期:2023-01-20 22:35
本发明专利技术公开了一种基于长文本的查询检索方法、装置以及电子设备,提出了与词语信息相关的语义检索及具有鲁棒性的重排序策略,以此兼顾检索效果及效率。具体是按不同粒度对长文本进行分割,且在分割过程中结合查询需求及分割文本粒度进行与词语信息相关的多阶段检索,然后利用预先由自动伪标签机制建模的重排序模型,将多阶段检索最终输出的若干候选与查询需求进行语义相关性预测,得到精排序的检索结果,从而获得对应查询的目标检索文本。本发明专利技术能够准确检索出用户所需信息,并减少变化查询条件的次数,而对检索结果的重排过程依靠具有鲁棒性的预建模型,有效提高了针对长文本的检索泛化能力及检索效果,从而能够大幅改善对于搜索引擎的使用体验。搜索引擎的使用体验。搜索引擎的使用体验。

【技术实现步骤摘要】
基于长文本的查询检索方法、装置以及电子设备


[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于长文本的查询检索方法、装置以及电子设备。

技术介绍

[0002]目前在处理长文本,尤其是针对篇章级长文本(例如但不限于新闻、工作报告、学术论文、书籍等)的检索任务时,搜索引擎的核心技术路线是通过输入的查询文本(query),从长文本(document)中返回与查询条件高度相关的目标文档。
[0003]当前,主流的搜索引擎大多会使用如下检索策略:
[0004](1)基于关键词匹配的检索策略,通过计算query与document之间的词语重叠情况来获得检索结果,然而,基于关键词的检索方法无法解决词语语义一致但表述不一致的问题(即,难以处理不存在词语重叠的检索任务)。
[0005](2)基于语义关联的检索策略,为克服上述关键词匹配的弊端,继而实现有效检索,业界普遍认为检索引擎应理解query和document的语义,由此形成有如下语义检索算法:基于语言模型的语义检索、基于语义向量的快速语义检索、基于对比学习的语义检索。
[0006]本专利技术针对后者策略,也即是基于语义关联的检索策略在篇章级长文本中进行检索的实际应用情况进行了分析,发现其中至少存在如下缺陷:
[0007]目前语义检索的策略并未针对长文本检索场景进行针对性建模,一方面虽然那基于深度语义的检索方式可以获得相比基于关键词匹配更佳的检索效果,但检索效率却远远不如关键词匹配方式,其主要原因在于,当前的语义检索策略无法对每个文档的语义向量进行倒排索引,因此难以应用到海量的篇章级长文本的检索需求中;尤其是另一方面,目前的语义检索策略未考虑在实际应用中出现的数据噪声问题。
[0008]具体而言,用于语义检索模型训练优化的数据集一般会给出查询文本的一部分检索正样例(所述检索正样例是指每个输入的查询文本所需要检索出的目标文本),但是,数据集通常不会给出每个查询文本的检索负样例(所述检索负样例是指与输入的查询文本语义无关的非目标文本)。这是由于对输入的查询文本而言,只要语义无关均可作为负样例,因而在海量的篇章级长文本面前,难以穷举。同样地,检索正样例也无法全部给出,因为符合条件的目标文本可能不只一个,且正样例会不断更新变化;另外,由于数据集是自动、半自动或人工构建的,不可避免会出现错误,这也就要求语义检索策略需要具有泛化性和鲁棒性,避免训练语义检索模型时受到噪声样例(所述噪声样例是指本应被视为检索正样例但实际未被标记、或者被标记为检索正样例但实际为不相关的文本)的影响。

技术实现思路

[0009]鉴于上述,本专利技术旨在提供一种基于长文本的查询检索方法、装置以及电子设备,以解决在长文本中进行查询检索时的特定技术问题。
[0010]本专利技术采用的技术方案如下:
[0011]第一方面,本专利技术提供了一种基于长文本的查询检索方法,其中包括:
[0012]按不同的粒度对长文本进行分割,且对应于分割文本的粒度,结合查询文本进行分阶段检索;其中,所述分阶段检索采用融合词语及序列语义相关性的检索策略;
[0013]根据预设的重排序模型,将所述分阶段检索的若干个最终输出结果与查询文本结合形成语义上的交互,得到重排序结果;其中,所述重排序模型采用自动伪标签机制进行建模;
[0014]利用所述重排序结果得到对应于查询需求的目标检索文本。
[0015]在其中至少一种可能的实现方式中,所述融合词语及序列语义相关性的检索策略包括:
[0016]分别将查询文本以及分割文本进行分词;
[0017]基于分词结果,分别获取查询文本与分割文本各自的词语级向量及序列级向量;
[0018]基于所述词语级向量获取查询文本与分割文本的第一相似度,并由所述第一相似度确定初始检索分值;其中,所述第一相似度表征词语之间的重叠程度;
[0019]基于所述序列级向量获取查询文本与分割文本的第二相似度,并将所述第二相似度与所述初始检索分值融合,得到目标检索分值。
[0020]在其中至少一种可能的实现方式中,所述基于所述词语级向量获取查询文本与分割文本的第一相似度,并由所述第一相似度确定初始检索分值包括:
[0021]在分词后的文本上求取全部词语的预设权重值;
[0022]利用各词语的预设权重值,将第一相似度最高的多个词语级向量的第一相似度数值进行加权求和,得到所述初始检索分值。
[0023]在其中至少一种可能的实现方式中,所述自动伪标签机制包括:
[0024]先采用预先针对各条输入数据给定的真实标签,联合训练若干个随机种子不同的二分类语义检索模型;
[0025]在训练过程达到既定程度后,基于若干个二分类语义检索模型对于同一输入数据的预测概率分布,得到用于后续训练的伪标签;其中,将表征所述最终输出结果的候选检索内容与查询文本拼接作为所述输入数据。
[0026]在其中至少一种可能的实现方式中,所述得到用于后续训练的伪标签包括:
[0027]获取若干个二分类语义检索模型基于同一输入数据的若干个预测概率分布向量;
[0028]求取若干个预测概率分布向量的平均向量,并将所述平均向量作为伪标签;
[0029]若所述伪标签与真实标签的偏差超过既定标准,则计算预测结果与真实标签的第一损失值,以及计算所述伪标签与单个二分类语义检索模型的第二损失值;
[0030]结合所述第一损失值以及所述第二损失值完成后续训练。
[0031]在其中至少一种可能的实现方式中,所述分阶段检索包括:
[0032]将长文本分割为多个段落,并对所述段落进行第一检索,得到若干个候选段落;
[0033]将各所述候选段落分割为多个句子,并对所述句子进行第二检索,得到若干个候选句子,且将所述候选句子作为所述分阶段检索的最终输出结果。
[0034]在其中至少一种可能的实现方式中,所述利用所述重排序结果得到对应于查询需求的目标检索文本包括:将语义最为相关的目标最终输出结果排在首位,并基于长文本与目标最终输出结果之间的层级对应关系,确定目标检索文本。
[0035]第二方面,本专利技术提供了一种基于长文本的查询检索装置,其中包括:
[0036]分阶段检索模块,用于按不同的粒度对长文本进行分割,且对应于分割文本的粒度,结合查询文本进行分阶段检索;其中,所述分阶段检索采用融合词语及序列语义相关性的检索策略;
[0037]重排序模块,用于根据预设的重排序模型,将所述分阶段检索的若干个最终输出结果与查询文本结合形成语义上的交互,得到重排序结果;其中,所述重排序模型采用自动伪标签机制进行建模;
[0038]检索结果输出模块,用于利用所述重排序结果得到对应于查询需求的目标检索文本。
[0039]在其中至少一种可能的实现方式中,所述分阶段检索模块包括:
[0040]分词单元,用于分别将查询文本以及分割文本进行分词;
[0041]语义表示单本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于长文本的查询检索方法,其特征在于,包括:按不同的粒度对长文本进行分割,且对应于分割文本的粒度,结合查询文本进行分阶段检索;其中,所述分阶段检索采用融合词语及序列语义相关性的检索策略;根据预设的重排序模型,将所述分阶段检索的若干个最终输出结果与查询文本结合形成语义上的交互,得到重排序结果;其中,所述重排序模型采用自动伪标签机制进行建模;利用所述重排序结果得到对应于查询需求的目标检索文本。2.根据权利要求1所述的基于长文本的查询检索方法,其特征在于,所述融合词语及序列语义相关性的检索策略包括:分别将查询文本以及分割文本进行分词;基于分词结果,分别获取查询文本与分割文本各自的词语级向量及序列级向量;基于所述词语级向量获取查询文本与分割文本的第一相似度,并由所述第一相似度确定初始检索分值;其中,所述第一相似度表征词语之间的重叠程度;基于所述序列级向量获取查询文本与分割文本的第二相似度,并将所述第二相似度与所述初始检索分值融合,得到目标检索分值。3.根据权利要求2所述的基于长文本的查询检索方法,其特征在于,所述基于所述词语级向量获取查询文本与分割文本的第一相似度,并由所述第一相似度确定初始检索分值包括:在分词后的文本上求取全部词语的预设权重值;利用各词语的预设权重值,将第一相似度最高的多个词语级向量的第一相似度数值进行加权求和,得到所述初始检索分值。4.根据权利要求1所述的基于长文本的查询检索方法,其特征在于,所述自动伪标签机制包括:先采用预先针对各条输入数据给定的真实标签,联合训练若干个随机种子不同的二分类语义检索模型;在训练过程达到既定程度后,基于若干个二分类语义检索模型对于同一输入数据的预测概率分布,得到用于后续训练的伪标签;其中,将表征所述最终输出结果的候选检索内容与查询文本拼接作为所述输入数据。5.根据权利要求4所述的基于长文本的查询检索方法,其特征在于,获取所述伪标签进行后续训练的方式包括:获取若干个二分类语义检索模型基于同一输入数据的若干个预测概率分布向量;求取若干个预...

【专利技术属性】
技术研发人员:张浩宇吴飞方四安刁永祥
申请(专利权)人:合肥讯飞数码科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1