用于长文本的语义检索及问答处理方法、装置及电子设备制造方法及图纸

技术编号:36425803 阅读:16 留言:0更新日期:2023-01-20 22:35
本发明专利技术公开了一种用于长文本的语义检索及问答处理方法、装置及电子设备,提出结合文本分割、语义检索、重排序、问答推理多个环节的长文本检索综合处理方案,各个环节适配小样本场景,将对比学习的训练思想应用到语义检索与重排序任务中,获得符合期待的语义检索效果,且进一步将微调策略与分类机制相融合完成问答推理任务,从而可基于在先的语义检索及重排序给出的关键文本进行推理解答并输出该佐证线索。本发明专利技术无需依赖大批量标注数据,通过前述多环节能够提升搜索引擎对于篇章级长文本的检索性能,并在小样本条件下充分发挥预训练模型的泛化推理效果,进而有效解决了目前长文本检索的语义理解及推理能力不足的问题。本检索的语义理解及推理能力不足的问题。本检索的语义理解及推理能力不足的问题。

【技术实现步骤摘要】
用于长文本的语义检索及问答处理方法、装置及电子设备


[0001]本专利技术涉及自然语言处理
,尤其涉及一种用于长文本的语义检索及问答处理方法、装置及电子设备。

技术介绍

[0002]目前在处理长文本,尤其是针对篇章级长文本(例如但不限于新闻、工作报告、学术论文、书籍等)的检索任务时,搜索引擎的核心技术路线是通过输入的查询文本(query),从长文本(document)中返回与查询条件高度相关的目标文档。
[0003]当前,主流的搜索引擎大多会使用如下检索策略:
[0004](1)基于关键词匹配的检索策略,通过计算query与document之间的词语重叠情况来获得检索结果,然而,基于关键词的检索方法无法解决词语语义一致但表述不一致的问题(即,难以处理不存在词语重叠的检索任务)。
[0005](2)基于语义关联的检索策略,为克服上述关键词匹配的弊端,继而实现有效检索,业界普遍认为检索引擎应理解query和document的语义,由此形成有如下语义检索算法:基于语言模型的语义检索、基于语义向量的快速语义检索、基于对比学习的语义检索。
[0006]本专利技术针对后者策略,也即是基于语义关联的检索策略在篇章级长文本中进行检索的实际应用情况进行了分析,发现其中至少存在如下缺陷:
[0007]在实际操作中,现有策略并不能充分发挥上述算法框架的性能,进而产生语义理解能力不足的情况;再者,由于训练集、测试集规模很大,且无法直接对查询问题进行推理,导致对查询结果的推力能力产生局限;此外,现有策略需依赖大批量的标注数据,而在真实业务应用中,很难像自然语言推理任务那样有现成的通用数据集且包含明确的类型信息以供参考。

技术实现思路

[0008]鉴于上述,本专利技术旨在提供一种用于长文本的语义检索及问答处理方法、装置及电子设备,以解决目前针对长文本问询检索时的特定技术问题。
[0009]本专利技术采用的技术方案如下:
[0010]第一方面,本专利技术提供了一种用于长文本的语义检索及问答处理方法,其中包括:
[0011]按不同的粒度对长文本进行分割,且对应于分割文本的粒度,结合查询文本进行分阶段检索;其中,所述分阶段检索采用基于对比学习的检索模型;
[0012]利用重排序模型将分阶段检索的最终输出结果进行排序,得到对应于查询文本的关键文本;
[0013]将所述查询文本与所述关键文本结合,并利用问答推理模型得到对应所述查询文本所提问题的最终答案。
[0014]在其中至少一种可能的实现方式中,所述检索模型的训练方式包括以预设的语言模型为基础,在长文本数据库上重新进行预训练。
[0015]在其中至少一种可能的实现方式中,所述检索模型的训练方式还包括:在每一轮针对检索模型训练进行负样本构造的过程中,挖掘排名靠前的语义相关的负样本作为下一轮优化所用的样本。
[0016]在其中至少一种可能的实现方式中,所述挖掘排名靠前的语义相关的负样本作为下一轮优化所用的样本包括:利用由简单负样本数据训练出的检索模型为每个查询文本重新检索困难负样本,并基于困难负样本数据重新训练并得到最终的检索模型。
[0017]在其中至少一种可能的实现方式中,所述重排序模型的训练方式包括:基于预设的局部对比损失函数,将一组查询文本在训练数据上进行局部对比增强处理。
[0018]在其中至少一种可能的实现方式中,所述分阶段检索包括:
[0019]将长文本分割为多个段落,并对所述段落进行第一检索,得到若干个候选段落;
[0020]将各所述候选段落分割为多个句子,并对所述句子进行第二检索,得到若干个候选句子,且将所述候选句子作为所述分阶段检索的最终输出结果。
[0021]在其中至少一种可能的实现方式中,所述处理方法还包括:将所述关键文本作为推理出的所述最终答案的证明信息,并予以输出。
[0022]第二方面,本专利技术提供了一种用于长文本的语义检索及问答处理装置,其中包括:
[0023]分阶段检索模块,用于按不同的粒度对长文本进行分割,且对应于分割文本的粒度,结合查询文本进行分阶段检索;其中,所述分阶段检索采用基于对比学习的检索模型;
[0024]重排序模块,用于利用重排序模型将分阶段检索的最终输出结果进行排序,得到对应于查询文本的关键文本;
[0025]问答推理模块,用于将所述查询文本与所述关键文本结合,并利用问答推理模型得到对应所述查询文本所提问题的最终答案。
[0026]在其中至少一种可能的实现方式中,所述分阶段检索模块具体包括:
[0027]分段检索子模块,用于将长文本分割为多个段落,并对所述段落进行第一检索,得到若干个候选段落;
[0028]分句检索子模块,用于将各所述候选段落分割为多个句子,并对所述句子进行第二检索,得到若干个候选句子,且将所述候选句子作为所述分阶段检索的最终输出结果。
[0029]在其中至少一种可能的实现方式中,所述处理装置还包括:推理依据信息输出模块,用于将所述关键文本作为推理出的所述最终答案的证明信息,并予以输出。
[0030]第三方面,本专利技术提供了一种电子设备,其中包括:
[0031]一个或多个处理器、存储器以及一个或多个计算机程序,所述存储器可以采用非易失性存储介质,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如第一方面或者第一方面的任一可能实现方式中的所述方法。
[0032]本专利技术的主要构思在于,提出结合文本分割、语义检索、重排序、问答推理多个环节的长文本检索综合处理方案,各个环节适配小样本场景,将对比学习的训练思想应用到语义检索与重排序任务中,获得符合期待的语义检索效果,且进一步将微调策略与分类机制相融合完成问答推理任务,从而可基于在先的语义检索及重排序给出的关键文本进行推理解答并输出该佐证线索。本专利技术无需依赖大批量标注数据,通过对长文本的分割处理、语言模型预训练、分阶段式语义检索、检索结果重排序及问答推理分类等,能够提升搜索引擎
对于篇章级长文本的检索性能,并在小样本条件下充分发挥预训练模型的泛化推理效果,进而有效解决了目前长文本检索的语义理解及推理能力不足的问题。
附图说明
[0033]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步描述,其中:
[0034]图1为本专利技术提供的用于长文本的语义检索及问答处理方法的实施例的流程图;
[0035]图2为本专利技术提供的用于长文本的语义检索及问答处理方法的的较佳实施例的数据流架构示意图;
[0036]图3为本专利技术提供的用于长文本的语义检索及问答处理装置的实施例的示意图;
[0037]图4为本专利技术提供的电子设备的实施例的示意图。
具体实施方式
[0038]下面详细描述本专利技术的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于长文本的语义检索及问答处理方法,其特征在于,包括:按不同的粒度对长文本进行分割,且对应于分割文本的粒度,结合查询文本进行分阶段检索;其中,所述分阶段检索采用基于对比学习的检索模型;利用重排序模型将分阶段检索的最终输出结果进行排序,得到对应于查询文本的关键文本;将所述查询文本与所述关键文本结合,并利用问答推理模型得到对应所述查询文本所提问题的最终答案。2.根据权利要求1所述的用于长文本的语义检索及问答处理方法,其特征在于,所述检索模型的训练方式包括以预设的语言模型为基础,在长文本数据库上重新进行预训练。3.根据权利要求2所述的用于长文本的语义检索及问答处理方法,其特征在于,所述检索模型的训练方式还包括:在每一轮针对检索模型训练进行负样本构造的过程中,挖掘排名靠前的语义相关的负样本作为下一轮优化所用的样本。4.根据权利要求3所述的用于长文本的语义检索及问答处理方法,其特征在于,所述挖掘排名靠前的语义相关的负样本作为下一轮优化所用的样本包括:利用由简单负样本数据训练出的检索模型为每个查询文本重新检索困难负样本,并基于困难负样本数据重新训练并得到最终的检索模型。5.根据权利要求1所述的用于长文本的语义检索及问答处理方法,其特征在于,所述重排序模型的训练方式包括:基于预设的局部对比损失函数,将一组查询文本在训练数据上进行局部对比增强处理。6.根据权利要求1所述的用于长文本的语义检索及问答处理方法,其特征在于,所述分阶段检索包括:将长文本分割为多...

【专利技术属性】
技术研发人员:刁永祥张浩宇洪帅吴飞方四安
申请(专利权)人:合肥讯飞数码科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1