System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种段落检索方法、装置、设备及存储介质制造方法及图纸_技高网

一种段落检索方法、装置、设备及存储介质制造方法及图纸

技术编号:40466006 阅读:4 留言:0更新日期:2024-02-22 23:20
本发明专利技术公开了一种段落检索方法、装置、设备及存储介质。该方法包括:构建检索文档数据集,并对检索文档数据集中的每一文档进行段落划分,得到至少一个段落,根据至少一个段落生成段落库;对段落库中的每一段落进行编码,得到每一段落对应的编码向量;根据每一段落对应的编码向量和每一段落对应的段落文本生成每一段落对应的段落数据,并根据所述段落数据构建索引库;获取目标问题,根据目标问题对索引库进行字面召回检索和向量召回检索,得到目标问题对应的目标段落数据,通过本发明专利技术的技术方案,能够融合文档多视角的语义信息,增强段落文本语义表示的准确性,整合字面召回检索和向量召回检索的检索结果,提高段落检索的召回率和准确率。

【技术实现步骤摘要】

本专利技术实施例涉及信息检索,尤其涉及一种段落检索方法、装置、设备及存储介质


技术介绍

1、段落检索作为许多自然语言处理任务中的关键组件,是自然语言处理和人工智能领域的重要前沿课题,近年来受到了学术界和工业界的广泛关注。从技术层面看,文本检索是nlp(natural language processing,自然语言处理)任务的基础,问答系统、阅读理解等均有广泛应用。从企业层面看,信息检索直接关系到企业数据的利用价值,影响到员工获取信息的效率,甚至可能影响到企业的生产效益。

2、段落检索最简单的方式是通过字面召回找出与问题最相似的段落,然而该类方法很难有效处理一些复杂问题。近年来,业界和学术界均在探索基于深度学习模型的复杂问题语义表示方法,以及面向篇章和复杂句子的语义相似度计算方法。当前段落检索主流方案是使用语言模型对问题和段落分别编码,随后计算问题向量和段落向量的相似度进行粗排,并将粗排召回的段落和问题拼接后精排获得最终检索结果。这种粗排加精排的两步检索方案相比于直接使用文本相似度匹配有很大提升,也是目前广泛使用的结构。

3、这类方法在诸多数据集中取得了较好的结果,但是在实际的应用中表现结果存在很大落差。由于文档文本较长、文本数据复杂以及格式复杂,难以准确按照语义拆分段落,且现有的检索方法只考虑段落文本,忽略了文档的结构信息与文本的全局信息,尤其对于步骤型和流程型答案,问题和答案字面和语义方面都有较大差异,没有直接或显著的关联,难以捕获它们之间的关系,导致实际应用中文档段落检索结果不准确。

/>

技术实现思路

1、本专利技术实施例提供一种段落检索方法、装置、设备及存储介质,解决了由于现有检索方法难以准确按照语义拆分段落,且只考虑段落文本,忽略了文档的结构信息与文本的全局信息,导致文档段落检索结果不准确的问题。

2、根据本专利技术的一方面,提供了一种段落检索方法,包括:

3、构建检索文档数据集,并对检索文档数据集中的每一文档进行段落划分,得到至少一个段落,根据至少一个段落生成段落库;

4、对段落库中的每一段落进行编码,得到每一段落对应的编码向量;

5、根据每一段落对应的编码向量和每一段落对应的段落文本生成每一段落对应的段落数据,并根据所述段落数据构建索引库;

6、获取目标问题,根据目标问题对索引库进行字面召回检索和向量召回检索,得到目标问题对应的目标段落数据。

7、根据本专利技术的另一方面,提供了一种段落检索装置,该段落检索装置包括:

8、生成模块,用于构建检索文档数据集,并对检索文档数据集中的每一文档进行段落划分,得到至少一个段落,根据至少一个段落生成段落库;

9、编码模块,用于对段落库中的每一段落进行编码,得到每一段落对应的编码向量;

10、构建模块,用于根据每一段落对应的编码向量和每一段落对应的段落文本生成每一段落对应的段落数据,并根据所述段落数据构建索引库;

11、得到模块,用于获取目标问题,根据目标问题对索引库进行字面召回检索和向量召回检索,得到目标问题对应的目标段落数据。

12、根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:

13、至少一个处理器;以及

14、与所述至少一个处理器通信连接的存储器;其中,

15、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的段落检索方法。

16、根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的段落检索方法。

17、本专利技术实施例通过构建检索文档数据集,并对检索文档数据集中的每一文档进行段落划分,得到至少一个段落,根据至少一个段落生成段落库;对段落库中的每一段落进行编码,得到每一段落对应的编码向量;根据每一段落对应的编码向量和每一段落对应的段落文本生成每一段落对应的段落数据,并根据所述段落数据构建索引库;获取目标问题,根据目标问题对索引库进行字面召回检索和向量召回检索,得到目标问题对应的目标段落数据,解决了由于现有检索方法难以准确按照语义拆分段落,且只考虑段落文本,忽略了文档的结构信息与文本的全局信息,导致文档段落检索结果不准确的问题,能够融合文档多视角的语义信息,增强段落文本语义表示的准确性,整合字面召回检索和向量召回检索的检索结果,提高段落检索的召回率和准确率。

18、应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种段落检索方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对检索文档数据集中的每一文档进行段落划分,得到至少一个段落,根据至少一个段落生成段落库,包括:

3.根据权利要求2所述的方法,其特征在于,对段落库中的每一段落进行编码,得到每一段落对应的编码向量,包括:

4.根据权利要求2所述的方法,其特征在于,根据每一段落对应的编码向量和每一段落对应的段落文本生成每一段落对应的段落数据,包括:

5.根据权利要求1所述的方法,其特征在于,根据目标问题对索引库进行字面召回检索和向量召回检索,得到目标问题对应的目标段落数据,包括:

6.根据权利要求5所述的方法,其特征在于,根据第一问题对索引库进行字面召回检索和向量召回检索,得到目标问题对应的目标段落数据,包括:

7.根据权利要求6所述的方法,其特征在于,根据目标段落集得到目标问题对应的目标段落数据,包括:

8.一种段落检索装置,其特征在于,包括:

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的段落检索方法。

...

【技术特征摘要】

1.一种段落检索方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对检索文档数据集中的每一文档进行段落划分,得到至少一个段落,根据至少一个段落生成段落库,包括:

3.根据权利要求2所述的方法,其特征在于,对段落库中的每一段落进行编码,得到每一段落对应的编码向量,包括:

4.根据权利要求2所述的方法,其特征在于,根据每一段落对应的编码向量和每一段落对应的段落文本生成每一段落对应的段落数据,包括:

5.根据权利要求1所述的方法,其特征在于,根据目标问题对索引库进行字面召回检索和向量召回检索,得到目标问题...

【专利技术属性】
技术研发人员:朱剑
申请(专利权)人:湖南省爱数信息技术集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1