多文档问答方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40578547 阅读:16 留言:0更新日期:2024-03-06 17:20
本申请公开一种多文档问答方法、装置、电子设备及存储介质,属于自然语言处理技术领域。该方法包括:对用户端输入的问题文本进行向量化处理,得到问题文本对应的第一向量表示;根据目标词集合确定问题文本对应的第二向量表示;根据第一向量表示和预先存储的多个文档块对应的稠密向量表示之间的第一相似度,及第二向量表示和多个文档块对应的稀疏向量表示之间的第二相似度,确定多个文档块中的目标文档块;根据目标文档块,生成向用户端返回的答案。这样,通过问题文本对应的第一向量表示和第二向量表示分别召回多个文档块中的目标文档块,可以提高问题相关文档块的召回率,从而有利于提升问答效果。

【技术实现步骤摘要】

本申请实施例涉及自然语言处理,尤其涉及一种多文档问答方法、装置、电子设备及存储介质


技术介绍

1、文档问答(document-based question answering)是指从非结构化文档中提取答案。现有的文档问答方法通常是:将目标文档划分成多个文档块;对每个文档块进行向量化处理后存入数据库。当需要对文档进行提问时,对输入的问题进行向量化得到问题向量,通过计算该问题向量与数据库中文本块所对应向量的相似度,确定与问题相关的文档块,进而根据与问题相关的文档块生成答案。

2、然而,在存在大量文档的情况下,相似文档块的数量比较多,使用问题向量和文档块向量之间的相似度进行文档召回的方式,其相关文档块的召回率不高,问答效果并不理想。


技术实现思路

1、本申请实施例提供了一种多文档问答方法、装置、电子设备及存储介质,用以解决相关的多文档问答方法中文档块的召回率不高的问题。

2、为了解决上述技术问题,本申请是这样实现的:

3、第一方面,本申请实施例提供了一种多文档问答方法,包括:<本文档来自技高网...

【技术保护点】

1.一种多文档问答方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据目标词集合确定所述问题文本对应的第二向量表示,包括:

3.根据权利要求1所述的方法,其特征在于,在所述对用户端输入的问题文本进行向量化处理,得到所述问题文本对应的第一向量表示之前,还包括:

4.根据权利要求3所述的方法,其特征在于,在所述对目标文档进行分块处理,得到所述目标文档对应的多个文档块之后,还包括:

5.根据权利要求3所述的方法,其特征在于,在所述根据多个所述目标词构建所述目标词集合之后,还包括:

6.根据权利要求1所述的方法,...

【技术特征摘要】

1.一种多文档问答方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据目标词集合确定所述问题文本对应的第二向量表示,包括:

3.根据权利要求1所述的方法,其特征在于,在所述对用户端输入的问题文本进行向量化处理,得到所述问题文本对应的第一向量表示之前,还包括:

4.根据权利要求3所述的方法,其特征在于,在所述对目标文档进行分块处理,得到所述目标文档对应的多个文档块之后,还包括:

5.根据权利要求3所述的方法,其特征在于,在所述根据多个所述目标词构建所述目标词集合之后,还包括:

6.根据权利要求1所述的...

【专利技术属性】
技术研发人员:王展于皓张杰
申请(专利权)人:北京中关村科金技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1