文档问答方法、系统、电子设备及存储介质技术方案

技术编号:37135720 阅读:41 留言:0更新日期:2023-04-06 21:34
本发明专利技术涉及自然语言处理技术领域,提供一种文档问答方法、装置、系统、电子设备及存储介质,该方法利用粗排模型,得到目标文档库中的多个备选文档,利用精排模型得到每个备选文档与用户问题的相似度,并确定目标文档,进而确定用户问题对应的目标答案。粗排模型与精排模型基于目标领域内的问题文档对集合、第一困难负样本以及第二困难负样本,对基础粗排模型以及基础精排模型进行多轮迭代训练得到。困难负样本的引入,可以有效提升样本质量,解决目标领域的样本数据不足、标注困难的问题,降低模型训练难度,进而使训练得到的粗排模型和精排模型的鲁棒性得到提升,也可以提高目标答案的准确性。准确性。准确性。

【技术实现步骤摘要】
文档问答方法、系统、电子设备及存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种文档问答方法、系统、电子设备及存储介质。

技术介绍

[0002]随着自然语言处理技术的发展,当前在百科知识等通用领域上,文档问答方法已有一定的效果。然而,在生活中,有很多通用领域之外的其他领域也需要运用到文档问答方法,如公司规章制度智能问答,实时热点信息问答,特定领域知识深入问答等。
[0003]现有技术中,对于其他领域采用的文档问答方法,通常直接将应用于百科知识领域的文档问答模型迁移到对应领域。模型迁移采用的方法一般是在预训练模型的基础上,增加所要迁移的新领域的问题文档对进行模型训练。
[0004]但是,这种方法只是简单增加训练所需的样本数据,可能存在新领域的样本数据不足、标注困难的问题,进而不仅增加了模型训练难度,还降低了模型问答结果的准确性。

技术实现思路

[0005]本专利技术提供一种文档问答方法、系统、电子设备及存储介质,用以解决现有技术中存在的缺陷。
[0006]本专利技术提供一种文档问答方法,包括:
[0007]获取目标领域的用户问题;
[0008]将所述用户问题输入粗排模型,得到所述粗排模型从所述目标领域的目标文档库中检索出的多个备选文档;
[0009]将所述用户问题与所述多个备选文档输入至精排模型,得到所述精排模型输出的每个备选文档与所述用户问题的相似度,并确定与所述用户问题的相似度高于预设阈值的目标文档;
[0010]基于所述用户问题、所述目标文档以及所述目标文档与所述用户问题的相似度,确定所述用户问题对应的目标答案;
[0011]其中,所述粗排模型与所述精排模型基于所述目标领域内的问题文档对集合、基础问答模型中基础粗排模型的第一困难负样本以及所述基础问答模型中基础精排模型的第二困难负样本,对基础粗排模型以及基础精排模型进行多轮迭代训练得到;所述基础问答模型用于确定与所述目标领域不同的基础领域内问题的答案;
[0012]每一迭代轮次采用的第一困难负样本基于前一迭代轮次训练所得的基础粗排模型以及基础精排模型确定,每一迭代轮次采用的第二困难负样本基于当前迭代轮次训练所得的基础粗排模型确定。
[0013]根据本专利技术提供的一种文档问答方法,所述粗排模型以及所述精排模型的训练步骤包括:
[0014]基于所述问题文档对集合中的第一类问题文档对,以及前一迭代轮次训练所得的
基础粗排模型的第一困难负样本,对前一迭代轮次训练所得的基础粗排模型进行当前迭代轮次的训练;
[0015]基于所述问题文档对集合中的第二类问题文档对,以及当前迭代轮次训练所得的基础粗排模型的第二困难负样本,对前一迭代轮次训练所得的基础精排模型进行当前迭代轮次的训练;
[0016]将当前迭代轮次训练所得的基础粗排模型作为前一迭代轮次训练所得的基础粗排模型,将当前迭代轮次训练所得的基础精排模型作为前一迭代轮次训练所得的基础精排模型,继续进行当前迭代轮次的训练,直至所述多轮迭代训练完成,得到粗排模型以及候选精排模型;
[0017]基于所述候选精排模型,确定所述精排模型。
[0018]根据本专利技术提供的一种文档问答方法,所述基于所述候选精排模型,确定所述精排模型,包括:
[0019]获取所述目标领域外的问题数据,并将所述问题数据输入至所述粗排模型,得到所述粗排模型从参考文档库中检索出的多个第一文档;
[0020]将所述问题数据与所述多个第一文档输入至所述候选精排模型,得到所述候选精排模型输出的每个第一文档与所述问题数据的相似度,并确定相似度大于所述预设阈值的第二文档;
[0021]基于所述问题数据以及相似度在预设范围内的第二文档,构建负样本,并基于所述负样本以及所述第二类问题文档对,对所述候选精排模型进行训练,得到所述精排模型。
[0022]根据本专利技术提供的一种文档问答方法,每一迭代轮次采用的第二困难负样本基于如下步骤确定:
[0023]对于当前迭代轮次采用的所述第一类问题文档对中的任一问题样本,将所述任一问题样本输入至当前迭代轮次训练所得的基础粗排模型,得到当前迭代轮次训练所得的基础粗排模型从参考文档库中检索出的多个第三文档;
[0024]基于所述任一问题样本以及所述多个第三文档,确定当前迭代轮次采用的第二困难负样本。
[0025]根据本专利技术提供的一种文档问答方法,所述基于所述任一问题样本以及所述多个第三文档,确定当前迭代轮次采用的第二困难负样本,包括:
[0026]从所述多个第三文档中剔除排序靠前的预设数量个第三文档,并基于所述任一问题样本以及剔除所述预设数量个第三文档之后剩余的第三文档,确定当前迭代轮次采用的第二困难负样本。
[0027]根据本专利技术提供的一种文档问答方法,所述粗排模型以及所述精排模型的训练步骤包括:
[0028]获取参考文档库对应的标题文档对;所述参考文档库包括所述目标文档库,或者包括所述目标文档库以及所述基础领域的文档库;
[0029]基于所述标题文档对,对所述基础问答模型进行预训练,得到预训练模型;
[0030]基于所述目标领域内的问题文档对集合、预训练模型中初始粗排模型的第一困难负样本以及所述预训练模型中初始精排模型的第二困难负样本,对初始粗排模型以及初始精排模型进行多轮迭代训练,得到所述粗排模型以及所述精排模型。
[0031]根据本专利技术提供的一种文档问答方法,所述第一类问题文档对包括问题正确文档对以及问题错误文档对;
[0032]对于当前迭代轮次采用的所述第一类问题文档对中的任一问题样本,所述任一问题样本对应的问题错误文档对的确定步骤包括:
[0033]基于所述任一问题样本以及同一样本批次内除所述任一问题样本对应的问题正确文档对中的正确文档样本之外的文档样本,确定所述任一问题样本对应的问题错误文档对;
[0034]和/或,基于所述任一问题样本、前一迭代轮次训练所得的基础粗排模型以及所述基础精排模型,确定所述任一问题样本对应的问题错误文档对。
[0035]根据本专利技术提供的一种文档问答方法,所述将所述用户问题输入粗排模型,得到所述粗排模型从所述目标文档库中检索出的多个备选文档,包括:
[0036]将所述用户问题输入至所述粗排模型的问题编码器,得到所述问题编码器输出的问题编码向量;
[0037]将所述问题编码向量以及基于所述粗排模型的文档编码器得到的所述目标文档库中各文档对应的文档编码向量输入至所述粗排模型的相似度计算层,得到所述相似度计算层输出的所述问题编码向量与所述各文档对应的文档编码向量之间的相似度;
[0038]将所述问题编码向量与所述各文档对应的文档编码向量之间的相似度输入至输出层,得到所述输出层输出的所述各文档中相似度高的所述多个备选文档。
[0039]根据本专利技术提供的一种文档问答方法,所述基于所述用户问题、所述目标文档以及所述目标文档与所述用户问题的相似度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档问答方法,其特征在于,包括:获取目标领域的用户问题;将所述用户问题输入粗排模型,得到所述粗排模型从所述目标领域的目标文档库中检索出的多个备选文档;将所述用户问题与所述多个备选文档输入至精排模型,得到所述精排模型输出的每个备选文档与所述用户问题的相似度,并确定与所述用户问题的相似度高于预设阈值的目标文档;基于所述用户问题、所述目标文档以及所述目标文档与所述用户问题的相似度,确定所述用户问题对应的目标答案;其中,所述粗排模型与所述精排模型基于所述目标领域内的问题文档对集合、基础问答模型中基础粗排模型的第一困难负样本以及所述基础问答模型中基础精排模型的第二困难负样本,对基础粗排模型以及基础精排模型进行多轮迭代训练得到;所述基础问答模型用于确定与所述目标领域不同的基础领域内问题的答案;每一迭代轮次采用的第一困难负样本基于前一迭代轮次训练所得的基础粗排模型以及基础精排模型确定,每一迭代轮次采用的第二困难负样本基于当前迭代轮次训练所得的基础粗排模型确定。2.根据权利要求1所述的文档问答方法,其特征在于,所述粗排模型以及所述精排模型的训练步骤包括:基于所述问题文档对集合中的第一类问题文档对,以及前一迭代轮次训练所得的基础粗排模型的第一困难负样本,对前一迭代轮次训练所得的基础粗排模型进行当前迭代轮次的训练;基于所述问题文档对集合中的第二类问题文档对,以及当前迭代轮次训练所得的基础粗排模型的第二困难负样本,对前一迭代轮次训练所得的基础精排模型进行当前迭代轮次的训练;将当前迭代轮次训练所得的基础粗排模型作为前一迭代轮次训练所得的基础粗排模型,将当前迭代轮次训练所得的基础精排模型作为前一迭代轮次训练所得的基础精排模型,继续进行当前迭代轮次的训练,直至所述多轮迭代训练完成,得到粗排模型以及候选精排模型;基于所述候选精排模型,确定所述精排模型。3.根据权利要求2所述的文档问答方法,其特征在于,所述基于所述候选精排模型,确定所述精排模型,包括:获取所述目标领域外的问题数据,并将所述问题数据输入至所述粗排模型,得到所述粗排模型从参考文档库中检索出的多个第一文档;将所述问题数据与所述多个第一文档输入至所述候选精排模型,得到所述候选精排模型输出的每个第一文档与所述问题数据的相似度,并确定相似度大于所述预设阈值的第二文档;基于所述问题数据以及相似度在预设范围内的第二文档,构建负样本,并基于所述负样本以及所述第二类问题文档对,对所述候选精排模型进行训练,得到所述精排模型。4.根据权利要求2所述的文档问答方法,其特征在于,每一迭代轮次采用的第二困难负
样本基于如下步骤确定:对于当前迭代轮次采用的所述第一类问题文档对中的任一问题样本,将所述任一问题样本输入至当前迭代轮次训练所得的基础粗排模型,得到当前迭代轮次训练所得的基础粗排模型从参考文档库中检索出的多个第三文档;基于所述任一问题样本以及所述多个第三文档,确定当前迭代轮次采用的第二困难负样本。5.根据权利要求4所述的文档问答方法,其特征在于,所述基于所述任一问题样本以及所述多个第三文档,确定当前迭代轮次采用的第二困难负样本,包括:从所述多个第三文档中剔除排序靠前的预设数量个第三文档,并基于所述任一问题样本以及剔除所述预设数量个第三文档之后剩余的第三文档,确定当前迭代轮次采用的第二困难负样本。6.根据权利要求2所述的文档问答方法,其特征在于,所述第一类问题文档对包括问题正确文档对以及问题错误文档对;对于当前迭代轮次采用的所述第一类问题文档对中的任一问题样本,所述任一问题样本对应的问题错误文档对的确定步骤包括:基于所述任一问题样本以及同一样本批次内除所述任一问题样本对应的问题正确文档对中的正确文档样本之外的文档样本,确定所述任一问题样本对应的问题错误文档对;和/或,基于所述任一问题样本、前一迭代轮次训练所得的基础粗排模型以及所述基础精排模型,确定所述任一问题样本对应的问题错误文档对。7.根据权利要求...

【专利技术属性】
技术研发人员:李阳王涛李亚刘权
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1