【技术实现步骤摘要】
文档问答方法、系统、电子设备及存储介质
[0001]本专利技术涉及自然语言处理
,尤其涉及一种文档问答方法、系统、电子设备及存储介质。
技术介绍
[0002]随着自然语言处理技术的发展,当前在百科知识等通用领域上,文档问答方法已有一定的效果。然而,在生活中,有很多通用领域之外的其他领域也需要运用到文档问答方法,如公司规章制度智能问答,实时热点信息问答,特定领域知识深入问答等。
[0003]现有技术中,对于其他领域采用的文档问答方法,通常直接将应用于百科知识领域的文档问答模型迁移到对应领域。模型迁移采用的方法一般是在预训练模型的基础上,增加所要迁移的新领域的问题文档对进行模型训练。
[0004]但是,这种方法只是简单增加训练所需的样本数据,可能存在新领域的样本数据不足、标注困难的问题,进而不仅增加了模型训练难度,还降低了模型问答结果的准确性。
技术实现思路
[0005]本专利技术提供一种文档问答方法、系统、电子设备及存储介质,用以解决现有技术中存在的缺陷。
[0006]本专利技术提供一种文档问答方法,包括:
[0007]获取目标领域的用户问题;
[0008]将所述用户问题输入粗排模型,得到所述粗排模型从所述目标领域的目标文档库中检索出的多个备选文档;
[0009]将所述用户问题与所述多个备选文档输入至精排模型,得到所述精排模型输出的每个备选文档与所述用户问题的相似度,并确定与所述用户问题的相似度高于预设阈值的目标文档;
[0010]基于所述用 ...
【技术保护点】
【技术特征摘要】
1.一种文档问答方法,其特征在于,包括:获取目标领域的用户问题;将所述用户问题输入粗排模型,得到所述粗排模型从所述目标领域的目标文档库中检索出的多个备选文档;将所述用户问题与所述多个备选文档输入至精排模型,得到所述精排模型输出的每个备选文档与所述用户问题的相似度,并确定与所述用户问题的相似度高于预设阈值的目标文档;基于所述用户问题、所述目标文档以及所述目标文档与所述用户问题的相似度,确定所述用户问题对应的目标答案;其中,所述粗排模型与所述精排模型基于所述目标领域内的问题文档对集合、基础问答模型中基础粗排模型的第一困难负样本以及所述基础问答模型中基础精排模型的第二困难负样本,对基础粗排模型以及基础精排模型进行多轮迭代训练得到;所述基础问答模型用于确定与所述目标领域不同的基础领域内问题的答案;每一迭代轮次采用的第一困难负样本基于前一迭代轮次训练所得的基础粗排模型以及基础精排模型确定,每一迭代轮次采用的第二困难负样本基于当前迭代轮次训练所得的基础粗排模型确定。2.根据权利要求1所述的文档问答方法,其特征在于,所述粗排模型以及所述精排模型的训练步骤包括:基于所述问题文档对集合中的第一类问题文档对,以及前一迭代轮次训练所得的基础粗排模型的第一困难负样本,对前一迭代轮次训练所得的基础粗排模型进行当前迭代轮次的训练;基于所述问题文档对集合中的第二类问题文档对,以及当前迭代轮次训练所得的基础粗排模型的第二困难负样本,对前一迭代轮次训练所得的基础精排模型进行当前迭代轮次的训练;将当前迭代轮次训练所得的基础粗排模型作为前一迭代轮次训练所得的基础粗排模型,将当前迭代轮次训练所得的基础精排模型作为前一迭代轮次训练所得的基础精排模型,继续进行当前迭代轮次的训练,直至所述多轮迭代训练完成,得到粗排模型以及候选精排模型;基于所述候选精排模型,确定所述精排模型。3.根据权利要求2所述的文档问答方法,其特征在于,所述基于所述候选精排模型,确定所述精排模型,包括:获取所述目标领域外的问题数据,并将所述问题数据输入至所述粗排模型,得到所述粗排模型从参考文档库中检索出的多个第一文档;将所述问题数据与所述多个第一文档输入至所述候选精排模型,得到所述候选精排模型输出的每个第一文档与所述问题数据的相似度,并确定相似度大于所述预设阈值的第二文档;基于所述问题数据以及相似度在预设范围内的第二文档,构建负样本,并基于所述负样本以及所述第二类问题文档对,对所述候选精排模型进行训练,得到所述精排模型。4.根据权利要求2所述的文档问答方法,其特征在于,每一迭代轮次采用的第二困难负
样本基于如下步骤确定:对于当前迭代轮次采用的所述第一类问题文档对中的任一问题样本,将所述任一问题样本输入至当前迭代轮次训练所得的基础粗排模型,得到当前迭代轮次训练所得的基础粗排模型从参考文档库中检索出的多个第三文档;基于所述任一问题样本以及所述多个第三文档,确定当前迭代轮次采用的第二困难负样本。5.根据权利要求4所述的文档问答方法,其特征在于,所述基于所述任一问题样本以及所述多个第三文档,确定当前迭代轮次采用的第二困难负样本,包括:从所述多个第三文档中剔除排序靠前的预设数量个第三文档,并基于所述任一问题样本以及剔除所述预设数量个第三文档之后剩余的第三文档,确定当前迭代轮次采用的第二困难负样本。6.根据权利要求2所述的文档问答方法,其特征在于,所述第一类问题文档对包括问题正确文档对以及问题错误文档对;对于当前迭代轮次采用的所述第一类问题文档对中的任一问题样本,所述任一问题样本对应的问题错误文档对的确定步骤包括:基于所述任一问题样本以及同一样本批次内除所述任一问题样本对应的问题正确文档对中的正确文档样本之外的文档样本,确定所述任一问题样本对应的问题错误文档对;和/或,基于所述任一问题样本、前一迭代轮次训练所得的基础粗排模型以及所述基础精排模型,确定所述任一问题样本对应的问题错误文档对。7.根据权利要求...
【专利技术属性】
技术研发人员:李阳,王涛,李亚,刘权,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。