文档问答方法、装置、系统、电子设备及存储介质制造方法及图纸

技术编号:37182314 阅读:30 留言:0更新日期:2023-04-20 22:47
本发明专利技术涉及自然语言处理技术领域,提供一种文档问答方法、装置、系统、电子设备及存储介质,该方法利用粗排模型,得到目标文档库中的多个备选文档,利用精排模型得到每个备选文档与用户问题的相似度,并确定目标文档,进而确定用户问题对应的目标答案。粗排模型以及精排模型训练过程采用的样本包括内容文档对以及问题文档对集合,通过内容文档对可以使预训练粗排模型以及预训练精排模型在不引入人工标注的情况下学习到更充分的知识,不仅可以节约模型训练成本,提高训练效率,还可以解决高质量标注数据不足的问题。通过问题文档对集合,可以保证通过粗排模型以及精排模型可以为用户提供准确的目标答案。户提供准确的目标答案。户提供准确的目标答案。

【技术实现步骤摘要】
文档问答方法、装置、系统、电子设备及存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种文档问答方法、装置、系统、电子设备及存储介质。

技术介绍

[0002]随着人工智能相关技术的日益成熟,语音交互需求在工作生活中越来越扮演重要角色。问答模块是语音交互系统中的重要模块,主要用于解答用户的各类问题。
[0003]现有的问答模块应用的问答方法主要是基于文档的开放域问答方法。该方法需要事先收集大规模的文档库,并在获取到用户问题之后,利用问答模型从文档库中检索到用户问题的相关文档,再从文档中抽取或者生成答案。
[0004]现有的问答模型虽然可以实现问答,但是在训练过程中需要依赖大量的标注数据,面临高质量标注数据难以获取、效率低的问题。

技术实现思路

[0005]本专利技术提供一种文档问答方法、装置、系统、电子设备及存储介质,用以解决现有技术中存在的缺陷。
[0006]本专利技术提供一种文档问答方法,包括:
[0007]获取用户问题;
[0008]将所述用户问题输入至粗排模型,得到本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文档问答方法,其特征在于,包括:获取用户问题;将所述用户问题输入至粗排模型,得到所述粗排模型从文档库中检索出的多个备选文档;将所述用户问题与所述多个备选文档输入至精排模型,得到所述精排模型输出的每个备选文档与所述用户问题的相似度,并确定与所述用户问题的相似度高于预设阈值的目标文档;基于所述用户问题、所述目标文档以及所述目标文档与所述用户问题的相似度,确定所述用户问题对应的目标答案;其中,所述粗排模型以及所述精排模型的训练步骤包括:基于所述文档库对应的内容文档对,对初始粗排模型以及初始精排模型进行预训练,分别得到预训练粗排模型以及预训练精排模型;所述内容文档对基于所述文档库中任一文档的目标内容以及所述文档库中的文档确定;基于问题文档对集合,对所述预训练粗排模型以及所述预训练精排模型进行联合训练,得到所述粗排模型以及所述精排模型。2.根据权利要求1所述的文档问答方法,其特征在于,所述基于问题文档对集合,对所述预训练粗排模型以及所述预训练精排模型进行联合训练,得到所述粗排模型以及所述精排模型,包括:基于所述问题文档对集合中的第一类问题文档对,对所述预训练粗排模型以及所述预训练精排模型进行联合训练,分别得到基线粗排模型和基线精排模型;基于所述第一类问题文档对,确定所述基线精排模型对应的困难负样本和/或伪负样本,并基于所述基线精排模型对应的困难负样本和/或伪负样本,对所述基线粗排模型以及所述基线精排模型进行迭代训练,得到所述粗排模型以及备选精排模型;基于所述备选精排模型,确定所述精排模型。3.根据权利要求2所述的文档问答方法,其特征在于,所述基于所述用户问题、所述目标文档以及所述目标文档与所述用户问题的相似度,确定所述用户问题对应的目标答案,包括:将所述用户问题与所述目标文档输入至理解模型,得到所述理解模型输出的所述目标文档内的答案片段;基于所述用户问题、所述答案片段以及所述目标文档与所述用户问题的相似度,确定所述目标答案;其中,所述精排模型以及所述理解模型基于如下步骤确定:基于所述问题文档对集合中携带有答案片段标签的第二类问题文档对,对所述备选精排模型以及初始理解模型进行联合训练,得到所述精排模型以及所述理解模型。4.根据权利要求3所述的文档问答方法,其特征在于,所述备选精排模型以及所述初始理解模型的编码器参数共享。5.根据权利要求3所述的文档问答方法,其特征在于,所述基于所述用户问题、所述答案片段以及所述目标文档与所述用户问题的相似度,确定所述目标答案,包括:将所述用户问题、所述答案片段以及所述目标文档与所述用户问题的相似度输入至生
成模型,得到所述生成模型输出的目标答案;其中,所述生成模型基于问题答案片段对以及所述问题答案片段对中的答案片段样本所在的文档样本与所述问题答案片段对中的问题样本的相似度训练得到。6...

【专利技术属性】
技术研发人员:王涛刘权李亚李阳刘聪胡国平
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1