一种问答模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号:40937954 阅读:12 留言:0更新日期:2024-04-18 14:56
本申请提供了一种问答模型训练方法、装置、设备及存储介质,能够解决问答模型在文档中没有问题的答案时,会出现输出错误答案的问题。该方法包括:获取第一数量的问答正样本和第二数量的问答负样本,其中每个所述问答正样本由问题、包含所述问题的答案的文档以及所述问题的答案标签构成,每个所述负样本由问题、不包含所述问题的答案的文档以及无答案标签构成;根据所述第一数量的问答正样本和所述第二数量的问答负样本,对问答模型进行训练。

【技术实现步骤摘要】

本申请涉及抽取式问答系统领域,尤其涉及一种问答模型训练方法、装置、设备及存储介质


技术介绍

1、抽取式问答系统是一种基于问答模型,为客户从检索出或者给定的文档中提取出答案并输出的系统,即在输入一个问题和指定文档后,会基于问答模型搜索该指定文档中与该问题语义程度最接近的答案片段并输出。目前主流的问答模型使用问答数据集中的问题样本进行训练,其中问题样本包含一个问题及一个文档,该文档中包含至少一个与该问题对应的答案片段。

2、然而,上述问答模型在文档中没有问题的答案时,会出现输出错误答案的问题,影响用户的体验。


技术实现思路

1、本申请提供了一种问答模型训练方法、装置、设备及存储介质,通过增加问答负样本,能够使得问答模型训练的更全面,避免问答模型输出错误答案的问题,提高用户的体验。

2、第一方面,本申请提供了一种问答模型训练方法,该方法包括:

3、获取第一数量的问答正样本和第二数量的问答负样本,其中每个所述问答正样本由问题、包含所述问题的答案的文档以及所述问题的答案标签构成,每本文档来自技高网...

【技术保护点】

1.一种问答模型训练方法,其特征在于,该方法包括:

2.根据权利要求1所述的方法,其特征在于,对于所述第二数量的问答负样本中的任一个问答负样本采用以下方式中的任何一种确定:

3.根据权利要求1所述的方法,其特征在于,对于所述第一数量的问答正样本中的每个问答正样本中的所述问题的答案标签采用以下方式确定:

4.根据权利要求3所述的方法,其特征在于,所述通过相似匹配算法从包括所述设定问题的答案的文档中的至少一个回答所述设定问题的答案片段中,确定与所述设定问题相似度最高的答案片段,包括:

5.一种问答方法,其特征在于,所述方法包括:

6...

【技术特征摘要】

1.一种问答模型训练方法,其特征在于,该方法包括:

2.根据权利要求1所述的方法,其特征在于,对于所述第二数量的问答负样本中的任一个问答负样本采用以下方式中的任何一种确定:

3.根据权利要求1所述的方法,其特征在于,对于所述第一数量的问答正样本中的每个问答正样本中的所述问题的答案标签采用以下方式确定:

4.根据权利要求3所述的方法,其特征在于,所述通过相似匹配算法从包括所述设定问题的答案的文档中的至少一个回答所述设定问题的答案片段中,确定与所述设定问题相似度最高的答案片段,包括:

5.一种问答方法,其特征在于,所述方法包括:

6.一种问答模型训练装置,其特征在于,所述装置包括:

7.根据权利要求6所述的装置,其特征在于,所述获取模块还用于:针对任一设定问题,随机从不包含所述设定问题的答案的文档集合中选取一个文档,将所述设定问题、所述文档以及无答案标签组合构成所述问答负样本;针对任一设定问题,选取包含所述设定问题对应答案的文档,去除所述文档中的所述答案得到去除所述答案的文档,将所述设定问题、去除所述答案的文档以及无答案标签组合构成所述问答...

【专利技术属性】
技术研发人员:张烘玮王彦芳孟卫明王月岭
申请(专利权)人:海信集团控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1