用于问答检索模型的训练方法、装置及存储介质制造方法及图纸

技术编号:40199085 阅读:21 留言:0更新日期:2024-01-27 00:03
本申请实施例提供一种用于问答检索模型的训练方法、装置及存储介质。方法包括:确定训练数据集,训练数据集包括多个长问答文本;将每个长问答文本依次输入至编码器,并基于编码器的输出和第一损失函数确定训练数据集的第一损失值;对每个长问答文本进行拆分处理,以得到多个短问答文本;基于第二损失函数和全部的短问答文本确定训练数据集的第二损失值;将多个答句输入至编码器和对抗网络,以通过编码器的输出、对抗网络的输出和第三损失函数确定训练数据集的第三损失值;根据第一损失值、第二损失值和第三损失值确定训练数据集的总损失值;根据总损失值调整权重系数,直至问答检索模型训练完成,提高模型性能和后续问答检索的准确度。

【技术实现步骤摘要】

本申请涉及自然语言处理,具体地涉及一种用于问答检索模型的训练方法、装置及存储介质


技术介绍

1、问答场景是一种基于自然语言的人机交互方式,其可根据用户的问题提供相关的答案。目前,在训练问答检索模型时,先构造正负样本,使用infonce loss(对比学习损失函数)训练模型。之后,可进行信息最小化,利用对比学习做损失训练。接着,可进行正负样本重构,并计算最小信息熵。最后,可进行句子表征学习,并通过下游任务评测模型。

2、然而,针对长文本而言,其答案长度存在差异,若直接采用长文本对模型进行训练,损失函数波动大。尤其发生在重构之后,在温度参数和批量大小控制不变的情况下,长文本负样本的损失函数波动更大。且,在利用对比学习做损失训练之后,计算对比损失函数,对比损失函数权重的取值大小对结果影响也较大。因此,现有技术中采用长文本训练问答检索模型的技术方案,导致训练完成的问答检索模型性能较低,使得后续问答检索的准确率较低。


技术实现思路

1、本申请实施例的目的是提供一种用于问答检索模型的训练方法、装置及存储介质本文档来自技高网...

【技术保护点】

1.一种用于问答检索模型的训练方法,其特征在于,所述问答检索模型包括编码器和对抗网络,所述训练方法包括:

2.根据权利要求1所述的用于问答检索模型的训练方法,其特征在于,所述基于第二损失函数和全部的短问答文本确定所述训练数据集的第二损失值包括:

3.根据权利要求2所述的用于问答检索模型的训练方法,其特征在于,所述基于所述第二损失函数,根据全部目标文本对应的多个词频值和多个逆文本频率指数,以及全部的余弦相似度确定所述训练数据集的第二损失值包括:

4.根据权利要求1所述的用于问答检索模型的训练方法,其特征在于,每个长问答文本携带有所在一级文件的一级标签和所...

【技术特征摘要】

1.一种用于问答检索模型的训练方法,其特征在于,所述问答检索模型包括编码器和对抗网络,所述训练方法包括:

2.根据权利要求1所述的用于问答检索模型的训练方法,其特征在于,所述基于第二损失函数和全部的短问答文本确定所述训练数据集的第二损失值包括:

3.根据权利要求2所述的用于问答检索模型的训练方法,其特征在于,所述基于所述第二损失函数,根据全部目标文本对应的多个词频值和多个逆文本频率指数,以及全部的余弦相似度确定所述训练数据集的第二损失值包括:

4.根据权利要求1所述的用于问答检索模型的训练方法,其特征在于,每个长问答文本携带有所在一级文件的一级标签和所在二级文件的二级标签,所述第二损失函数的表达式由公式(1)定义:

5.根据权利要求1所述的用于问答检索模型的训练方法,其特征在于,所述对抗网络包括生成器和鉴别器,所述将每个长问答文本包括的多个答句输...

【专利技术属性】
技术研发人员:吴光鹏李娇薛智慧余小军
申请(专利权)人:北京天融信网络安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1