问答模型训练方法、文本处理方法及奖励模型训练方法技术

技术编号:42071608 阅读:18 留言:0更新日期:2024-07-19 16:52
本说明书实施例提供问答模型训练方法、文本处理方法及奖励模型训练方法,其中所述问答模型训练方法包括:在问答样本对中提取样本问题,并确定所述样本问题对应的思维链数据;利用所述思维链数据将所述样本问题更新为目标样本问题,并将所述目标样本问题输入至初始问答模型进行处理,获得预测答案;利用所述初始问答模型关联的奖励模型根据所述问答样本对中的样本答案,对所述预测答案进行打分,获得优化分值;基于所述优化分值对所述初始问答模型进行调参,直至获得满足训练停止条件的目标问答模型。

【技术实现步骤摘要】

本说明书实施例涉及机器学习,特别涉及问答模型训练方法、文本处理方法及奖励模型训练方法


技术介绍

1、随着计算机技术的发展,大模型在越来越多的场景中得以应用。该类模型通过使用大量的数据和计算资源,能够在各种任务上达到令用户满足的效果。如文本生成、文本分类、命名实体识别、情感分析等,都可以通过训练好的大模型实现。现有技术中,大模型的训练过程中,强化学习是比较关键的部分;强化学习作为一种机器学习方法,其可以通过使模型与环境交互,根据环境给出的奖励来学习和优化模型。然而,强化学习过程中的瓶颈在于奖励模型,奖励模型作为强化学习的关键,其决定了模型在环境中采取行动后所获取的奖励,如果奖励模型能够精准反映出行动好坏程度,则强化学习即可有效的优化大模型。但是,由于实际应用环境比较复杂,奖励模型很难精准反映出当前环境的好坏,致使在此基础上优化出的大模型也不具有更好的预测性能,因此亟需一种有效的方案以解决上述问题。


技术实现思路

1、有鉴于此,本说明书实施例提供了一种问答模型训练方法。本说明书一个或者多个实施例同时涉及一种文本本文档来自技高网...

【技术保护点】

1.一种问答模型训练方法,其特征在于,包括:

2.根据权利要求1所述的问答模型训练方法,其特征在于,所述确定所述样本问题对应的思维链数据,包括:

3.根据权利要求1所述的问答模型训练方法,其特征在于,所述利用所述初始问答模型关联的奖励模型根据所述问答样本对中的样本答案,对所述预测答案进行打分,获得优化分值,包括:

4.根据权利要求1所述的问答模型训练方法,其特征在于,所述基于所述优化分值对所述初始问答模型进行调参,直至获得满足训练停止条件的目标问答模型,包括:

5.根据权利要求1至4任一项所述的问答模型训练方法,其特征在于,所述奖励模型的训...

【技术特征摘要】

1.一种问答模型训练方法,其特征在于,包括:

2.根据权利要求1所述的问答模型训练方法,其特征在于,所述确定所述样本问题对应的思维链数据,包括:

3.根据权利要求1所述的问答模型训练方法,其特征在于,所述利用所述初始问答模型关联的奖励模型根据所述问答样本对中的样本答案,对所述预测答案进行打分,获得优化分值,包括:

4.根据权利要求1所述的问答模型训练方法,其特征在于,所述基于所述优化分值对所述初始问答模型进行调参,直至获得满足训练停止条件的目标问答模型,包括:

5.根据权利要求1至4任一项所述的问答模型训练方法,其特征在于,所述奖励模型的训练,包括:

6.根据权利要求5所述的问答模型训练方法,其特征在于,所述根据所述分值向量样本序列和所述分值向量预测序列计算损失值,包括:

7....

【专利技术属性】
技术研发人员:陈奕名刘海燕林金曙
申请(专利权)人:恒生电子股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1