一种强化学习模型的训练方法及装置制造方法及图纸

技术编号：42375342 阅读：24 留言：0更新日期：2024-08-16 14:59

本发明专利技术提供一种强化学习模型的训练方法及装置，其中所述方法包括：将经过文本预训练得到的预训练大语言模型进行指令微调，生成监督学习大语言模型，基于监督学习大语言模型模型，分别形成对应的初始奖励模型、语言模型和打分模型；根据提示的问题，经过初始的奖励模型、语言模型和打分模型处理，生成当前周期的经验数据，将经验数据分别输入至语言模型和打分模型中进行适配器微调训练，更新语言模型的参数以及打分模型的参数；继续迭代执行生成经验数据，将生成的经验数据分别输入至语言模型和打分模型的步骤，直至迭代收敛，由于本发明专利技术的语言模型和打分模型为通过同一个模型演变得来，训练也更容易收敛，且计算量和存储需求也大幅降低。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种强化学习模型的训练方法及装置。

技术介绍

1、强化学习(reinforcement learning，rl)是一种机器学习的方式，它允许一个智能体(agent)通过与环境的交互来学习如何做出决策。强化学习的目标是训练智能体在未知的环境中通过试错，从而收集数据来学习最优策略(optimal policy)。

2、强化学习的基本过程如下：

3、1.智能体在环境中观察当前的状态。

4、2.根据当前的策略，智能体选择一个动作用于环境。

5、3.环境根据智能体的动作改变状态，并返回新的状态和奖励。

6、4.智能体根据新的状态和奖励更新其策略。

7、5.这个过程不断重复，直到智能体学习到一个满意的策略。

8、每一个智能体包括两个神经网络模块，即行动网络(actor)和评估网络(critic)。行动网络是根据当前的状态而决定下一个时刻施加到环境上去的最好动作。评估网络根据当前的状态和模拟环境用于预测标量值的外部强化信号，这样它可单步...

【技术保护点】

1.一种强化学习模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的强化学习模型的训练方法，其特征在于，所述当前周期包括多个时刻；

3.根据权利要求1所述的强化学习模型的训练方法，其特征在于，在基于监督学习大语言模型得到初始的奖励模型之后，所述方法还包括：

4.根据权利要求2所述的强化学习模型的训练方法，其特征在于，将所述经验数据分别输入至语言模型中进行适配器微调训练，更新语言模型的参数，包括：

5.根据权利要求2所述的强化学习模型的训练方法，其特征在于，将所述经验数据分别输入至打分模型中进行适配器微调训练，更新打分模型的参数，包括...

【技术特征摘要】

1.一种强化学习模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的强化学习模型的训练方法，其特征在于，所述当前周期包括多个时刻；

3.根据权利要求1所述的强化学习模型的训练方法，其特征在于，在基于监督学习大语言模型得到初始的奖励模型之后，所述方法还包括：

5.根据权利要求2所述的强化学习模型的训练方法，其特征在于，将所述经验数据分别输入至打分模型中进行适配器微调训练，更新打分模型的参数，包括：

6.一种强化学习模型的训练装置，其...

【专利技术属性】
技术研发人员：请求不公布姓名，请求不公布姓名，
申请(专利权)人：上海壁仞科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人