强化学习模型的训练方法及装置制造方法及图纸

技术编号：40592124 阅读：5 留言：0更新日期：2024-03-12 21:53

本公开涉及计算机技术领域，提供了一种强化学习模型的训练方法及装置。该方法包括：将训练数据输入到经过预训练的无模型路径，得到第一输出向量；将训练数据输入到有模型路径的经过预训练的联想核，并通过有模型路径的其它部分将联想核输出的轨迹组编码并整合，得到第二输出向量，联想核根据由隐状态预测损失、奖励预测损失和重建预测损失构建的损失函数训练得到；根据第一输出向量和第二输出向量获取当前情形下的目标动作并执行；根据训练数据和对应的目标动作调整初始的强化学习模型，直到强化学习模型收敛，以根据强化学习模型对商品的候选序列进行排序，生成目标推送序列。本公开的技术方案可以提高强化学习模型的推荐准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机，尤其涉及一种强化学习模型的训练方法及装置。

技术介绍

1、相关技术中，强化学习的应用场景逐渐增多。常用的深度强化学习是一种使用深度神经网络的强化学习方法，对复杂问题的解决较为友好，比如运行游戏，控制机器人，控制自动驾驶等。它的主要思想是通过不断的学习和实践优化智能体在环境中的行为，来最大化未来的奖励。深度强化学习使用深度神经网络来实现，它可以处理高维度和非线性的环境，并能够更好地学习和表现。

2、但是，深度强化学习等强化学习算法存在一定的问题。基于模型的强化学习需要建立精确的环境模型，但强化学习模型在训练中收敛速度慢，在高维度状态空间的环境收敛效果更差，影响强化学习模型的准确性；并且，由于存在过拟合的问题，模型泛化能力差，导致在使用时强化学习模型的准确性会随着环境的变化而变化，使得强化学习模型的推荐准确性更难保证。

技术实现思路

1、有鉴于此，本公开实施例提供了一种强化学习模型的训练方法、装置、电子设备及可读存储介质，以解决现有技术中强化学习模型的推荐准确性难以保证的技术问题。

2、本公开实施例的第一方面，提供了一种强化学习模型的训练方法，强化学习模型包括有模型路径和无模型路径，该方法包括：将训练数据输入到经过预训练的无模型路径，得到第一输出向量，训练数据包括场景信息、历史会话和候选集；将训练数据输入到有模型路径的经过预训练的联想核，并通过有模型路径的其它部分将联想核输出的轨迹组编码并整合，得到第二输出向量，联想核用于针对第一状态对应的各个

3、本公开实施例的第二方面，提供了一种强化学习模型的训练装置，强化学习模型包括有模型路径和无模型路径，该装置包括：无模型路径处理模块，用于将训练数据输入到经过预训练的无模型路径，得到第一输出向量，训练数据包括场景信息、历史会话和候选集；有模型路径处理模块，用于将训练数据输入到有模型路径的经过预训练的联想核，并通过有模型路径的其它部分将联想核输出的轨迹组编码并整合，得到第二输出向量，联想核用于针对第一状态对应的各个动作分别进行联想，得到轨迹组，其它部分为有模型路径中除联想核之外的部分，所述联想核根据由隐状态预测损失、奖励预测损失和重建预测损失构建的损失函数训练得到；目标动作获取模块，用于根据第一输出向量和第二输出向量获取当前情形下的目标动作并执行；调整模块，用于根据训练数据和对应的目标动作调整初始的强化学习模型，直到强化学习模型收敛，得到模型训练结果，以根据训练完成的强化学习模型对商品的候选序列进行排序，生成目标推送序列。

4、本公开实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

5、本公开实施例的第四方面，提供了一种可读存储介质，该可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

6、本公开实施例与现有技术相比存在的有益效果是：本公开实施例的技术方案通过有模型路径中的联想核针对某个状态对应的动作进行联想，得到多个轨迹，根据这些轨迹的整合后的向量和无模型路径输出的向量预测目标动作，以根据该目标动作进行强化学习模型训练，从而可以更好地理解复杂环境，提升强化学习模型解决复杂问题的能力，并在不需要大量的数据训练强化学习模型的条件下，提高强化学习模型的推荐准确性。

本文档来自技高网...

【技术保护点】

1.一种强化学习模型的训练方法，其特征在于，所述强化学习模型包括有模型路径和无模型路径，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述联想核根据由隐状态预测损失、奖励预测损失、重建预测损失和对比学习损失构建的损失函数训练得到。

3.根据权利要求1所述的方法，其特征在于，所述有模型路径包括随机模拟部分和编码网络部分，所述随机模拟部分包括所述联想核，根据所述训练数据和对应的目标动作调整初始的强化学习模型，包括：

4.根据权利要求1所述的方法，其特征在于，对所述无模型路径进行预训练所采用的强化学习算法包括以下任一种：策略梯度算法、优势演员-评论员算法、异步优势演员-评论员算法、邻近策略优化算法和信任域策略优化算法；

5.根据权利要求3所述的方法，其特征在于，所述编码网络部分的编码器结构包括是长短期记忆网络结构或者门控循环单元结构。

6.根据权利要求3所述的方法，其特征在于，将所述训练数据输入到所述有模型路径的经过预训练的联想核之前，所述方法还包括：

7.根据权利要求3所述的方法，其特征在于，将所述联

8.一种强化学习模型的训练装置，其特征在于，所述强化学习模型包括有模型路径和无模型路径，所述装置包括：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。

10.一种可读存储介质，所述可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种强化学习模型的训练方法，其特征在于，所述强化学习模型包括有模型路径和无模型路径，所述方法包括：

5.根据权利要求3所述的方法，其特征在于，所述编码网络部分的编码器...

【专利技术属性】
技术研发人员：王芳，暴宇健，
申请(专利权)人：深圳须弥云图空间科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人