强化学习数据采样方法、系统、设备和存储介质技术方案

技术编号：38889152 阅读：19 留言：0更新日期：2023-09-22 14:15

本申请涉及一种强化学习数据采样方法、系统、设备和存储介质，通过中心节点获取环境交互节点生成的环境状态样本，将环境状态样本存储至经验集，将环境状态样本发送至动作计算节点，接收并存储动作计算节点生成的动作样本，将动作样本发送至环境交互接单，继续接收并处理环境交互节点根据动作样本进行更新后的环境状态样本，并根据环境状态样本与动作样本生成轨迹样本，当经验集存储的轨迹样本的数量达到第一阈值时，将轨迹样本发送至策略更新节点，策略更新节点根据轨迹样本对模型进行优化，并将优化后的模型参数发送至动作计算节点，保证了各种节点信息的高效读写，解决了相关技术中强化学习在计算资源有限的情况下采样效率较低的问题。样效率较低的问题。样效率较低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
强化学习数据采样方法、系统、设备和存储介质

[0001]本申请涉及强化学习的强化学习数据采样领域，特别是涉及一种强化学习数据采样方法、系统、设备和存储介质。

技术介绍

[0002]强化学习是机器学习领域的一类学习问题，它与常见的有监督学习、无监督学习等的主要区别在于，它是通过与环境之间的交互和反馈来学习的。强化学习比起有监督学习或无监督学习更加接近一个生命体的学习过程、更加具有智能性、更加接近“强人工智能”，因此近年来，强化学习在视频游戏、机器人控制、自然语言处理等很多领域都取得了瞩目的成果。在强化学习的训练过程中，往往需要海量的训练样本，因此，如何提高强化学习训练过程中的样本采集效率已成为当前强化学习系统研究的一个重要方向。
[0003]目前相关技术中，常用的强化学习框架包括Google的SEEDRL、OpenAI的FIVE、UCB的RLlib，然而这些现有框架对于普通研究者来说存在不同的问题。SEEDRL使用多个CPU(中央处理器)并行采样，并将采集的样本数据发送到高性能的中心服务器上进行训练。而中心服务器为了保证训练效率，使用了TPU(张量处理单元)进行前向推理和训练，对于普通研究者来说，该方法在使用时不可避免地会遇到性能的限制。OpenAI FIVE为了保证尽可能多的并行，将模型的前向推理和后向传播抽象到了不同的节点上，样本在采样节点、前向推理节点和后向传播节点(训练节点)之间传输。这种做法能够提高各部分计算资源的利用率，但是大大增加了网络传输成本和系统控制难度，在普通研究者计算资源有限的情况下对采样...

【技术保护点】

【技术特征摘要】
1.一种强化学习数据采样方法，应用于强化学习的模型训练，其特征在于，包括：获取环境交互节点生成的环境状态样本，将所述环境状态样本存储至中心节点的经验集；将所述环境状态样本发送至动作计算节点，接收所述动作计算节点根据模型参数以及所述环境状态样本生成的动作样本，并将所述动作样本存储至所述经验集；将所述动作样本发送至所述环境交互节点，继续接收并处理所述环境交互节点根据所述动作样本进行更新后的所述环境状态样本；根据所述经验集中的所述环境状态样本与对应的所述动作样本生成轨迹样本，当所述经验集存储的所述轨迹样本的数量达到第一阈值时，将所述轨迹样本发送至策略更新节点，所述策略更新节点根据所述轨迹样本对模型进行优化，并输出优化后的所述模型参数至所述动作计算节点，其中，所述第一阈值根据模型复杂度、模型收敛速度与模型其他指标动态调整得到。2.根据权利要求1所述的强化学习数据采样方法，其特征在于，所述中心节点包括高速读写模块，所述高速读写模块用于创建所述中心节点与目标节点之间的会话，并基于所述会话对样本数据进行读写操作，其中，所述目标节点包括所述环境交互节点、所述动作计算节点或者所述策略更新节点，所述样本数据包括所述环境状态样本、所述动作样本或者所述轨迹样本。3.根据权利要求2所述的强化学习数据采样方法，其特征在于，所述方法还包括：所述高速读写模块对所述经验集的存储空间进行分页封装，每一页所述存储空间对应不同的地址信息；所述高速读写模块对不同页的所述存储空间进行并行读写。4.根据权利要求3所述的强化学习数据采样方法，其特征在于，所述高速读写模块还包括：页控制器，所述页控制器用于判断所述地址信息是否可用，并根据所述地址信息查找对应于所述地址信息的页存储信息。5.根据权利要求4所述的强化学习数据采样方法，其特征在于，当所述环境交互节点与所述中心节点进行连接时，所述方法包括：所述高速读写模块在与所述环境交互节点首次连接时创建第一会话，基于所述第一会话处理所述环境交互节点与所述中心节点的连接任务，并用于保存第一地址信息；所述页控制器接收并判断所述第一会话发送的所述第一地址信息是否可用，在所述第一地址信息可用的情况下，根据所述第一地址信息定位当前的第一样本记录，将当前的所述第一样本记录写入所述环境状态样本，更新所述第一地址信息，并将更新后的所述第一地址信息发送至所述环境交互节点。6.根据权利要求4所述的强化学习数据采样方法，其特征在于，当所述动作计算节点与所述中心节点进行连接时，所述方法包括：所述高速读写模块在与所述动作计算节点首次连接时创建第二会话，基于所述第二会话处理所述动作计算节点与所述中心节点的连接任务，并保存第二地址信息与第三地址信息；所述页控制器接收并判断所述第二会话发送的所述第二地址信息是否合法，在所述第二地址信息合法的情况下，根据所述第二地址信息定位当前的第二样本记录，将当前的所述第二样本记录写入所述动作样本；

【专利技术属性】
技术研发人员：张超，陈楚凡，张云淞，钱徽，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人