一种用于GPU的强化学习训练框架和方法技术

技术编号:44559600 阅读:20 留言:0更新日期:2025-03-11 14:20
本申请提供一种在单GPU上实现的强化学习训练框架,包括配置器、执行器、学习器、模型池和缓冲区,执行器和学习器运行在GPU上,模型池和缓冲区设置于GPU的显存,配置器运行在CPU上;配置器确定执行器的运行参数和学习器的运行参数,将执行器的运行参数和学习器的运行参数下发到GPU,执行器从模型池中提取模型,将利用模型得到的经验数据存放到缓冲区中;学习器从缓冲区中提取经验数据,根据经验数据生成的模型,依据学习器的运行参数,将生成的模型放置到模型池中的空位置。本发明专利技术中利用多流机制,高效地利用单块GPU进行强化学习训练,通过控制不同训练模块的执行,提高资源利用率,提升GPU上强化学习训练的性能。

【技术实现步骤摘要】

本说明书一个或多个实施例涉及计算机,尤其涉及一种用于gpu的强化学习训练框架和方法。


技术介绍

1、强化学习由组织操作环境、解释模型推断、优化模型教学和管理回放缓冲区的动态等步骤组成,不同步骤有不同的计算负载和资源需求。科学应用中的环境模拟通常非常复杂,需要大量的计算资源,当前采用多gpu或多节点的分布式模拟器来加速环境的生成和更新,需要异构计算资源相互配合,导致跨设备的计算性能损失,且无法充分利用单节点的计算资源。

2、申请内容

3、本申请描述及一种用于gpu的强化学习训练框架和方法,可以解决上述技术问题。

4、根据第一方面,提供一种在单gpu上实现的强化学习训练框架,强化学习训练框架包括配置器、至少一个执行器、学习器、模型池和缓冲区,其中,所述执行器和学习器运行在gpu上,所述模型池和所述缓冲区设置于gpu的显存,所述配置器运行在cpu上;

5、所述配置器,用于确定所述执行器的运行参数和所述学习器的运行参数,将所述执行器的运行参数和所述学习器的运行参数下发到gpu,以使得所述gpu根据所述执行器的运行参数本文档来自技高网...

【技术保护点】

1.一种在单GPU上实现的强化学习训练框架,其特征在于,强化学习训练框架包括配置器、至少一个执行器、学习器、模型池和缓冲区,其中,所述执行器和所述学习器运行在GPU上,所述模型池和所述缓冲区设置于GPU的显存,所述配置器运行在CPU上;

2.根据权利要求1所述的强化学习训练框架,其特征在于,

3.根据权利要求2所述的强化学习训练框架,其特征在于,

4.根据权利要求1所述的强化学习训练框架,其特征在于,

5.根据权利要求4所述的强化学习训练框架,其特征在于,

6.根据权利要求1所述的强化学习训练框架,其特征在于

7....

【技术特征摘要】

1.一种在单gpu上实现的强化学习训练框架,其特征在于,强化学习训练框架包括配置器、至少一个执行器、学习器、模型池和缓冲区,其中,所述执行器和所述学习器运行在gpu上,所述模型池和所述缓冲区设置于gpu的显存,所述配置器运行在cpu上;

2.根据权利要求1所述的强化学习训练框架,其特征在于,

3.根据权利要求2所述的强化学习训练框架,其特征在于,

4.根据权利要求1所述的强化学习训练框架,其特征在于,

5.根据权利要求4所述的强化学习训练框架,其特征在于,

6.根据权利要求1所述的强化学习训练框架,其特征在于,

7.一种在单gpu上实现的强化学习训练方法,其特征在于,强化学习训练框架包括配置器、至少一个执行...

【专利技术属性】
技术研发人员:辛之夼吴征鸿李顺德曹荣强王浩宇赵海杉王珏王彦棡
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1