【技术实现步骤摘要】
本说明书一个或多个实施例涉及计算机,尤其涉及一种用于gpu的强化学习训练框架和方法。
技术介绍
1、强化学习由组织操作环境、解释模型推断、优化模型教学和管理回放缓冲区的动态等步骤组成,不同步骤有不同的计算负载和资源需求。科学应用中的环境模拟通常非常复杂,需要大量的计算资源,当前采用多gpu或多节点的分布式模拟器来加速环境的生成和更新,需要异构计算资源相互配合,导致跨设备的计算性能损失,且无法充分利用单节点的计算资源。
2、申请内容
3、本申请描述及一种用于gpu的强化学习训练框架和方法,可以解决上述技术问题。
4、根据第一方面,提供一种在单gpu上实现的强化学习训练框架,强化学习训练框架包括配置器、至少一个执行器、学习器、模型池和缓冲区,其中,所述执行器和学习器运行在gpu上,所述模型池和所述缓冲区设置于gpu的显存,所述配置器运行在cpu上;
5、所述配置器,用于确定所述执行器的运行参数和所述学习器的运行参数,将所述执行器的运行参数和所述学习器的运行参数下发到gpu,以使得所述gpu根据
...【技术保护点】
1.一种在单GPU上实现的强化学习训练框架,其特征在于,强化学习训练框架包括配置器、至少一个执行器、学习器、模型池和缓冲区,其中,所述执行器和所述学习器运行在GPU上,所述模型池和所述缓冲区设置于GPU的显存,所述配置器运行在CPU上;
2.根据权利要求1所述的强化学习训练框架,其特征在于,
3.根据权利要求2所述的强化学习训练框架,其特征在于,
4.根据权利要求1所述的强化学习训练框架,其特征在于,
5.根据权利要求4所述的强化学习训练框架,其特征在于,
6.根据权利要求1所述的强化学习训练框架,其特征在于
7....
【技术特征摘要】
1.一种在单gpu上实现的强化学习训练框架,其特征在于,强化学习训练框架包括配置器、至少一个执行器、学习器、模型池和缓冲区,其中,所述执行器和所述学习器运行在gpu上,所述模型池和所述缓冲区设置于gpu的显存,所述配置器运行在cpu上;
2.根据权利要求1所述的强化学习训练框架,其特征在于,
3.根据权利要求2所述的强化学习训练框架,其特征在于,
4.根据权利要求1所述的强化学习训练框架,其特征在于,
5.根据权利要求4所述的强化学习训练框架,其特征在于,
6.根据权利要求1所述的强化学习训练框架,其特征在于,
7.一种在单gpu上实现的强化学习训练方法,其特征在于,强化学习训练框架包括配置器、至少一个执行...
【专利技术属性】
技术研发人员:辛之夼,吴征鸿,李顺德,曹荣强,王浩宇,赵海杉,王珏,王彦棡,
申请(专利权)人:中国科学院计算机网络信息中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。