基于超参优化的深度强化学习模型的训练方法、装置制造方法及图纸

技术编号:31079228 阅读:29 留言:0更新日期:2021-12-01 11:36
本申请公开了一种基于超参优化的深度强化学习模型的训练方法、装置,其中,方法包括:获取多个初始超参数组合,和多个第一深度强化学习模型;采用初始超参数组合中的多个超参数训练多个第一深度强化学习模型,以得到与多个第一深度强化学习模型分别对应的训练评价指标;根据训练评价指标从多个第一深度强化学习模型之中筛选出第二深度强化学习模型;采用与第二深度强化学习模型对应的多个目标超参数对初始超参数组合进行优化处理,以形成目标超参数组合;得到目标深度强化学习模型。由此,将超参数优化与模型训练结合起来实现深度强化学习模型的训练,不仅可训练出性能更高的深度强化学习模型,而且可使训练出的模型适应更广泛的应用场景。泛的应用场景。泛的应用场景。

【技术实现步骤摘要】
基于超参优化的深度强化学习模型的训练方法、装置


[0001]本申请涉及计算机
,尤其涉及一种基于超参优化的深度强化学习模型的训练方法、装置、电子设备、存储介质和计算机程序产品。

技术介绍

[0002]深度强化学习(Deep Reinforcement Learning,简称Deep RL)是近年来兴起的一项技术,这项技术融合了深度学习和强化学习两项技术。Deep RL具备对复杂系统中的高维状态进行模式识别,并在此基础上进行动作输出的能力。基于深度强化学习,可以通过与环境进行交互,不断试错总结的方式进行学习。Deep RL适用于控制、决策以及复杂系统优化任务。在游戏、自动驾驶控制与决策、机器人控制、金融、工业系统控制优化等领域,Deep RL拥有巨大的潜在应用空间。但是,由于Deep RL的训练需要与环境进行大规模交互,在大部分现实场景中都不具备这一条件,这一问题严重地制约了深度强化学习方法的落地。
[0003]为了解决这一问题,相关技术中提出了离线深度强化学习(Off

line Deep RL)技术,然而,目前本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于超参优化的深度强化学习模型的训练方法,其特征在于,所述方法包括:获取多个初始超参数组合,和多个第一深度强化学习模型;采用所述初始超参数组合中的多个超参数训练所述多个第一深度强化学习模型,以得到与所述多个第一深度强化学习模型分别对应的训练评价指标;根据所述训练评价指标从多个第一深度强化学习模型之中筛选出第二深度强化学习模型;采用与所述第二深度强化学习模型对应的多个目标超参数对所述初始超参数组合进行优化处理,以形成目标超参数组合;以及采用所述目标超参数组合之中的多个超参数训练所述第二深度强化学习模型,以得到目标深度强化学习模型。2.如权利要求1所述的方法,其特征在于,所述采用与所述第二深度强化学习模型对应的多个目标超参数对所述初始超参数组合进行优化处理,以形成目标超参数组合,包括:确定所述初始超参数组合属于的超参数集合;将所述多个目标超参数补充添加至所述超参数集合之中,以得到目标超参数集合;以及从所述目标超参数集合之中选取至少部分超参数,并根据所述至少部分超参数形成所述目标超参数组合。3.如权利要求1所述的方法,其特征在于,还包括:在训练所述第二深度强化学习模型的次数达到设定迭代次数时,重新采用与所述第二深度强化学习模型对应的多个目标超参数对所述初始超参数组合进行优化处理。4.如权利要求1所述的方法,其特征在于,所述采用所述目标超参数组合之中的多个超参数训练所述第二深度强化学习模型,以得到目标深度强化学习模型,包括:采用所述目标超参数组合之中的多个超参数迭代训练所述第二深度强化学习模型,以得到所述第二深度强化学习模型输出的预测值;如果所述预测值和标定值之间的损失值满足损失阈值,则将训练得到的所述第二深度强化学习模型作为所述目标深度强化学习模型。5.如权利要求1所述的方法,其特征在于,所述第二深度强化学习模型的数量为设定个数,所述根据所述训练评价指标从多个第一深度强化学习模型之中筛选出第二深度强化学习模型,包括:根据所述训练评价指标,对所述多个第一深度强化学习模型进行排序;将排序在前的所述设定个数的第一深度强化学习模型作为所述第二深度强化学习模型。6.如权利要求1所述的方法,其特征在于,所述训练所述多个第一深度强化学习模型,包括:采用并行训练的方式训练所述多个第一深度强化学习模型。7.如权利要求5所述的方法,其特征在于,还包括:确定对所述第一深度强化学习模型进行训练的指标性能需求;根据所述指标性能需求自适应地调整所述设定个数。8.一种基于超参优化的深度强化学习模型的训练装置,其特征在于,所述装置包括:
第一获取模块,用于获取多个初始超参数组合,和多个第一深度强化学习模型;第一训练模块,用于采用所述初始超参数组合中的多个超参数训练所述多个第一深度强化学习模型,以得到与所述多个第一深度强化学习模型分别对应的训练评价指标;第一筛选模块,用于根据所述训练评价指标从多个第一深度强化学习模型之中筛选出第二深度强化...

【专利技术属性】
技术研发人员:张玥尹泽夏霍雨森王小波郑宇
申请(专利权)人:京东城市北京数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1