【技术实现步骤摘要】
一种基于混合行为空间的强化学习方法
本专利技术涉及强化学习领域,尤其涉及一种基于混合行为空间的强化学习方法。
技术介绍
强化学习中复杂策略的表示及学习,是指在强化学习中,当策略比较复杂时,如何对策略进行表示并端对端进行学习的问题。本专利技术主要针对混合行为空间的问题,即行为即有离散选择的部分,也有连续化参数的部分,比如在自动驾驶任务中,涉及到这一步应该打方向盘还是刹车,这是离散的动作选择,如果打方向盘,对应的角度是多少,这是连续值的动作选择。现在的强化学习算法大多针对于纯离散的行为空间或者纯连续的行为空间,对于混合行为空间的算法研究很少。分析近期基于混合行为空间的强化学习的研究:SherstovandStone等在2005年的InternationalSymposiumonAbstraction,Reformulation,andApproximation的194-205页发表的论文Functionapproximationviatilecoding:Automatingparameterchoice中提出把 ...
【技术保护点】
1.一种基于混合行为空间的强化学习方法,其特征在于,包括Actor网络和Critic的网络,所述Critic网络用于计算所述Actor网络的参数梯度,指导所述Actor网络进行训练。/n
【技术特征摘要】
1.一种基于混合行为空间的强化学习方法,其特征在于,包括Actor网络和Critic的网络,所述Critic网络用于计算所述Actor网络的参数梯度,指导所述Actor网络进行训练。
2.如权利要求1所述的基于混合行为空间的强化学习方法,其特征在于,所述Actor网络包括状态编码网络、离散Actor网络、连续参数Actor网络,所述状态编码网络对状态进行编码,输入到所述离散Actor网络和所述连续参数Actor网络,所述离散Actor网络用于产生离散动作,所述连续参数Actor网络用于产生所述离散动作对应的连续化参数。
3.如权利要求2所述的基于混合行为空间的强化学习方法,其特征在于,包括如下步骤:
步骤1、定义状态空间;
步骤2、定义通用的行为空间;
步骤3、将状态输入所述状态编码网络,采样得到随机动作和连续化参数;
步骤4、将所述随机动作和所述连续化参数作为行为给到环境,环境给出奖励和下一个状态;
步骤5、更新所述Actor网络和所述Critic网络。
4.如权利要求3所述的基于混合行为空间的强化学习方法,其特征在于,所述步骤1具体为:每一步的输入为st,所述状态编码网络的输入维度是所述st的维度。
5.如权利要求4所述的基于混合行为空间的强化学习方法,其特征在于,所述步骤2具体为:离散行为从Ad={a1,a2,...,ak}中选出,对于每一个所述离散行为有一个可以用ma维实数向量表示的连续化参数最终给到环境的行为用一个元组(a,x)来表示,其中a∈Ad是选择的离散...
【专利技术属性】
技术研发人员:粟锐,张伟楠,俞勇,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。