一种基于离散-连续异构Q网络的强化学习连续动作控制方法技术

技术编号:37791344 阅读:20 留言:0更新日期:2023-06-09 09:21
本发明专利技术涉及一种基于离散

【技术实现步骤摘要】
一种基于离散

连续异构Q网络的强化学习连续动作控制方法


[0001]本专利技术涉及一种基于离散

连续异构Q网络的强化学习连续动作控制方法,属于强化学习
,尤其涉及基于值函数的强化学控制方法。

技术介绍

[0002]控制技术,是现代人类社会所最依赖的技术之一,充斥着人们生活的各个角落。从家电设备,到工业设备、交通工具、电网系统,乃至于航天技术,都离不开控制技术的身影。而近年来,随着人工智能技术的不断发展,越来越多的智能化产品开始走进社会。这些智能化产品在给人们的生活带来极大便利的同时,也对控制技术产生了更高的要求。其中最有代表性的,就是各式各样的无人设备,智能能无人驾驶汽车、服务机器人、仿生机器人等。该类设备的控制问题往往是高维、时变、非线性的,传统方法很难对这些系统进行分析并给出合理的控制规律。此外,该类智能设备在不同的使用场景下有着不同的控制需求,如机械臂在抓取物体和推动物体时,由于目标不同,所使用的控制规律也是不同的。采用传统方法设计应对不同目标的不同控制律,会耗费大量的人力物力。
[0003]因此,相关领域的研究人员开始尝试以各种智能控制方法代替传统控制方法,以实现无人设备控制律的自主智能设计,在节约人工成本的同时,提升无人设备的控制效果以及多任务能力。相关方面的研究包括模糊控制、专家控制、模型预测控制、神经网络控制、强化学习控制等;其中,基于强化学习的智能控制是最有潜力的方法之一。该类方法基于马尔可夫决策过程,通过最大化目标奖励值函数的方式拟合一个最优策略,从而实现无人设备的稳定控制。基于强化学习的控制方法已经在多个实物场景下被证明有效,如2018年伦敦帝国理工大学计算机学院实现的机械臂折叠布料、2019年人工智能研究机构OpenAI实现的机械手复原魔方等。
[0004]然而,基于强化学习的无人设备控制方法在泛化与推广上仍然有着较大的难度。其中最困难的,是强化学习在实物系统上的经验采集问题。当前强化学习算法的训练效率仍然不够高。即使应用仿真训练+迁移学习等优化方法降低对于经验样本的数量需求,完成一个强化学习智能体控制策略的训练仍然需要至少数万次实物采样。庞大的实物经验样本需求意味着高昂的时间与经济成本,严重阻碍了强化学习控制技术在实物无人设备之上的推广。此外,当前强化学习方法所训练得到的策略仍然不够稳定,难以保证实物应用所需要的效果。
[0005]截至目前,相关领域研究人员对强化学习控制器的设计思路大体相同,即在选择合适的强化学习核心方法的前提之下,应用深度学习技术进行改进与适配,以使得原方法能够较为稳定、高效的应用于目标任务。在强化学习领域,主流的方法可以分为三类:基于值的强化学习方法、基于策略梯度的强化学习方法以及基于策略

评价(Actor

Critic)的强化学习方法。其中,基于值的强化学习方法有着成熟、稳定、高效的表现,且发展较为完善,其中的代表方法是谷歌人工智能研究机构DeepMind于2012年提出的深度Q网络(DQN)算法,及其相关的改进算法。该类算法设计的针对目标是具有离散动作空间的强化学习任务,
如电子游戏等,不能直接应用于动作连续的控制问题。而单纯基于策略梯度的强化学习方法虽能够处理控制问题的连续动作,但由于经验样本利用效率过于低下,现阶段已经使用较少。
[0006]目前最适用于无人设备控制任务的强化学习方法,是基于策略

评价体系框架的方法。该类方法的主要特点是采用一个网络拟合强化学习的值函数,另一个网络根据该值函数的评估结果进行策略优化。策略

评价方法中最有代表性的有Schulman等提出的在线强化学习方法“近端策略优化(PPO)”,以及Lilicrap等提出的离线强化学习方法“深度确定性策略梯度(DDPG)”。其中DDPG由于能够储存并回放经验,效率远高于在线方法,故更适用于经验采集困难的强化学习控制任务。原始版本的DDPG稳定性较差,在一些较为复杂的任务下,常出现不收敛、训练失败的情况。该算法的数个改进版本在一定程度上弥补了该缺陷,同时也提升了训练效率,其中应用最广泛的,是由Fujimoto等于2018年提出的双延迟深度确定性策略梯度方法(TD3),以及由Haarnoja等人同样在2018提出的柔性策略

评价方法(SAC)。在部分无人设备的强化学习控制中,该两个算法表现出了较好的性能。
[0007]但由于策略

评价框架结构的一些固有问题,以上两个算法在部分场景下的表现仍然不佳。基于值的强化学习方法能够通过值函数直接表达策略,而相比之下,策略

评价结构需要一个策略网络通过策略梯度的方法学习评价网络的连续Q函数,两个网络之间深度耦合,导致算法整体的稳定性显著降低。此外,由于控制器的控制量输出是有上限的,与之相对应的策略网络必须采用一个Tanh层作为激活函数以将动作限制在一定范围之内。在实际训练过程中,Tanh层很容易导致梯度消失问题,影响强化学习的整体训练效率。
[0008]为避免策略

评价算法的一系列问题,部分强化学习研究人员尝试对DQN方法进行改进,使其能够适用于连续动作空间下的控制任务。DQN用于连续控制的最大问题在于动作离散化所导致的维度爆炸问题。该问题曾由Lilicrap等在其工作中举例说明,由于DQN的离散动作是针对整体动作空间而非某个动作维度,故连续动作空间的离散化过程需要对各动作维度的离散化动作进行遍历组合,这就导致了连续动作空间所对应的离散动作数量与维度呈指数关系,DQN在该种场景下无法应用。针对该问题,部分相关工作尝试对动作空间的各个维度进行独立的离散化,并采用DQN独立训练或依次训练。该类方法中效果较好的是Tavakoli等人提出的BDQ,其能够有效解决部分连续控制任务,但效率与稳定性仍达不到实际应用的标准。

技术实现思路

[0009]本专利技术的技术解决问题是:克服现有技术的不足,提出一种基于离散

连续异构Q网络的强化学习连续动作控制方法,该方法在对各维度的动作空间进行独立离散化的基础之上,设计了一种离散

连续异构Q网络架构及其相应的强化学习训练方法,解决各动作维度的Q函数之间相互耦合的问题,显著提升值函数强化学习用于连续控制问题的训练效率与终态表现。该架构中包含了两种不同结构的Q网络:连续评价Q网络和离散动作Q网络;连续评价Q网络输入状态与连续动作,输出相应的状态

行为值,采用时序差分法进行更新,主要用于为离散Q网络提供导师信号;离散Q动作网络的作用类似于策略

评价结构中的Actor网络,输入状态,输出各维度离散动作所对应的状态

行为值,采用监督学习的方式跟随连续评价Q网络的值函数,可以通过贪婪策略输出动作。本专利技术所设计的基于连续

异构Q网络
架构的强化学习方法充分利用了该架构的特点,在高效利用经验样本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于离散

连续异构Q网络的强化学习连续动作控制方法,其特征在于该方法的步骤包括:步骤1,构造连续Q函数强化学习模型和离散Q函数强化学习模型,并根据构造的连续Q函数强化学习模型和离散Q函数强化学习模型之间的耦合关系,构建连续

离散Q函数强化学习模型;步骤2,根据步骤1构建的连续

离散Q函数强化学习模型,构建离散

连续异构Q网络强化学习的神经网络架构;步骤3,基于时序差分与监督学习,训练步骤2构建的神经网络架构,得到收敛的离散Q网络模块及其对应的分解离散Q函数网络;步骤4,将步骤3训练后的分解离散Q函数作为控制器,在每个时间步选取最大Q函数值所对应的动作,并应用于被控对象,完成基于离散

连续异构Q网络的强化学习连续动作控制方法。2.根据权利要求1所述的一种基于离散

连续异构Q网络的强化学习连续动作控制方法,其特征在于:所述的步骤1中,连续Q函数强化学习模型为一个马尔可夫决策过程模型,即五元组其中,S为状态空间,p状态转移概率,r为奖励值函数,γ为折扣率常数。3.根据权利要求2所述的一种基于离散

连续异构Q网络的强化学习连续动作控制方法,其特征在于:所述包含所有可能的状态s(t),t为时间;代表所有可能的连续动作a(t)={a1(t),a2(t),...,a
M
(t)},由每个动作维度a
m
的动作共同组成,其中m代表维度;所述p代表在s(t)、a(t)下转移到下一状态s(t+1)转移概率p(s(t+1)|s(t),a(t));所述r为S(t),a(t)的函数,即r(s(t),a(t));γ∈[0,1]。4.根据权利要求2或3所述的一种基于离散

连续异构Q网络的强化学习连续动作控制方法,其特征在于:所述连续Q函数强化学习模型的目标于寻找一个最优的确定性策略,μ(s(t))={μ1(s(t)),...,μ
M
(s(t))},该最优的确定性策略包括每个维度上的最优确定性分策略μ
m
(s(t)),使得整个连续Q函数强化学习模型能够获得最大的期望回报值,即奖励值函数在未来的累计值,从而最优化强化学习控制器的控制表现,在动作a(t)=μ(s(t))下,连续Q函数强化学习模型能够获得的期望累计回报值又称为状态

行为值或Q函数值,通过以下公式计算:为获得最高的累计回报值,最优化被控对象的表现,连续Q函数强化学习模型的最优确定性策略与连续Q函数为以下的形式:
5.根据权利要求4所述的一种基于离散

连续异构Q网络的强化学习连续动作控制方法,其特征在于:所述离散Q函数的强化学习模型基于连续Q函数的强化学习模型进行衍生构造,对于维度m,离散Q函数强化学习模型由马尔可夫五元组构成,其中,定义为以下的离散状态空间,包含N个离散动作:p
m
是针对维度m的单步状态转移概率,与连续Q函数强化学习模型的转移概率p之间有以下转化关系:下转化关系:其中,是除维度m之外其他维度的策略;r
m
是针对维度m的奖励函数与连续Q函数强化学习模型的奖励函数r有以下耦合关系:6.根据权利要求5所述的一种基于离散

连续异构Q网络的强化学习连续动作控制方法,其特征在于:针对动作维度m的离散Q函数强化学习模型目标于寻找一个最优离散策略μ
m
(s(t)),能够最大化以下的离散Q函数:其中,单维度离散策略μ
m
(s(t))为以下形式:7.根据权利要求6所述的一种基于离散

连续异构Q网络的强化学习连续动作控制方法,其特征在于:所述连续Q函数强化学习模型和离散Q函数强化学习模型之间的耦合关系为:将连续Q函数强化学习模型的最优策略μ(s(t))用离散Q函数强化学习模型的最优策略近似,离散策略经连续化后便作为连续模型的近似最优策略:μ(s(t)):={μ1(s(t)),μ2(s(t)),...,μ
M
(s(t))}。8.根据权利要求6所述的一种基于离散

连续异构Q网络的强化学习连续动作控制方法,其特征在于:所述的步骤2中,构建的神经网络架构包括连续Q网络模块和离散Q网络模块,其中,连续Q网络模块共有四个网络,包括两个评价Q网络和两个目标Q网络,用于拟合连续模型的评价部分;两个评价Q网络为评价Q网络1和评价Q网络2;两个目标Q网络分别为目标Q网络1和
目标Q网络2;所述评价Q网络1,采用Q(s(t),a(t);θ
Q1
)进行表示,网络参数为θ
Q1
;该网络采用包含两个隐藏层的多层感知机结构,输入层有X+M,即状态维度+连续动作维度个神经元,输入状态、动作s(t),a(t);输出层有1个神经元,输出状态

行为值Q(s(t),a(t);θ
Q1
);所述评价Q网络2,采用Q(s(t),a(t);θ
Q2
)进行表示,网络参数为θ
Q2
,结构...

【专利技术属性】
技术研发人员:孙健张野晨王钢陈杰
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1