【技术实现步骤摘要】
一种基于离散
‑
连续异构Q网络的强化学习连续动作控制方法
[0001]本专利技术涉及一种基于离散
‑
连续异构Q网络的强化学习连续动作控制方法,属于强化学习
,尤其涉及基于值函数的强化学控制方法。
技术介绍
[0002]控制技术,是现代人类社会所最依赖的技术之一,充斥着人们生活的各个角落。从家电设备,到工业设备、交通工具、电网系统,乃至于航天技术,都离不开控制技术的身影。而近年来,随着人工智能技术的不断发展,越来越多的智能化产品开始走进社会。这些智能化产品在给人们的生活带来极大便利的同时,也对控制技术产生了更高的要求。其中最有代表性的,就是各式各样的无人设备,智能能无人驾驶汽车、服务机器人、仿生机器人等。该类设备的控制问题往往是高维、时变、非线性的,传统方法很难对这些系统进行分析并给出合理的控制规律。此外,该类智能设备在不同的使用场景下有着不同的控制需求,如机械臂在抓取物体和推动物体时,由于目标不同,所使用的控制规律也是不同的。采用传统方法设计应对不同目标的不同控制律,会耗费大量的人力物力。
[0003]因此,相关领域的研究人员开始尝试以各种智能控制方法代替传统控制方法,以实现无人设备控制律的自主智能设计,在节约人工成本的同时,提升无人设备的控制效果以及多任务能力。相关方面的研究包括模糊控制、专家控制、模型预测控制、神经网络控制、强化学习控制等;其中,基于强化学习的智能控制是最有潜力的方法之一。该类方法基于马尔可夫决策过程,通过最大化目标奖励值函数的方式拟合一个最优策略 ...
【技术保护点】
【技术特征摘要】
1.一种基于离散
‑
连续异构Q网络的强化学习连续动作控制方法,其特征在于该方法的步骤包括:步骤1,构造连续Q函数强化学习模型和离散Q函数强化学习模型,并根据构造的连续Q函数强化学习模型和离散Q函数强化学习模型之间的耦合关系,构建连续
‑
离散Q函数强化学习模型;步骤2,根据步骤1构建的连续
‑
离散Q函数强化学习模型,构建离散
‑
连续异构Q网络强化学习的神经网络架构;步骤3,基于时序差分与监督学习,训练步骤2构建的神经网络架构,得到收敛的离散Q网络模块及其对应的分解离散Q函数网络;步骤4,将步骤3训练后的分解离散Q函数作为控制器,在每个时间步选取最大Q函数值所对应的动作,并应用于被控对象,完成基于离散
‑
连续异构Q网络的强化学习连续动作控制方法。2.根据权利要求1所述的一种基于离散
‑
连续异构Q网络的强化学习连续动作控制方法,其特征在于:所述的步骤1中,连续Q函数强化学习模型为一个马尔可夫决策过程模型,即五元组其中,S为状态空间,p状态转移概率,r为奖励值函数,γ为折扣率常数。3.根据权利要求2所述的一种基于离散
‑
连续异构Q网络的强化学习连续动作控制方法,其特征在于:所述包含所有可能的状态s(t),t为时间;代表所有可能的连续动作a(t)={a1(t),a2(t),...,a
M
(t)},由每个动作维度a
m
的动作共同组成,其中m代表维度;所述p代表在s(t)、a(t)下转移到下一状态s(t+1)转移概率p(s(t+1)|s(t),a(t));所述r为S(t),a(t)的函数,即r(s(t),a(t));γ∈[0,1]。4.根据权利要求2或3所述的一种基于离散
‑
连续异构Q网络的强化学习连续动作控制方法,其特征在于:所述连续Q函数强化学习模型的目标于寻找一个最优的确定性策略,μ(s(t))={μ1(s(t)),...,μ
M
(s(t))},该最优的确定性策略包括每个维度上的最优确定性分策略μ
m
(s(t)),使得整个连续Q函数强化学习模型能够获得最大的期望回报值,即奖励值函数在未来的累计值,从而最优化强化学习控制器的控制表现,在动作a(t)=μ(s(t))下,连续Q函数强化学习模型能够获得的期望累计回报值又称为状态
‑
行为值或Q函数值,通过以下公式计算:为获得最高的累计回报值,最优化被控对象的表现,连续Q函数强化学习模型的最优确定性策略与连续Q函数为以下的形式:
5.根据权利要求4所述的一种基于离散
‑
连续异构Q网络的强化学习连续动作控制方法,其特征在于:所述离散Q函数的强化学习模型基于连续Q函数的强化学习模型进行衍生构造,对于维度m,离散Q函数强化学习模型由马尔可夫五元组构成,其中,定义为以下的离散状态空间,包含N个离散动作:p
m
是针对维度m的单步状态转移概率,与连续Q函数强化学习模型的转移概率p之间有以下转化关系:下转化关系:其中,是除维度m之外其他维度的策略;r
m
是针对维度m的奖励函数与连续Q函数强化学习模型的奖励函数r有以下耦合关系:6.根据权利要求5所述的一种基于离散
‑
连续异构Q网络的强化学习连续动作控制方法,其特征在于:针对动作维度m的离散Q函数强化学习模型目标于寻找一个最优离散策略μ
m
(s(t)),能够最大化以下的离散Q函数:其中,单维度离散策略μ
m
(s(t))为以下形式:7.根据权利要求6所述的一种基于离散
‑
连续异构Q网络的强化学习连续动作控制方法,其特征在于:所述连续Q函数强化学习模型和离散Q函数强化学习模型之间的耦合关系为:将连续Q函数强化学习模型的最优策略μ(s(t))用离散Q函数强化学习模型的最优策略近似,离散策略经连续化后便作为连续模型的近似最优策略:μ(s(t)):={μ1(s(t)),μ2(s(t)),...,μ
M
(s(t))}。8.根据权利要求6所述的一种基于离散
‑
连续异构Q网络的强化学习连续动作控制方法,其特征在于:所述的步骤2中,构建的神经网络架构包括连续Q网络模块和离散Q网络模块,其中,连续Q网络模块共有四个网络,包括两个评价Q网络和两个目标Q网络,用于拟合连续模型的评价部分;两个评价Q网络为评价Q网络1和评价Q网络2;两个目标Q网络分别为目标Q网络1和
目标Q网络2;所述评价Q网络1,采用Q(s(t),a(t);θ
Q1
)进行表示,网络参数为θ
Q1
;该网络采用包含两个隐藏层的多层感知机结构,输入层有X+M,即状态维度+连续动作维度个神经元,输入状态、动作s(t),a(t);输出层有1个神经元,输出状态
‑
行为值Q(s(t),a(t);θ
Q1
);所述评价Q网络2,采用Q(s(t),a(t);θ
Q2
)进行表示,网络参数为θ
Q2
,结构...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。