一种非线性系统最优控制器的在线学习方法,所述方法包括:获取控制系统的初始状态、系统状态、控制输入,所述控制系统包括机器人的运动控制系统或无人机的飞行控制系统;建立连续时间系统模型;定义目标函数;建立最优控制器;建立基于离策略学习的同步策略迭代算法;对最优控制器进行在线训练学习;将训练学习得到的最优控制器用于实际被控对象,所述被控对象包括机器人的运动控制系统的控制参数或无人机的飞行控制系统的控制参数。
【技术实现步骤摘要】
一种非线性系统最优控制器的在线学习方法
本专利技术涉及一种非线性系统最优控制器的在线学习方法,尤其涉及一种
技术介绍
在工程实践过程中,工程技术人员经常需要对机器人、飞行器等复杂非线性系统的控制器进行优化。从控制论和数学的角度来看,寻找非线性系统的最优控制器难度巨大,经典的动态规划方法往往会面临“维数灾”问题,即计算复杂度随着系统状态维数的增加呈指数增长。此外,获得最优控制器需要求解复杂的哈密顿-雅可比-贝尔曼方程(HJB方程),但HJB方程为非线性的偏微分方程,非常难求解。近年来,强化学习技术正成为求解复杂非线性系统最优控制器的有力工具。强化学习是机器学习中除监督学习和非监督学习的第三类算法,其基本思想是采用不断试错的方法对最优控制器在线学习。KyriakosG.Vamvoudakis和FrankL.Lewis在论文“Onlineactor–criticalgorithmtosolvethecontinuous-timeinfinitehorizonoptimalcontrolproblem”中首次提出了一种新型的强化学习算法,即所谓的同步策略迭代,用于非线性仿射系统最优控制器的在线学习,其基本思想是利用两个神经网络,即执行网络和评价网络,分别对最优控制器和其对应的最优值函数进行近似,进而利用广义策略迭代的思想,在系统运行的过程中实时对两个神经网络进行训练。与传统强化学习方法相比,该方法无需在策略评估与策略提高之间反复迭代,而是在系统运行的过程中同步进行策略评估和策略提高,实现了真正意义上的在线学习。但是该方法仍存在以下问题和缺点:1)该方法属于在策略方法(on-policy),具有探索不足的问题,为提高算法对策略空间的探索能力,需要在执行网络的输出中加入一定的探索噪声,而探索噪声会引起一定的激励噪声偏差;2)该方法只适用于仿射系统,对于更一般的非仿射系统则不再适用。BianTao等人在论文“Adaptivedynamicprogrammingandoptimalcontrolofnonlinearnonaffinesystems”提出了适用于一般非仿射系统的离策略(off-policy)强化学习方法,有效解决了同步策略迭代方法探索不足的问题,但该方法属于传统的策略迭代算法,无法实现对最优控制器的在线学习。总的来说,对于一般的非线性非仿射系统的最优控制问题,目前尚未提出可以实现实时在线学习的强化学习方法。为克服现有同步策略迭代方法无法应用到一般的非线性非仿射系统以及同步策略迭代对策略空间探索不足的问题,本专利所要解决的技术问题包括:1、对于一般的非线性非仿射系统,提出一种可以对最优控制器进行实时在线学习的强化学习方法。2、采用离策略学习技术克服同步策略迭代方法对状态空间和策略空间探索不足的问题。
技术实现思路
针对现有技术的缺陷,本专利技术提出一种非线性系统最优控制器的在线学习方法。具体方案如下:一种非线性系统最优控制器的在线学习方法,包括如下步骤:S1.获取控制系统的初始状态、系统状态、控制输入,所述控制系统包括机器人的运动控制系统或无人机的飞行控制系统;S2.建立连续时间系统模型:x=f(x(t),u(t)),x(0)=x0式中,为系统状态,u∈Rm为系统的控制输入,x(0)=x0为系统的初始状态,Ω为状态区域;S3.定义目标函数:式中,函数r:Rn×Rm→R为连续的正定函数;S4.建立最优控制器,最优控制器u*满足如下的HJB方程:式中,为哈密顿函数,V*为最优控制器u*对应的值函数,即:S5.建立基于离策略学习的同步策略迭代算法;S6.对最优控制器进行在线训练学习;S7.将训练学习得到的最优控制器用于实际被控对象,所述被控对象包括机器人的运动控制系统的控制参数或无人机的飞行控制系统的控制参数。优选的,所述步骤S5包括下列步骤:S51.行为策略设计,选择一个行为策略u并将其应用于系统以生成学习用到的状态x(t);S52.同步策略评估,在时刻t,对于行为策略u(t)和由其生成的状态x(t),定义如下的Q-函数:在上式的基础上采用时间差分学习方法对最优值函数V*进行估计,根据神经网络的通用近似定理,利用两个评价网络在Ω内对V*和Q-函数分别进行近似,其中,两个神经网络的激活函数的基分别为和N1和N2分别为两个神经网络隐藏层激活函数的个数。设V*和Q-函数的最优近似值分别为和其中,W1和W2分别为隐藏层到输出层的权重。由于W1和W2均未知,我们用W1(t)和W2(t)分别表示t时刻对W1和W2的估计,用和替换上式中的V*(x(t))和Q(x(t),u(t))可得如下的时间差分误差e(t):e(t)=r(x(t),u(t))+W(t)Tσ(x(t),u(t))其中,W(t)=[W1(t)TW2(t)T]T。采用归一化的梯度下降法对两个评价网络的权重W(t)进行调节:其中,Φc(t)=(1+σT(x(t),u(t))σ(x(t),u(t)))2为评价网络的归一化项,α>0为评价网络的学习率;S53.策略提高,利用其中一个评价网络的输出对策略进行改进,引入一个执行网络对最优控制器进行近似,其中,执行网络激活函数的构成的基为N3为隐藏层激活函数的个数,为u*的最优近似值,其中,W3为隐藏层到输出层的最优权重,用W3(t)表示t时刻对W3的估计值,用目标策略代替中的行为策略u(x(t))便得到接下来,利用重要性加权的方法对执行网络的权重进行调节:其中,β>0为执行网络的学习率,Φa(t)=(1+σ3(x(t))Tσ3(x(t)))2为执行网络的归一化项,Ua(t)为执行网络在t时刻的目标值,Ua(t)=0;当评价网络和执行网络的权重收敛后,算法结束。本专利技术的非线性系统最优控制器的在线学习方法与以往的同步策略迭代方法相比,不仅适用于非线性仿射系统,同时也适用于更一般的非线性非仿射系统。由于采用了离策略学习技术,该方法对最优控制器具有更好的探索能力。与迭代式强化学习方法相比,该方法无需在策略评估和策略提高之间反复迭代,而是利用系统实时生成的状态数据对最优控制器进行在线学习。附图说明图1为用于近似最优值函数的评价网络结构。图2为用于近似Q-函数的评价网络结构。图3为用于近似最优控制器的执行网络结构。具体实施方式一种非线性系统最优控制器的在线学习方法,包括如下步骤:S1.获取控制系统的初始状态、系统状态、控制输入,所述控制系统包括机器人的运动控制系统或无人机的飞行控制系统。S2.建立连续时间系统模型:x=f(x(t),u(t)),x(0)=x0式中,为系统状态,u∈Rm为系统的控制输入,x(0)=x0为系统的初始状态,Ω为状态区域。S3.定义目标函数:式中,函数r:Rn×Rm本文档来自技高网...
【技术保护点】
1.一种非线性系统最优控制器的在线学习方法,其特征在于包括如下步骤:/nS1.获取控制系统的初始状态、系统状态、控制输入,所述控制系统包括机器人的运动控制系统或无人机的飞行控制系统;/nS2.建立连续时间系统模型:/nx=f(x(t),u(t)),x(0)=x
【技术特征摘要】
1.一种非线性系统最优控制器的在线学习方法,其特征在于包括如下步骤:
S1.获取控制系统的初始状态、系统状态、控制输入,所述控制系统包括机器人的运动控制系统或无人机的飞行控制系统;
S2.建立连续时间系统模型:
x=f(x(t),u(t)),x(0)=x0
式中,为系统状态,u∈Rm为系统的控制输入,x(0)=x0为系统的初始状态,Ω为状态区域;
S3.定义目标函数:
式中,函数r:Rn×Rm→R为连续的正定函数;
S4.建立最优控制器,最优控制器u*满足如下的HJB方程:
式中,为哈密顿函数,V*为最优控制器u*对应的值函数,即:
S5.建立基于离策略学习的同步策略迭代算法;
S6.对最优控制器进行在线训练学习;
S7.将训练学习得到的最优控制器用于实际被控对象,所述被控对象包括机器人的运动控制系统的控制参数或无人机的飞行控制系统的控制参数。
2.根据权利要求1所述的非线性系统最优控制器的在线学习方法,其特征在于,所述步骤S5包括下列步骤:
S51.行为策略设计,选择一个行为策略u并将其应用于系统以生成学习用到的状态x(t);
S52.同步策略评估,在时刻t,对于行为策略u(t)和由其生成的状态x(t),定义如下的Q-函数:
在上式的基础上采用时间差分学习方法对最优值函数V*进行估计,根据神经网络的通用近似定理,利用两个评价网络在Ω内对V*和Q-函数分别进行近似,其中,两个神经网络的激活函数的基分别为和...
【专利技术属性】
技术研发人员:李新兴,查文中,王雪源,王蓉,
申请(专利权)人:中国电子科技集团公司信息科学研究院,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。