基于强化学习补偿器的水下航行器姿态控制系统及方法技术方案

技术编号:38211705 阅读:9 留言:0更新日期:2023-07-25 11:19
本发明专利技术涉及一种基于强化学习补偿器的水下航行器姿态控制系统及方法,本发明专利技术将经过训练的强化学习作为补偿器与原配控制器结合,通过原配控制器保证稳定性,通过强化学习补偿器实现水下航行器在环境或系统参数变化时的自适应性能。强化学习补偿器包括动作网络单元、奖励惩罚单元、经验池和评价网络单元;动作网络单元求解当前状态下的补偿控制量;奖励惩罚单元根据当前状态和补偿控制量计算性能指标;经验池对当前状态、补偿控制量和性能指标进行采样保存,形成历史经验数据;评价网络单元根据历史经验数据评估水下航行器动作的优劣并对动作网络单元进行训练指导。本发明专利技术在保证水下航行器稳定性的同时,保证不确定系统参数下的自适应控制性能。的自适应控制性能。的自适应控制性能。

【技术实现步骤摘要】
with system uncertainties and external disturbances[J].Nonlinear Dynamics,2017,88(1):465

476.
[0011][4]Qi X,Cai Z

j.Three

dimensional formation control based on filter backstepping method for multiple underactuated underwater vehicles[J].Robotica,2017,35(8):1690.
[0012][5]Makavita C D,Nguyen H D,Ranmuthugala D,et al.Composite model reference adaptive control for an unmanned underwater vehicle[J].Underwater Technology,2015,33(2):81

93.
[0013][6]Ellenrieder K D.Dynamic surface control of trajectory tracking marine vehicles with actuator magnitude and rate limits[J].Automatica,2019,105:433

442.
[0014]自主式无人水下航行器(Automatic Underwater Vehicle,AUV)的动力学模型是一个多输入多输出、欠驱动强耦合的非线性系统,同时工作环境复杂多变,因此,对其姿态进行高精度控制是一个挑战。
[0015]现有的水下航行器一般具有原配的经典控制器,这些控制器往往有足够的稳定裕度,能够在大部分条件下维持系统的稳定,然而由于缺乏自适应功能,原配控制器在环境发生变化或者系统参数发生摄动时容易出现明显的性能下降。

技术实现思路

[0016]本专利技术的目的在于通过训练好的强化学习补偿器抵抗不确定扰动、提升水下航行器的最终性能,以克服水下航行器的原配控制器的自适应性能或控制性能不能满足任务需求的缺点,从而提供一种基于强化学习补偿器的水下航行器姿态控制系统及方法
[0017]本专利技术拟结合原配控制器和强化学习,将强化学习作为补偿器叠加到原配控制器的输出上,通过原配控制器保证训练过程的稳定性,通过强化学习实现环境或者系统参数变化时的自适应性能,保证水下航行器的控制在各种场景下均能维持高性能。
[0018]现有水下航行器的原配控制器一般有较好的鲁棒性,可以维持系统的稳定,但是,当系统模型出现摄动或者工作环境改变可能出现明显的性能下降;强化学习补偿器可以通过历史经验的学习,渐进地提升控制精度,自适应变化的环境和系统模型的摄动,但是无法保证训练过程的稳定性。
[0019]为解决上述技术问题,本专利技术的技术方案提供一种基于强化学习补偿器的水下航行器姿态控制系统,所述控制系统包括基础控制器和强化学习补偿器;所述基础控制器,用于计算对水下航行器的基础控制量;所述强化学习补偿器,用于计算对水下航行器的补偿控制量;所述控制系统将所述补偿控制量与所述基础控制量叠加,用于完成对水下航行器姿态的控制。
[0020]作为上述技术方案的一种改进,所述强化学习补偿器包括:动作网络单元、奖励惩罚单元、评价网络单元和经验池;
[0021]所述动作网络单元,用于计算当前状态下所述强化学习补偿器对水下航行器的补偿控制量;所述奖励惩罚单元,用于根据当前状态和所述动作网络单元计算得到的补偿控制量计算水下航行器的当前瞬时性能指标,所述性能指标是状态误差和控制量消耗;所述
经验池,用于对水下航行器的当前状态、所述动作网络单元计算得到的补偿控制量和所述奖励惩罚单元计算得到的性能指标进行周期性采样,形成历史经验数据;所述评价网络单元,经所述经验池中的历史经验数据训练得到,用于对当前状态下水下航行器动作的优劣进行评估,其实质是预测水下航行器在当前状态和当前动作的条件下未来一段时间的综合误差,并根据评估结果指导所述动作网络单元调整计算补偿控制量过程中所使用的参数。
[0022]本专利技术提供一种基于强化学习补偿器的水下航行器姿态控制方法,所述方法将强化学习作为补偿器与基础控制器结合,在基础控制器保证水下航行器稳定性的同时,通过对强化学习补偿器进行训练得到历史经验数据并进行保存,实现提升对水下航行器的控制精度,保证水下航行器的自适应性能。
[0023]所述强化学习补偿器的训练在基础控制器的基础上进行,所述训练过程包括以下步骤:
[0024]初始化神经网络;
[0025]控制系统读取系统状态,并计算状态误差;
[0026]基础控制器计算基础控制量,强化学习补偿器计算补偿控制量;
[0027]控制系统计算总控制量;
[0028]奖励惩罚单元根据水下航行器的当前状态和补偿控制量计算瞬时性能指标;
[0029]水下航行器的当前状态、补偿控制量和性能指标保存在经验池中形成历史经验数据;
[0030]评价网络单元在经验池的指导下对水下航行器的动作进行评估;
[0031]评价网络单元对动作网络单元进行参数指导并调整;
[0032]控制系统更新神经网络权值,重置水下航行器状态,进行下一次训练。
[0033]作为上述方法的一种改进,在所述强化学习补偿器训练过程中可以对水下航行器的训练环境进行障碍设置,使强化学习补偿控制器计算得到带噪声的补偿控制量,以丰富所述经验池保存的历史数据。
[0034]水下航行器的动力学模型:水下航行器的动力学模型:水下航行器的动力学模型:其中,x是水下航行器的系统状态,主要包含三维空间中的位置(p
x
,p
y
,p
z
)、速度(v
x
,v
y
,v
z
)、姿态和角速度信息(ω
x
,ω
y
,ω
z
);g(x)是可建模的非线性函数,f(x)是已知的系统模型,u(t)是控制信号,包含水平舵角δ
e
,垂直舵角δ
r
和差分舵角δ
d
,即u(t)=[δ
e
(t),δ
r
(t),δ
d
(t)]T
;D(x,t)包含不确定的系统模型和外部干扰。假设期望的系统状态为x
r
,则系统误差为:e
x
=x

x
r
,当前水下航行器已经存在一个能够使原系统稳定当性能无法满足需求的根据系统误差求基础控制量u
b
(t)的基础控制器μ
b
(e
x
)。
[0035]作为上述方法的又一种改进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习补偿器的水下航行器姿态控制系统,其特征在于,所述控制系统包括基础控制器和强化学习补偿器;所述基础控制器,用于计算对水下航行器的基础控制量;所述强化学习补偿器,用于计算对水下航行器的补偿控制量;所述控制系统将所述补偿控制量与所述基础控制量叠加,用于完成对水下航行器姿态的控制。2.根据权利要求1所述的基于强化学习补偿器的水下航行器姿态控制系统,其特征在于,所述强化学习补偿器包括:动作网络单元、奖励惩罚单元、评价网络单元和经验池;所述动作网络单元,用于计算当前状态下所述强化学习补偿器对水下航行器的补偿控制量;所述奖励惩罚单元,用于根据当前状态和所述动作网络单元计算得到的补偿控制量计算水下航行器的当前瞬时性能指标,所述性能指标是状态误差和控制量消耗;所述经验池,用于对水下航行器的当前状态、所述动作网络单元计算得到的补偿控制量和所述奖励惩罚单元计算得到的性能指标进行周期性采样,形成历史经验数据;所述评价网络单元,经所述经验池中的历史经验数据训练得到,用于对当前状态下水下航行器动作的优劣进行评估,其实质是预测水下航行器在当前状态和当前动作的条件下未来一段时间的综合误差,并根据评估结果指导所述动作网络单元调整计算补偿控制量过程中所使用的参数。3.一种基于强化学习补偿器的水下航行器姿态控制方法,其特征在于,所述方法将强化学习作为补偿器与基础控制器结合,在基础控制器保证水下航行器稳定性的同时,通过对强化学习补偿器进行训练得到历史经验数据并进行保存,实现提升对水下航行器的控制精度,保证水下航行器的自适应性能;所述强化学习补偿器的训练在基础控制器的基础上进行,所述训练过程包括以下步骤:初始化神经网络;控制系统读取系统状态,并计算状态误差;基础控制器计算基础控制量,强化学习补偿器计算补偿控制量;控制系统计算总控制量;奖励惩罚单元根据水下航行器的当前状态和补偿控制量计算瞬时性能指标;水下航行器的当前状态、补偿控制量和性能指标保存在经验池中形成历史经验数据;评价网络单元在经验池的指导下对水下航行器的动作进行评估;评价网络单元对动作网络单元进行参数指导并调整;控制系统更新神经网络权值,重置水下航行器状态,进行下一次训练。4.根据权利要求3所述的基于强化学习补偿器的水下航行器姿态控制方法,其特征在于,在所述强化学习补偿器训练过程中可以对水下航行器的训练环境进行障碍设置,使强化学习补偿控制器计算得到带噪声的补偿控制量,以丰富所述经验池保存的历史数据。5.根据权利要求3所述的基于强化学习补偿器的水下航行器姿态控制方法,其特征在于,所述控制方法会求解一个能够使性能指标最优的补偿控制量u
s
(t),所述强化学习补偿器与基础控制器结合后对水下航行器的总控制量u(t)的表达式为:u(t)=u
b
(t)+u
s
(t),其中,t为连续的任意时刻,u
b
(t)为水下航行器原配的基础控制器计算的基础控制量。
6.根据权利要求3所述的基于强化学习补偿器的水下航行器姿态控制方法,其特征在于,所述奖励惩罚单元采用绝对值的基本形式,根据t时刻水下航行器的状态和补偿控制量计算得到性能指标r(t),具体表达式为:计算得到性能指标r(t),具体表达式为:e
r
(X)=max...

【专利技术属性】
技术研发人员:林晓波朱晓萌郝程鹏侯朝焕
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1