基于强化学习补偿器的水下航行器姿态控制系统及方法技术方案

技术编号：38211705 阅读：10 留言：0更新日期：2023-07-25 11:19

本发明专利技术涉及一种基于强化学习补偿器的水下航行器姿态控制系统及方法，本发明专利技术将经过训练的强化学习作为补偿器与原配控制器结合，通过原配控制器保证稳定性，通过强化学习补偿器实现水下航行器在环境或系统参数变化时的自适应性能。强化学习补偿器包括动作网络单元、奖励惩罚单元、经验池和评价网络单元；动作网络单元求解当前状态下的补偿控制量；奖励惩罚单元根据当前状态和补偿控制量计算性能指标；经验池对当前状态、补偿控制量和性能指标进行采样保存，形成历史经验数据；评价网络单元根据历史经验数据评估水下航行器动作的优劣并对动作网络单元进行训练指导。本发明专利技术在保证水下航行器稳定性的同时，保证不确定系统参数下的自适应控制性能。的自适应控制性能。的自适应控制性能。

全部详细技术资料下载

【技术实现步骤摘要】
with system uncertainties and external disturbances[J].Nonlinear Dynamics,2017,88(1):465
–
476.
[0011][4]Qi X,Cai Z
‑
j.Three
‑
dimensional formation control based on filter backstepping method for multiple underactuated underwater vehicles[J].Robotica,2017,35(8):1690.
[0012][5]Makavita C D,Nguyen H D,Ranmuthugala D,et al.Composite model reference adaptive control for an unmanned underwater vehicle[J].Underwater Technology,2015,33(2):81
–
93.
[0013][6]Ellenrieder K D.Dynamic surface control of trajectory tracking marine vehicles with actuator magnitude and rate limits[J].Automatica,2019,105:433
–
442.
[0014]自主式无人水下航行器(Automati...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习补偿器的水下航行器姿态控制系统，其特征在于，所述控制系统包括基础控制器和强化学习补偿器；所述基础控制器，用于计算对水下航行器的基础控制量；所述强化学习补偿器，用于计算对水下航行器的补偿控制量；所述控制系统将所述补偿控制量与所述基础控制量叠加，用于完成对水下航行器姿态的控制。2.根据权利要求1所述的基于强化学习补偿器的水下航行器姿态控制系统，其特征在于，所述强化学习补偿器包括：动作网络单元、奖励惩罚单元、评价网络单元和经验池；所述动作网络单元，用于计算当前状态下所述强化学习补偿器对水下航行器的补偿控制量；所述奖励惩罚单元，用于根据当前状态和所述动作网络单元计算得到的补偿控制量计算水下航行器的当前瞬时性能指标，所述性能指标是状态误差和控制量消耗；所述经验池，用于对水下航行器的当前状态、所述动作网络单元计算得到的补偿控制量和所述奖励惩罚单元计算得到的性能指标进行周期性采样，形成历史经验数据；所述评价网络单元，经所述经验池中的历史经验数据训练得到，用于对当前状态下水下航行器动作的优劣进行评估，其实质是预测水下航行器在当前状态和当前动作的条件下未来一段时间的综合误差，并根据评估结果指导所述动作网络单元调整计算补偿控制量过程中所使用的参数。3.一种基于强化学习补偿器的水下航行器姿态控制方法，其特征在于，所述方法将强化学习作为补偿器与基础控制器结合，在基础控制器保证水下航行器稳定性的同时，通过对强化学习补偿器进行训练得到历史经验数据并进行保存，实现提升对水下航行器的控制精度，保证水下航行器的自适应性能；所述强化学习补偿器的训练在基础控制器的基础上进行，所述训练过程包括以下步骤：初始化神经网络；控制系统读取系统状态，并计算状态误差；基础控制器计算基础控制量，强化学习补偿器计算补偿控制量；控制系统计算总控制量；奖励惩罚单元根据水下航行器的当前状态和补偿控制量计算瞬时性能指标；水下航行器的当前状态、补偿控制量和性能指标保存在经验池中形成历史经验数据；评价网络单元在经验池的指导下对水下航行器的动作进行评估；评价网络单元对动作网络单元进行参数指导并调整；控制系统更新神经网络权值，重置水下航行器状态，进行下一次训练。4.根据权利要求3所述的基于强化学习补偿器的水下航行器姿态控制方法，其特征在于，在所述强化学习补偿器训练过程中可以对水下航行器的训练环境进行障碍设置，使强化学习补偿控制器计算得到带噪声的补偿控制量，以丰富所述经验池保存的历史数据。5.根据权利要求3所述的基于强化学习补偿器的水下航行器姿态控制方法，其特征在于，所述控制方法会求解一个能够使性能指标最优的补偿控制量u
s
(t)，所述强化学习补偿器与基础控制器结合后对水下航行器的总控制量u(t)的表达式为：u(t)＝u
b
(t)+u
s
(t)，其中，t为连续的任意时刻，u
b
(t)为水下航行器原配的基础控制器计算的基础控制量。
6.根据权利要求3所述的基于强化学习补偿器的水下航行器姿态控制方法，其特征在于，所述奖励惩罚单元采用绝对值的基本形式，根据t时刻水下航行器的状态和补偿控制量计算得到性能指标r(t)，具体表达式为：计算得到性能指标r(t)，具体表达式为：e
r
(X)＝max...

【专利技术属性】
技术研发人员：林晓波，朱晓萌，郝程鹏，侯朝焕，
申请(专利权)人：中国科学院声学研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人