多智能体系统的多梯度递归强化学习模糊控制方法及系统技术方案

技术编号:26374460 阅读:51 留言:0更新日期:2020-11-19 23:43
本发明专利技术提供一种多智能体系统的多梯度递归强化学习模糊控制方法及装置,属于多智能体系统船舶控制技术领域。本发明专利技术主要面向多智能体船舶航向离散系统,通过多梯度递归强化学习模糊控制,在采用较低的系统能量消耗实现优化控制目标的同时,提高了多智能体航向跟踪的速度和精度。除此之外,本发明专利技术提出了一种多梯度递归的学习算法,解决的模糊逻辑系统权值的学习过程中的局部极值问题,使权值更快更精准的收敛,提高了系统的可靠性和稳定性。

【技术实现步骤摘要】
多智能体系统的多梯度递归强化学习模糊控制方法及系统
本专利技术属于多智能体系统船舶控制
,具体涉及一种多智能体系统的多梯度递归强化学习模糊控制方法及系统。
技术介绍
智能船舶运动具有大时滞、大惯性、非线性等特点,航速及装载的变化产生了控制模型的参数摄动,航行条件的变化、环境参数的干扰及测量的不精确性等因素都使智能船舶航向控制系统产生了不确定性。针对这些非线性不确定动态带来的问题,智能算法不断应用于智能体舶航向控制领域,如自适应控制、鲁棒控制、模糊自适应控制、迭代滑模控制、最少参数学习方法。考虑有多个智能船舶组成的多智能体系统,每个智能船舶具有独立动态并且可以与环境交互,将多船舶航向控制的复杂问题转化,以参考信号为虚拟领导者,并且以较小的代价为前提,完成对多智能体系统进行航向一致性控制。当前多数研究基于模糊逻辑系统的多智能体系统船舶航向一致性设计方法未考虑权值收敛局部极值问题,并且由于船舶具有大惯性使船舶航向追踪速度较慢,从而导致控制器能量消耗及舵机磨损严重。此外,现有多智能体系统船舶航向一致性控制成果中较少考虑控制性能与控制成本的折中,使本文档来自技高网...

【技术保护点】
1.多智能体系统的多梯度递归强化学习模糊控制方法,其特征在于,包括如下步骤:/nS1、将采集到的多智能体航向信息传送给船载计算机,船载计算机考虑船舶稳态回转非线性特性,建立有关船舶航向角的多智能体船舶航向离散非线性控制系统数学模型,所述航向信息包括根据多智能体船舶舵机测量的舵角信息和罗经测量的当前航向角信息;/nS2、多智能体船载计算机基于智能体以及虚拟领导者参考信号的航向角动态误差,以及智能体的航向角变化率与虚拟控制器的动态误差,得到多智能体航向追踪动态误差以及多智能体系统航向追踪变换系统;/nS3、根据多智能体的航向追踪动态误差和追踪性能阀值,基于追踪性能阈值在模糊评价模块中设计用于得到策...

【技术特征摘要】
1.多智能体系统的多梯度递归强化学习模糊控制方法,其特征在于,包括如下步骤:
S1、将采集到的多智能体航向信息传送给船载计算机,船载计算机考虑船舶稳态回转非线性特性,建立有关船舶航向角的多智能体船舶航向离散非线性控制系统数学模型,所述航向信息包括根据多智能体船舶舵机测量的舵角信息和罗经测量的当前航向角信息;
S2、多智能体船载计算机基于智能体以及虚拟领导者参考信号的航向角动态误差,以及智能体的航向角变化率与虚拟控制器的动态误差,得到多智能体航向追踪动态误差以及多智能体系统航向追踪变换系统;
S3、根据多智能体的航向追踪动态误差和追踪性能阀值,基于追踪性能阈值在模糊评价模块中设计用于得到策略效用函数的效用函数,利用模糊逻辑系统的通用逼近原理和贝尔曼原理,得到用于设计模糊评价模块的代价函数,基于多梯度递归方法,设计模糊评价模块自适应更新率;
S4、根据多智能体系统中各智能体的连接权值,在模糊执行模块中设计多智能体系统的虚拟控制器和策略效用函数,基于多梯度递推方法,设计模糊执行模块自适应更新率;
S5、通过所述多智能体航向追踪变换系统、航向追踪动态误差、模糊评价代价函数、模糊评价自适应更新率、虚拟控制函数、策略效用函数以及多梯度递归自适应更新率,设计得到多智能体系统的航向一致性控制器,从而得到多智能体系统的控制输入舵角,此舵角指令传递给多智能体船舶舵机输出多智能体船舶航向角,从而实现多智能体系统的航向一致性控制。


2.如权利要求1所述的多智能体系统的多梯度递归强化学习模糊控制方法,其特征在于,所述步骤S1中,多智能体船载计算机利用采集的舵角信息和航向角信息,考虑船舶稳态回转非线性特性,建立多智能体船舶航向离散非线性控制系统数学模型,具体公式为:



式(1)中,ξi,1(k)为多智能体系统中第i个智能体的航向角,i=1,...,N为多智能体系统中智能体的序列数,角标1为第1个子系统,k为时刻;ξi,2(k)为航向角变化率,角标2为第2个子系统,ui(k)为舵角输入;yi(k)为系统的输出,gi=Ki/Ti为控制增益,其中,Ki是船舶回转性指数,Ti为船舶跟从性指数,fi,2(ξi,2(k))为未知的非线性函数,di(k)是未知但有界的外界扰动,并且满足是未知的正数。


3.如权利要求1所述的多智能体系统的多梯度递归强化学习模糊控制方法,其特征在于,所述步骤S2中多智能体系统航向追踪变换系统的建立具体过程为:
多智能体船载计算机利用航向信息设计航向追踪动态误差:



式(2)中,δi,1(k)为多智能体系统中第i个智能体与第j个智能体以及参考信号的航向角动态误差,δi,2(k)为第i个智能体的航向角变化率ξi,2(k)与虚拟控制函数αi,1(k)的误差变量,ai,j为第i个智能体与第j个智能体之间的连接权值,ai,0为第i个智能体与多智能体系统中的虚拟领导者之间的连接权值,yd(k)为光滑有界的虚拟领导者参考轨迹;
为便于对多智能体系统进行航向一致性控制设计,并避免子系统无关联问题,对式(1)进行系统变换,建立多智能体航向追踪变换系统:





4.如权利要求1所述的多智能体系统的多梯度递归强化学习模糊控制方法,其特征在于,所述步骤S3中多智能体系统的模糊评价模块具体建立过程为:
基于多智能体船载计算机的航向角动态误差δi,1(k)和追踪性能阀值ε,设计效用函数πi(k)为



式中ε>0,πi(k)=0表示追踪性能是可接受,πi(k)=1代表追踪性能不可接受,利用效用函数πi(k),设计策略效用函数Mi(k)为



式中0<γi<1为设计参数,L为时间范围,根据贝尔曼原理,式(5)可被表达为
利用模糊逻辑系统的通用逼近原理,得到策略效用函数Mi(k)如下,



式中θi,c为满足的理想可调参数,c表示评价模块,为未知的正数,为权值向量,是θi,c(k)的转置,为有界的模糊基函数,且满足为的转置,vi,c(k)...

【专利技术属性】
技术研发人员:李铁山龙跃程玉华李美霖李耀仑
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1