【技术实现步骤摘要】
一种基于自适应动态规划的智能无人集群系统最优一致性控制方法
[0001]本专利技术属于多智能体协同控制
,具体涉及一种基于自适应动态规划的智能无人集群系统最优一致性控制方法。
技术介绍
[0002]自然界中普遍存在着生物的群集现象,其指的是一些生物通常会以一定的规则进行群体性的活动。比如蜜蜂筑巢;鱼群觅食。相关专家学者受到这一生物集群行为的启发,将多智能体系统(multi
‑
agent systems,MASs)一致性应用到复杂系统的协同控制中,如智能电网、传感器网络、无人机群的协同工作等。一致性指的式多智能体系统中的各个智能体通过与自己局部智能体进行信息交流,根据提前设置的控制协议来动态的调整自身的行为,从达到某一个共同的状态。
[0003]在现实生活中,系统在达成特定控制目的过程中所需要的资源和成本都是有限的,考虑到经济性与实用性,系统必须能以最经济的方式完成控制任务,否则理论成果将难以应用到现实的工业领域中。此外,在实际应用中,智能体的系统信息是很难获取的,因此,研究未知模型下的多智能体 ...
【技术保护点】
【技术特征摘要】
1.一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,其特征在于,包括:S1:将多智能体系统中的智能体分为两类,一类为领导者智能体,其不会接收到来自邻居智能体发送的信息,另一类为跟随者智能体,其会根据所接收到邻居智能体发送的信息对自身行为做出调整;所述每个智能体发送的信息包括自身的状态信息和控制策略;S2:通过智能体自身的传感器获取邻居跟随者智能体与领导者智能体之间状态信息,并根据状态信息计算智能体的局部跟踪误差;S3:为每个智能体设置用于存放其当前误差、下一时刻误差和控制策略的经验池;S4:根据智能体的发送信息和智能体之间的局部跟踪误差构造用于评价智能体当前控制策略优劣的动作状态值函数;S5:设计自适应动态规划算法计算用于评价智能体当前控制策略优劣的动作状态值函数,并通过梯度更新的方式来计迭代更新每个智能体的控制策略;S6:使用神经网络来分别近似控制策略和动作状态值函数,设置算法迭代的次数并重复执行S5中迭代更新动作状态值函数和控制策略的过程,当动作状态值函数与控制策略都收敛到一个足够小的值时,此时算法执行完毕,所有智能体获得最优的控制策略。2.根据权利要求1所述的一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,其特征在于,根据状态信息计算智能体的局部跟踪误差,包括:其中,e
i
(k)表示第k时刻智能体i的局部跟踪误差,b
i
表示牵制增益,若b
i
=1表示该智能体与领导者直接相连接,否则b
i
=0;a
ij
表示第i个智能体与第j个智能体之间的连接权重,x
j
(k)表示第k时刻第j个智能体的状态向量,表示第i个智能体的邻居智能体的集合,x
i
(k)表示第i个智能体在第k时刻的状态信息,x0(k)表示第k时刻领导者的状态信息。3.根据权利要求1所述的一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,其特征在于,所述S3中的经验池有容量大小限制,当经验池的容量达到一定程度,则会删除存放时间最长的一组或多组数据,同时将新生成的数据存入。4.根据权利要求1所述的一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,其特征在于,所述用于评价智能体当前控制策略优劣的动作状态值函数,包括:Q
i
(e
i
(k),μ)=c
i
(e
i
(k),μ)+τQ
i
(e
i
(k+1),u
i
(e
i
(k+1)))其中,Q
i
(e
i
(k),μ)表示用于评价智能体当前控制策略优劣的动作状态值函数,e
i
(k)表示第k时刻智能体i的局部跟踪误差,μ表示智能体的发送的信息,表示用来评价智能体在第k时刻控制策略的效用函数,u
i
(k)表示第k时刻智能体i的控制策略,T表示转置操作,Q
ii
≥0,R
ii
≥0表示正定的权重矩阵,τ∈[0,1]表示强化学习中的折扣因子,e
i
(k+1)表示下一时刻智能体i的局部跟踪误差。5.根据权利要求1所述的一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,其特征在于,所述自适应动态规划算法:使用自适应动态参数来调整自适应动态规
划算法的动态因子ρ
l
,动态因子ρ
l
由小到大的变化,初始时,动态因子ρ
l
从接近0开始,...
【专利技术属性】
技术研发人员:纪良浩,卢建松,张翠娟,杨莎莎,郭兴,于凤敏,于南翔,李华青,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。