一种基于Q-Learning的集群协同对抗方法技术

技术编号:26222078 阅读:38 留言:0更新日期:2020-11-04 10:51
本发明专利技术公开了一种基于Q‑Learning的集群协同对抗方法,包括以下步骤:给出集群中智能体的动力学系统;确定集群中智能体的邻居集合;给定两个互相抗衡关系的集群的运动过程;在Flocking算法中计算控制力;确定避障方式;选择避障方式,定义集群之间的距离;确定集群速度;设计相对极坐标;设计协同驱赶的状态空间;设计集群的行为空间;设计奖罚机制;对于Q‑learning学习算法,给定其Q值表更新函数。本发明专利技术借助Q‑Learning技术去训练和学习集群控制算法,有效提高集群运行效率,使利益达到最大化,并能够保证集群的稳定性。

【技术实现步骤摘要】
一种基于Q-Learning的集群协同对抗方法
本专利技术专利属于多智能体集群和Q-Learning领域,特别是涉及一种基于Q-Learning的集群协同对抗方法。
技术介绍
集群对抗在是一种常见的现象,例如,海洋中鲨鱼群对其他鱼群的捕食,食肉动物对食草动物的捕食。近年来,随着人工智能的兴起,智能控制领域成为了热门研究领域,并且在无人机、无人车或移动机器人等智能体方面取得了重大的进步。智能体是具有自主行为和感知能力的个体。同理,多智能体系统就是多个智能体组成的可以完成一定任务的系统。现有的集群技术主要有两种,主要分为集群编队控制与集群搜索控制。集群编队控制主要是控制每个智能体,让它们按照预先设定好的路线和队形进行运动,去完成设定的任务,并在此期间保持智能体之间的稳定性和鲁棒性。比如:无人机机群的集群表演。集群搜索控制主要是控制智能体,让它们去搜索某个想要探测的区域,并且在最短的时间内实现搜索区域的最大化。但是,目前的集群技术在运行效率,利益最大化设计上还有所不足。
技术实现思路
本专利技术的目的在于克服现有技本文档来自技高网...

【技术保护点】
1.一种基于Q-Learning的集群协同对抗方法,其特征在于:包括以下步骤:/nS1.将集群中智能体的动力学系统描述为如下的二阶积分系统:/n

【技术特征摘要】
1.一种基于Q-Learning的集群协同对抗方法,其特征在于:包括以下步骤:
S1.将集群中智能体的动力学系统描述为如下的二阶积分系统:



其中pi为集群中第i个智能体的位置,vi为集群中第i个智能体的速度,ui为集群中第i个智能体的加速度即控制输入,n为集群中的智能体总个数;其中和表示对pi、vi求导;
S2.在集群中两个智能体之间的距离小于通信距离时,认为两个智能体之间建立连接,并共享位置与速度,集群中第i个智能体的邻居集合描述如下:
Nia={j∈V:||pj-pi||≤r,j≠i};
其中,V表示智能体的集合;r表示表示智能体点之间的通信距离,||·||是欧式范数;
S3.设存在两个互相抗衡关系的集群,第一个集群中包含的智能体为x_agent,第二个集群中的智能体为y_agent,需要使得y_agent在躲避x_agent的追捕过程中依然保持群体的稳定性,并且让x_agent自主决策;分别表示第i个x_agent的位置、速度和控制输入;同理,令分别表示第i个y_agent的位置、速度和控制输入;
则第i个x_agent的运动过程用以下等式描述:



其中,表示对求导,表示对求导,fQL(·)是QL的隐式表达式,si是QL的状态变量,QL表示Q-Learning,是期望速度,fe(·)是速度控制函数;也称为期望进攻速度,如果的大小是恒定的,则攻击速度等于攻击方向,为了减少x_agent的学习状态并加快算法的训练速度,需要离散化前进方向;
我们假定x_agent的群体为x_group,y_agent的群体的为y_group,在避开x_group的过程中,y_agent的方向主要由x_agent的进攻方向决定,为了与x_agent的Q学习状态的产生一致,对y_agent的回避方向和x_agent的进攻方向都进行了相同的离散量化操作;flocking算法以回避速度为输入,以获得y_agent的控制输入;第i个y_agent的过程描述如下:



其中,fa(·)代表y-agent的回避算法,输入Px和Vx是检测到的x-agent的位置和速度,表示第i个y-agent的位置,表示第i个y-agent的速度,输出量是期望的躲避速度,fF(·)是flocking算法的隐式表达式;
S4.在Flocking算法中,设α-agent表示智能体y_agent,β-agent表示智能体x-agent,γ-agent表示智能体y-agent运动的目的地;根据α-agent、β-agent、γ-agent分别产生计算出总的控制力如下:




用于保证集群内部拓扑结构的稳定,实现对y-agent的躲避,决定y-agent的运动方向;
S5.确定避障方式:
第一、x-agent在y-agent的探测范围r0内,但不在y-agent的避障范围d0内,由于此时距离过远,y-group集群能够完成集体的避障,而不需要破坏集群的内部拓扑结构进行各自的避障,在这种避障方式下,y-agent都具有相同的目的地,此时,进入步骤S6;
第二、x-agent在y-agent的避障范围内,由于距离过近,因此如果继续采取集体避障方式,则x-agent与y-agent极大可能会出现碰撞;因此,此时集体避障方式失效,而采取各自避障的方式,这种方式下,由于x-agent对集群中各y-agent的作用力不同,因此y-agent不完全都具有相同的运动方向,原来的拓扑结构会产生破裂,此时,根据S4的公式定义进行避障,根据S4的公式,用于保证y-group集群内部拓扑结构的稳定,让y-agent实现对x-group的躲避,决定y-agent的运动方向,其为垂直与x-agent的运动方向的方向;
S6.定义x-group与y-group两个集群之间的距离为:



其中为第j个y-agent,min()表示最小值函数;集群避障的基本思想为:y-group集群探测到x-group后;y-agent将根据探测到x-agent的运动方向,选择垂直与x-agent的运动方向的方向运动,此时目的地根据选择的运动方向计算得到;当一个y-agent探测到多个x-agent时,则所选择的运动方向为多个x-agent的运动方向的矢量的加权和,其权值表示x-gro...

【专利技术属性】
技术研发人员:王刚肖剑薛玉玺黄治宇田新宇孙奇成雷王钰瑶
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1