【技术实现步骤摘要】
一种基于Q-Learning的集群协同对抗方法
本专利技术专利属于多智能体集群和Q-Learning领域,特别是涉及一种基于Q-Learning的集群协同对抗方法。
技术介绍
集群对抗在是一种常见的现象,例如,海洋中鲨鱼群对其他鱼群的捕食,食肉动物对食草动物的捕食。近年来,随着人工智能的兴起,智能控制领域成为了热门研究领域,并且在无人机、无人车或移动机器人等智能体方面取得了重大的进步。智能体是具有自主行为和感知能力的个体。同理,多智能体系统就是多个智能体组成的可以完成一定任务的系统。现有的集群技术主要有两种,主要分为集群编队控制与集群搜索控制。集群编队控制主要是控制每个智能体,让它们按照预先设定好的路线和队形进行运动,去完成设定的任务,并在此期间保持智能体之间的稳定性和鲁棒性。比如:无人机机群的集群表演。集群搜索控制主要是控制智能体,让它们去搜索某个想要探测的区域,并且在最短的时间内实现搜索区域的最大化。但是,目前的集群技术在运行效率,利益最大化设计上还有所不足。
技术实现思路
本专利技术 ...
【技术保护点】
1.一种基于Q-Learning的集群协同对抗方法,其特征在于:包括以下步骤:/nS1.将集群中智能体的动力学系统描述为如下的二阶积分系统:/n
【技术特征摘要】
1.一种基于Q-Learning的集群协同对抗方法,其特征在于:包括以下步骤:
S1.将集群中智能体的动力学系统描述为如下的二阶积分系统:
其中pi为集群中第i个智能体的位置,vi为集群中第i个智能体的速度,ui为集群中第i个智能体的加速度即控制输入,n为集群中的智能体总个数;其中和表示对pi、vi求导;
S2.在集群中两个智能体之间的距离小于通信距离时,认为两个智能体之间建立连接,并共享位置与速度,集群中第i个智能体的邻居集合描述如下:
Nia={j∈V:||pj-pi||≤r,j≠i};
其中,V表示智能体的集合;r表示表示智能体点之间的通信距离,||·||是欧式范数;
S3.设存在两个互相抗衡关系的集群,第一个集群中包含的智能体为x_agent,第二个集群中的智能体为y_agent,需要使得y_agent在躲避x_agent的追捕过程中依然保持群体的稳定性,并且让x_agent自主决策;分别表示第i个x_agent的位置、速度和控制输入;同理,令分别表示第i个y_agent的位置、速度和控制输入;
则第i个x_agent的运动过程用以下等式描述:
其中,表示对求导,表示对求导,fQL(·)是QL的隐式表达式,si是QL的状态变量,QL表示Q-Learning,是期望速度,fe(·)是速度控制函数;也称为期望进攻速度,如果的大小是恒定的,则攻击速度等于攻击方向,为了减少x_agent的学习状态并加快算法的训练速度,需要离散化前进方向;
我们假定x_agent的群体为x_group,y_agent的群体的为y_group,在避开x_group的过程中,y_agent的方向主要由x_agent的进攻方向决定,为了与x_agent的Q学习状态的产生一致,对y_agent的回避方向和x_agent的进攻方向都进行了相同的离散量化操作;flocking算法以回避速度为输入,以获得y_agent的控制输入;第i个y_agent的过程描述如下:
其中,fa(·)代表y-agent的回避算法,输入Px和Vx是检测到的x-agent的位置和速度,表示第i个y-agent的位置,表示第i个y-agent的速度,输出量是期望的躲避速度,fF(·)是flocking算法的隐式表达式;
S4.在Flocking算法中,设α-agent表示智能体y_agent,β-agent表示智能体x-agent,γ-agent表示智能体y-agent运动的目的地;根据α-agent、β-agent、γ-agent分别产生计算出总的控制力如下:
用于保证集群内部拓扑结构的稳定,实现对y-agent的躲避,决定y-agent的运动方向;
S5.确定避障方式:
第一、x-agent在y-agent的探测范围r0内,但不在y-agent的避障范围d0内,由于此时距离过远,y-group集群能够完成集体的避障,而不需要破坏集群的内部拓扑结构进行各自的避障,在这种避障方式下,y-agent都具有相同的目的地,此时,进入步骤S6;
第二、x-agent在y-agent的避障范围内,由于距离过近,因此如果继续采取集体避障方式,则x-agent与y-agent极大可能会出现碰撞;因此,此时集体避障方式失效,而采取各自避障的方式,这种方式下,由于x-agent对集群中各y-agent的作用力不同,因此y-agent不完全都具有相同的运动方向,原来的拓扑结构会产生破裂,此时,根据S4的公式定义进行避障,根据S4的公式,用于保证y-group集群内部拓扑结构的稳定,让y-agent实现对x-group的躲避,决定y-agent的运动方向,其为垂直与x-agent的运动方向的方向;
S6.定义x-group与y-group两个集群之间的距离为:
其中为第j个y-agent,min()表示最小值函数;集群避障的基本思想为:y-group集群探测到x-group后;y-agent将根据探测到x-agent的运动方向,选择垂直与x-agent的运动方向的方向运动,此时目的地根据选择的运动方向计算得到;当一个y-agent探测到多个x-agent时,则所选择的运动方向为多个x-agent的运动方向的矢量的加权和,其权值表示x-gro...
【专利技术属性】
技术研发人员:王刚,肖剑,薛玉玺,黄治宇,田新宇,孙奇,成雷,王钰瑶,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。