一种基于Q-Learning的集群协同对抗方法技术

技术编号：26222078 阅读：38 留言：0更新日期：2020-11-04 10:51

本发明专利技术公开了一种基于Q‑Learning的集群协同对抗方法，包括以下步骤：给出集群中智能体的动力学系统；确定集群中智能体的邻居集合；给定两个互相抗衡关系的集群的运动过程；在Flocking算法中计算控制力；确定避障方式；选择避障方式，定义集群之间的距离；确定集群速度；设计相对极坐标；设计协同驱赶的状态空间；设计集群的行为空间；设计奖罚机制；对于Q‑learning学习算法，给定其Q值表更新函数。本发明专利技术借助Q‑Learning技术去训练和学习集群控制算法，有效提高集群运行效率，使利益达到最大化，并能够保证集群的稳定性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Q-Learning的集群协同对抗方法
本专利技术专利属于多智能体集群和Q-Learning领域，特别是涉及一种基于Q-Learning的集群协同对抗方法。
技术介绍
集群对抗在是一种常见的现象，例如，海洋中鲨鱼群对其他鱼群的捕食，食肉动物对食草动物的捕食。近年来，随着人工智能的兴起，智能控制领域成为了热门研究领域，并且在无人机、无人车或移动机器人等智能体方面取得了重大的进步。智能体是具有自主行为和感知能力的个体。同理，多智能体系统就是多个智能体组成的可以完成一定任务的系统。现有的集群技术主要有两种，主要分为集群编队控制与集群搜索控制。集群编队控制主要是控制每个智能体，让它们按照预先设定好的路线和队形进行运动，去完成设定的任务，并在此期间保持智能体之间的稳定性和鲁棒性。比如：无人机机群的集群表演。集群搜索控制主要是控制智能体，让它们去搜索某个想要探测的区域，并且在最短的时间内实现搜索区域的最大化。但是，目前的集群技术在运行效率，利益最大化设计上还有所不足。
技术实现思路
本专利技术...

【技术保护点】
1.一种基于Q-Learning的集群协同对抗方法，其特征在于：包括以下步骤：/nS1.将集群中智能体的动力学系统描述为如下的二阶积分系统：/n

【技术特征摘要】
1.一种基于Q-Learning的集群协同对抗方法，其特征在于：包括以下步骤：
S1.将集群中智能体的动力学系统描述为如下的二阶积分系统：

其中pi为集群中第i个智能体的位置，vi为集群中第i个智能体的速度，ui为集群中第i个智能体的加速度即控制输入，n为集群中的智能体总个数；其中和表示对pi、vi求导；
S2.在集群中两个智能体之间的距离小于通信距离时，认为两个智能体之间建立连接，并共享位置与速度，集群中第i个智能体的邻居集合描述如下：
Nia＝{j∈V:||pj-pi||≤r,j≠i}；
其中，V表示智能体的集合；r表示表示智能体点之间的通信距离，||·||是欧式范数；
S3.设存在两个互相抗衡关系的集群，第一个集群中包含的智能体为x_agent，第二个集群中的智能体为y_agent，需要使得y_agent在躲避x_agent的追捕过程中依然保持群体的稳定性，并且让x_agent自主决策；分别表示第i个x_agent的位置、速度和控制输入；同理，令分别表示第i个y_agent的位置、速度和控制输入；
则第i个x_agent的运动过程用以下等式描述：

其中，表示对求导，表示对求导，fQL(·)是QL的隐式表达式，si是QL的状态变量，QL表示Q-Learning，是期望速度，fe(·)是速度控制函数；也称为期望进攻速度，如果的大小是恒定的，则攻击速度等于攻击方向，为了减少x_agent的学习状态并加快算法的训练速度，需要离散化前进方向；
我们假定x_agent的群体为x_group，y_agent的群体的为y_group，在避开x_group的过程中，y_agent的方向主要由x_agent的进攻方向决定，为了与x_agent的Q学习状态的产生一致，对y_agent的回避方向和x_agent的进攻方向都进行了相同的离散量化操作；flocking算法以回避速度为输入，以获得y_agent的控制输入；第i个y_agent的过程描述如下：

其中，fa(·)代表y-agent的回避算法，输入Px和Vx是检测到的x-agent的位置和速度，表示第i个y-agent的位置，表示第i个y-agent的速度，输出量是期望的躲避速度，fF(·)是flocking算法的隐式表达式；
S4.在Flocking算法中，设α-agent表示智能体y_agent，β-agent表示智能体x-agent，γ-agent表示智能体y-agent运动的目的地；根据α-agent、β-agent、γ-agent分别产生计算出总的控制力如下：

用于保证集群内部拓扑结构的稳定，实现对y-agent的躲避，决定y-agent的运动方向；
S5.确定避障方式：
第一、x-agent在y-agent的探测范围r0内，但不在y-agent的避障范围d0内，由于此时距离过远，y-group集群能够完成集体的避障，而不需要破坏集群的内部拓扑结构进行各自的避障，在这种避障方式下，y-agent都具有相同的目的地，此时，进入步骤S6；
第二、x-agent在y-agent的避障范围内，由于距离过近，因此如果继续采取集体避障方式，则x-agent与y-agent极大可能会出现碰撞；因此，此时集体避障方式失效，而采取各自避障的方式，这种方式下，由于x-agent对集群中各y-agent的作用力不同，因此y-agent不完全都具有相同的运动方向，原来的拓扑结构会产生破裂,此时，根据S4的公式定义进行避障，根据S4的公式，用于保证y-group集群内部拓扑结构的稳定，让y-agent实现对x-group的躲避，决定y-agent的运动方向，其为垂直与x-agent的运动方向的方向；
S6.定义x-group与y-group两个集群之间的距离为：

其中为第j个y-agent，min()表示最小值函数；集群避障的基本思想为：y-group集群探测到x-group后；y-agent将根据探测到x-agent的运动方向，选择垂直与x-agent的运动方向的方向运动，此时目的地根据选择的运动方向计算得到；当一个y-agent探测到多个x-agent时，则所选择的运动方向为多个x-agent的运动方向的矢量的加权和，其权值表示x-gro...

【专利技术属性】
技术研发人员：王刚，肖剑，薛玉玺，黄治宇，田新宇，孙奇，成雷，王钰瑶，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人