基于Q-learning的多移动机器人编队方法技术

技术编号:32330224 阅读:13 留言:0更新日期:2022-02-16 18:37
本发明专利技术公开了一种基于Q

【技术实现步骤摘要】
基于Q

learning的多移动机器人编队方法


[0001]本专利技术涉及一种基于Q

learning的多移动机器人编队技术,将多移动机器人系统建立为一个算法博弈论模型,并用Q

learning强化学习算法实现编队问题,属于多智能体编队控制领域。

技术介绍

[0002]近年来,人工智能的分布式协同控制得到了越来越多的应用。其主要的研究方向是通过一定的方式将一组模块进行协同操作,使其能够完成人们所期望的任务和要求。多智能体系统协同控制为多机器人系统控制提供了丰富的理论支持。多机器人系统并不是多个机器人之间的简单线性组合,涉及的内容和原理也比较多,其功能和效果要远远好于单个机器人功能和效果的简单叠加。
[0003]在日常生活中,我们经常可以看到鱼群、昆虫群等生物间的编队行为,例如:迁徙、防御和集群等。近年来,多智能体系统(MASs)的编队问题和分布式协同控制在勘测、搜救等多个领域得到了广泛应用,从而成为许多科研人员的研究热点。很多国内外的学者根据生物界中各种生物多样的编队行为,对多智能体的编队控制进行了广泛的研究。
[0004]针对水下潜航器、无人车、无人机及导弹等编队控制问题,国内外学者已经做了比较多的研究。自主移动机器人具备丰富的环境感知能力、基于现场的动态路径规划能力、灵活避障能力、全局定位能力等,从而显现出来巨大的市场价值。随着任务场景越来越多样且工作环境越来越复杂,多移动机器人编队由于在作用范围、安全保障、工作效率等方面的优势成为了多智能体协同控制领域的研究热点。近几年兴起的强化学习算法对多移动机器人编队问题提供了新的解决思路,两者的结合是十分具有现实意义和应用前景的。

技术实现思路

[0005]技术问题:
[0006]多移动机器人的编队控制主要研究多移动机器人在各种不同环境下的定位、队形保持、队形切换和避障等问题。本专利技术专利实现了多移动机器人自主决策进行编队,主要用Q

learning强化学习算法解决了多移动机器人的队形保持和队形切换问题,并且实现了三角形、四边形及梯形等多种形状的刚性编队。
[0007]技术方案:
[0008]基于Q

learning的多移动机器人编队方法,其特征在于,包括以下步骤:
[0009]步骤1:建立多移动机器人系统的数学模型;
[0010]步骤2:对于一个多自主移动机器人系统的刚性编队,通过考虑机器人的位置、速度和转向率,得出了其目标函数,再通过将多自主移动机器人分为两类,从而将多自主移动机器人系统的刚性编队问题分为两类;
[0011]步骤3:基于算法博弈论理论方法进行自主移动机器人编队控制过程;
[0012]步骤4:证明步骤3中设计的算法博弈论模型为一个序数势博弈,并证明纳什均衡
点;
[0013]步骤5:将Q

learning强化学习算法与该多移动机器人系统编队问题相结合,从而求解博弈模型的纳什均衡点;
[0014]步骤6:将多移动机器人的编队问题分为两类,并用Q

learning算法进行解决。
[0015]进一步地,步骤1所述建立多移动机器人系统的数学模型具体包括:
[0016]步骤11.建立系统的绝对坐标系
[0017]一个多自主移动机器人系统中含有n个移动机器人,所有的移动机器人分为领导者和跟随者,并分别用L和F表示,系统的拓扑是一个无向图,设E={e
ij i,j∈N}为该系统连通图的邻接矩阵,其中e
ij
=1表示第i个移动机器人可以与第j个移动机器人交换信息,否则e
ij
=0;N
i
为第i个移动机器人的邻居的集合,构建该多自主移动机器人系统的绝对坐标系;
[0018]步骤12.建立移动机器人的动力学模型
[0019]根据步骤11中所述的绝对坐标系,第i个机器人的动力学模型如下所示:
[0020][0021]其中x
i
、y
i
分别表示第i个机器人的水平坐标和垂直坐标,v
i
表示该机器人的速度,θ
i
、φ
i
分别表示第i个机器人的航向角和转向率,因此,第i个机器人的位置表示为p=(x
i
,y
i
);
[0022]步骤13.定义运动约束
[0023]根据多自主移动机器人的动力学特性,运动约束定义为:
[0024][0025]其中|v
m
|和|φ
m
|分别表示最大速度和最大转向率的模值。
[0026]进一步地,步骤2的具体方法包括如下步骤:
[0027]步骤21.通过考虑机器人的位置、速度和转向率,得出了以下三个目标及其目标函数:
[0028]目标1、所有机器人必须跟踪共同参考状态p
r
,如果机器人i为领导者,那么||p
i

p
r
||2应该收敛到0;
[0029]目标2、所有机器人都应该保持一个队形,即机器人之间的相对距离应该是给定的d={d
ij
},其中d
ij
表示第i个机器人与第j个机器人之间的距离;
[0030]目标3、对于刚性编队,机器人应该以同样的速度移动,即相邻机器人的速度应该是相同的,因此,航向角度和速度也应该保持一致;
[0031]假设领导者可以得到目的地的位置信息p
r
及其邻居的信息,然后,通过实现||p
i

p
r
||2=0,领导者可以跟踪外部参考信号,因此,第i个机器人的目标函数是结合上述目标来定义的,具体如下:
[0032][0033][0034]其中,p
r
表示目的地的位置,p
i
、p
j
分别表示第i个机器人与第j个机器人的位置,φ
i
、φ
j
分别表示第i个机器人和第j个机器人的转向率,v
i
、v
j
分别表示第i个机器人和第j个机器人的速度。
[0035]步骤22.通过将移动机器人分为两类,从而将机器人的刚性编队问题分为两类,
[0036]对于领导者,目标最优问题是找出一种策略满足如下约束:
[0037][0038][0039]对于所有的追随者,目标最优问题是找出一种策略满足如下约束:
[0040][0041][0042]其中,|v
m
|、|φ
m
|分别表示机器人运动速度及转向率的最大模值。
[0043]进一步地,步骤3的具体方法包括如下步骤:
[0044]步骤31.设计一个算法博弈论模型
[0045](1)定义博弈本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Q

learning的多移动机器人编队方法,其特征在于,包括以下步骤:步骤1:建立多移动机器人系统的数学模型;步骤2:对于一个多自主移动机器人系统的刚性编队,通过考虑机器人的位置、速度和转向率,得出了其目标函数,再通过将多自主移动机器人分为两类,从而将多自主移动机器人系统的刚性编队问题分为两类;步骤3:基于算法博弈论理论方法进行自主移动机器人编队控制过程;步骤4:证明步骤3中设计的算法博弈论模型为一个序数势博弈,并证明纳什均衡点;步骤5:将Q

learning强化学习算法与该多移动机器人系统编队问题相结合,从而求解博弈模型的纳什均衡点;步骤6:将多移动机器人的编队问题分为两类,并用Q

learning算法进行解决。2.根据权利要求1所述的基于Q

learning的多移动机器人编队方法,其特征在于,步骤1所述建立多移动机器人系统的数学模型具体包括:步骤11.建立系统的绝对坐标系一个多自主移动机器人系统中含有n个移动机器人,所有的移动机器人分为领导者和跟随者,并分别用L和F表示,系统的拓扑是一个无向图,设E={e
ij i,j∈N}为该系统连通图的邻接矩阵,其中e
ij
=1表示第i个移动机器人可以与第j个移动机器人交换信息,否则e
ij
=0;N
i
为第i个移动机器人的邻居的集合,构建该多自主移动机器人系统的绝对坐标系;步骤12.建立移动机器人的动力学模型根据步骤11中所述的绝对坐标系,第i个机器人的动力学模型如下所示:其中x
i
、y
i
分别表示第i个机器人的水平坐标和垂直坐标,v
i
表示该机器人的速度,θ
i
、φ
i
分别表示第i个机器人的航向角和转向率,因此,第i个机器人的位置表示为p=(x
i
,y
i
);步骤13.定义运动约束根据多自主移动机器人的动力学特性,运动约束定义为:其中|v
m
|和|φ
m
|分别表示最大速度和最大转向率的模值。3.根据权利要求1所述的基于Q

learning的多移动机器人编队方法,其特征在于,步骤2的具体方法包括如下步骤:步骤21.通过考虑机器人的位置、速度和转向率,得出了以下三个目标及其目标函数:目标1、所有机器人必须跟踪共同参考状态p
r
,如果机器人i为领导者,那么||p
i

p
r
||2应该收敛到0;目标2、所有机器人都应该保持一个队形,即机器人之间的相对距离应该是给定的d={d
ij
},其中d
ij
表示第i个机器人与第j个机器人之间的距离;目标3、对于刚性编队,机器人应该以同样的速度移动,即相邻机器人的速度应该是相
同的,因此,航向角度和速度也应该保持一致;假设领导者可以得到目的地的位置信息p
r
及其邻居的信息,然后,通过实现||p
i

p
r
||2=0,领导者可以跟踪外部参考信号,因此,第i个机器人的目标函数是结合上述目标来定义的,具体如下:的,具体如下:其中,p
r
表示目的地的位置,p
i
、p
j
分别表示第i个机器人与第j个机器人的位置,φ
i
、φ
j
分别表示第i个机器人和第j个机器人的转向率,v
i
、v
j
分别表示第i个机器人和第j个机器人的速度;步骤22.通过将移动机器人分为两类,从而将机器人的刚性编队问题分为两类,对于领导者,目标最优问题是找出一种策略满足如下约束:对于领导者,目标最优问题是找出一种策略满足如下约束:对于所有的追随者,目标最优问题是找出一种策略满足如下约束:对于所有的追随者,目标最优问题是找出一种策略满足如下约束:其中,|v
m
|、|φ
m
|分别表示机器人运动速度及转向率的最大模值。4.根据权利要求1所述的基于Q

learning的多移动机器人编队方法,其特征在于,步骤3的具体方法包括如下步骤:步骤31.设计一个算法博弈论模型(1)定义博弈参与者为所有参与该博弈过程的成员,即多自主移动机器人系统中的每个移动机器人;(2)定义状态空间:对于状态空间S中的任意状态s∈S,即s=(s1,s2,

,s
n
),对于任意一个移动机器人的状态表示为s
i
=(z
i
,g
i
),z
i
表示移动机器人的真实状态值,表示第i个移动机器人对所有移动机器人真实状态值的估计值,表示第i个移动机器人对任意第k个移动机器人的z
i
的估计,对于任意的第k个移动机器人,所有移动机器人对其估计值的总和等于它真实值z
i
的若干倍,即(3)定义行为空间:对于第i个移动机器人,其行为a

【专利技术属性】
技术研发人员:马蓓薛磊刘剑武永宝
申请(专利权)人:南京云智控产业技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1