【技术实现步骤摘要】
面向多非完整约束移动机器人的强化学习行为控制方法
[0001]本专利技术涉及智能机器人
,特别是一种面向多非完整约束移动机器人的强化学习行为控制方法。
技术介绍
[0002]近年来,非完整约束移动机器人在各个领域得到了广泛应用。由于非完整约束移动机器人不能通过使用任意时不变平滑状态反馈控制律来稳定,因此它的跟踪控制问题被优先地研究了。通过群体协作,多非完整约束移动机器人通常比单个机器人具有更好的任务性能。然而,非完整约束往往会影响团队表现,如何在非完整约束下实施协作控制提出了一个具有挑战性的控制问题。
[0003]现有的多非完整约束移动机器人协助控制通常基于集中式或分布式框架。集中式的方法使用一个集中式控制器激活团队行为和避免违反非完整约束。由于控制器必须拿到全局信息,集中式方法的可扩展性不令人满意。为此,分布式方法通过使用一组具有拓扑结构的网络化控制器来避免使用集中式控制器。大多数分布式方法只解决具有唯一任务或控制目标的协作控制问题。然而,多任务冲突在协作控制问题中很常见,且不容忽视。行为控制方法是最有效的解决方案之一。最初的行为控制方法为一种分层框架,低层次的行为只有在所有高层次行为完成时才会被执行。为了提高任务执行效率,通过对具有可调整权重的行为命令求和,提出了一种运动模式行为控制框架,但没有完成任何行为完整执行。通过结合上述两种方法的优点,提出了一种零空间行为控制方法,其不仅完成最高优先级行为,而且通过零空间投影执行部分低优先级的行为。尽管零空间行为控制方法被扩展到不同的多智能体系统场景中,但它 ...
【技术保护点】
【技术特征摘要】
1.面向多非完整约束移动机器人的强化学习行为控制方法,其特征在于:包括以下步骤:步骤S1,基于非完整约束矩阵建立多非完整约束移动机器人的运动学模型,基于欧拉拉格朗日方程建立多非完整约束移动机器人的动力学模型,并根据所建立的运动学模型构建基本行为,同时通过零空间投影技术,将所设计的基本行为以不同的优先级顺序组合成为复合行为;步骤S2,将行为优先级切换建模为一个分布式部分可观测的马尔科夫决策过程,在集中式训练分布式执行的强化学习算法框架下,设置复合行为的参考速度指令作为强化学习算法的动作集合,选取非完整约束机器人的位置和优先级,以及其邻居机器人的位置和优先级作为强化学习算法的观测集合,设计奖励函数,从而构建分布式强化学习任务监管器DRLMSs;步骤S3,以平衡控制性能和控制损耗为目标,引入辨识者
‑
执行者
‑
评论家强化学习算法,在线地辨识未知动力学模型、实施控制策略以及评估控制性能,从而设计强化学习控制器RLCs;步骤S4,基于自适应控制理论,设计自适应补偿器,以维持最优的控制性能和实时抵消饱和效应。2.根据权利要求1所述的面向多非完整约束移动机器人的强化学习行为控制方法,其特征在于:步骤S1具体包括如下步骤:步骤S11:多非完整约束移动机器人运动学建模考虑一组N(N>2)的非完整约束移动机器人,其中每个机器人由差速轮驱动,i=1,...,N;第i个非完整约束移动机器人的广义速度表示为其中,其中,和分别是线速度和角速度,和分别是左右轮的线速度,是左右轮间的距离,表示实数集合;然后,第i个非完整约束移动机器人的运动学方程表示为其中,表示广义状态,和分别是位置和方向,表示非完整约束矩阵;
此外,第i个非完整约束移动机器人在惯性坐标系下的运动学方程为其中,是轮半径,表示惯性坐标性下的非完整约束矩阵,和分别是左右轮的旋转速度;步骤S12:多非完整约束移动机器人动力学建模通过使用欧拉拉格朗日方程,第i个非完整约束移动机器人的动力学模型推导为其中,是惯性矩阵,是科氏力和向心力矩阵,G
i
(x
i
)是重力矩阵,表示未知非线性项,是可设计的输入增益矩阵,是控制输入,是非完整约束力;首先,公式(3)的微分形式推导如下其中,表示S
i
(x
i
)的微分,是轮的角加速度;然后,将公式(3)和(5)代入(4),并左乘得到以下方程其中,其中,其中,根据假设2,公式(6)改写为其中,是精确项,是非精确项;假设1:多非完整约束移动机器人系统工作在一个静态的场景中,所有非机器人的障碍物均为静态且固定的;
假设2:输入增益矩阵E
i
(x
i
)始终满足设计为步骤S13:多非完整约束移动机器人基本行为构建假设每一个非完整约束移动机器人均有M个基本行为,其中第i个非完整约束移动机器人的第k个基本行为可以使用一个任务变量人的第k个基本行为可以使用一个任务变量进行数学建模如下σ
i,k
=g
i,k
(x
i
),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)其中,表示任务函数;然后,任务变量σ
i,k
的微分形式表示为其中,是任务的雅克比矩阵;最后,第i个非完整约束移动机器人的第k个基本行为的参考速度指令可以表示为其中,是任务的雅克比矩阵J
i,k
的右伪逆,是期望的任务函数,是任务增益,是任务误差;在不失一般性的前提下,避障行为、分布式编队行为和分布式重构行为设计如下:避障行为:避障行为是一种局部行为,旨在确保非完整约束移动机器人避开路径附近的障碍物,其相应的任务函数、期望任务和任务雅克比矩阵分别表示为:的障碍物,其相应的任务函数、期望任务和任务雅克比矩阵分别表示为:的障碍物,其相应的任务函数、期望任务和任务雅克比矩阵分别表示为:其中,表示第i个非完整约束移动机器人与障碍物的最小距离,d
OA
为安全距离,为安全距离,是最小距离的相对位置,是避障行为期望的方向,+和
‑
分别表示障碍物在第i个非完整约束移动机器人的左边和右边;分布式编队行为:分布式编队行为是一种分布式协作行为,旨在确保多非完整约束移动机器人仅通过使用邻居的状态形成所需的队形,其相应的任务函数、期望任务和任务雅克比矩阵分别表示为:
其中,是分布式编队行为的估计状态,其通过设计具有如下更新率的自适应估计器来估计:其中,κ
DF
是一个正常数,是编队的相对位置,表示领航者的状态,表示第i个非完整约束移动机器人的邻居;分布式重构行为:分布式重构行为是一种分布式协作行为,旨在确保多非完整约束移动机器人仅通过使用邻居的状态重构所需的队形,其相应的任务函数、期望任务和任务雅克比矩阵分别表示为:克比矩阵分别表示为:克比矩阵分别表示为:其中,是分布式编队行为的估计状态,其通过设计具有如下更新率的自适应估计器来估计:其中,κ
DR
是一个正常数,是编队重构矩阵;步骤S14:多非完整约束移动机器人复合行为构建一个复合任务是多个基本行为以一定的优先级顺序的组合;设定为第i个非完整约束移动机器人的任务函数,其中k
m
∈N
M
,N
M
={1,...,M},m
k
表示任务空间的维度,M表示任务的数量;定义与时间相关的优先级函数g
i
(k
m
,t):N
M
×
[0,∞]
→
N
M
;同时,定义一个具有如下规则的任务层次结构:1)一个具有g
i
(k
α
)优先级的任务k
α
不能干扰具有g
i
(k
β
)优先级的任务k
β
,如果g
i
(k
α
)≥g
i
(k
β
),k
α
≠k
β
;2)从速度到任务速度的映射关系由任务的雅可比矩阵表示;3)具有最低优先级任务m
M
的维度可能大于因此要确保维度m
n
大于所有任务的总维度;4)g
i
(k
m
)的值由任务监管器根据任务的需求和传感器信息进行分配;
通过给基本任务分配给定的优先级,t时刻复合任务的速度表示为通过给基本任务分配给定的优先级,t时刻复合任务的速度表示为通过给基本任务分配给定的优先级,t时刻复合任务的速度表示为其中,是行为优先级,是零空间投影的增广雅克比矩阵。3.根据权利要求1所述的面向多非完整约束移动机器人的强化学习行为控制方法,其特征在于:所述步骤S2具体为:定义集中式训练环境为ε,全局的状态为其中是联合的位置,是联合的优先级,是编队标志位,S表示全局状态集合;定义b
i,t
={v
r,i,t
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。