当前位置: 首页 > 专利查询>福州大学专利>正文

面向多非完整约束移动机器人的强化学习行为控制方法技术

技术编号:37479903 阅读:9 留言:0更新日期:2023-05-07 09:20
本发明专利技术提供了面向多非完整约束移动机器人的强化学习行为控制方法,基于非完整约束矩阵建立多非完整约束移动机器人的运动学模型,基于欧拉拉格朗日方程建立多非完整约束移动机器人的动力学模型,并根据所建立的运动学模型构建基本行为,同时通过零空间投影技术,将所设计的基本行为以不同的优先级顺序组合成为复合行为;应用本技术方案不仅可避免在任务执行阶段使用集中式单元,而且提升了行为优先级切换的动态性和智能性。级切换的动态性和智能性。级切换的动态性和智能性。

【技术实现步骤摘要】
面向多非完整约束移动机器人的强化学习行为控制方法


[0001]本专利技术涉及智能机器人
,特别是一种面向多非完整约束移动机器人的强化学习行为控制方法。

技术介绍

[0002]近年来,非完整约束移动机器人在各个领域得到了广泛应用。由于非完整约束移动机器人不能通过使用任意时不变平滑状态反馈控制律来稳定,因此它的跟踪控制问题被优先地研究了。通过群体协作,多非完整约束移动机器人通常比单个机器人具有更好的任务性能。然而,非完整约束往往会影响团队表现,如何在非完整约束下实施协作控制提出了一个具有挑战性的控制问题。
[0003]现有的多非完整约束移动机器人协助控制通常基于集中式或分布式框架。集中式的方法使用一个集中式控制器激活团队行为和避免违反非完整约束。由于控制器必须拿到全局信息,集中式方法的可扩展性不令人满意。为此,分布式方法通过使用一组具有拓扑结构的网络化控制器来避免使用集中式控制器。大多数分布式方法只解决具有唯一任务或控制目标的协作控制问题。然而,多任务冲突在协作控制问题中很常见,且不容忽视。行为控制方法是最有效的解决方案之一。最初的行为控制方法为一种分层框架,低层次的行为只有在所有高层次行为完成时才会被执行。为了提高任务执行效率,通过对具有可调整权重的行为命令求和,提出了一种运动模式行为控制框架,但没有完成任何行为完整执行。通过结合上述两种方法的优点,提出了一种零空间行为控制方法,其不仅完成最高优先级行为,而且通过零空间投影执行部分低优先级的行为。尽管零空间行为控制方法被扩展到不同的多智能体系统场景中,但它具有隐含集中式的固有缺陷,即它依赖于集中式的任务监管器来分配行为优先级。为此,首次提出了一种分布式行为控制框架用于聚集控制,但缺乏任务和控制器稳定性分析。接着,分布式行为控制的任务误差被证明是渐近稳定的,但它仅限于无障碍环境中的三角形编队。然后,为分布式行为控制设计了一组非线性快速终端滑模控制器,实现了跟踪误差的有限时间收敛。最后,通过设计固定时间估计器和终端滑模控制律,任务和跟踪误差都实现固定时间稳定。
[0004]然而,现有分布式行为控制方法仍然存在以下缺点:1、行为的优先级是固定且预先设置的,这会导致任务动态性能不佳,严重依赖人类智能。2、缺乏最优性和智能性,这导致过度消耗控制资源以保持良好的控制性能,特别是在切换行为优先级时。3、控制输入均没有饱和约束限制,这导致执行器在切换行为优先级之后可能违反物理限制。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种面向多非完整约束移动机器人的强化学习行为控制方法,基于辨识者

执行者

评论家算法设计了强化学习控制器,在线地学习系统的未知动力学和最优控制策略,以保证在任务执行过程中,控制性能和控制损耗始终保持平衡,并且还考虑了输入饱和约束,避免执行器违反实际物理限制。
[0006]为实现上述目的,本专利技术采用如下技术方案:面向多非完整约束移动机器人的强化学习行为控制方法,包括以下步骤:
[0007]步骤S1,基于非完整约束矩阵建立多非完整约束移动机器人的运动学模型,基于欧拉拉格朗日方程建立多非完整约束移动机器人的动力学模型,并根据所建立的运动学模型构建基本行为,同时通过零空间投影技术,将所设计的基本行为以不同的优先级顺序组合成为复合行为;
[0008]步骤S2,将行为优先级切换建模为一个分布式部分可观测的马尔科夫决策过程,在集中式训练分布式执行的强化学习算法框架下,设置复合行为的参考速度指令作为强化学习算法的动作集合,选取非完整约束机器人的位置和优先级,以及其邻居机器人的位置和优先级作为强化学习算法的观测集合,设计奖励函数,从而构建分布式强化学习任务监管器DRLMSs;
[0009]步骤S3,以平衡控制性能和控制损耗为目标,引入辨识者

执行者

评论家强化学习算法,在线地辨识未知动力学模型、实施控制策略以及评估控制性能,从而设计强化学习控制器RLCs;
[0010]步骤S4,基于自适应控制理论,设计自适应补偿器,以维持最优的控制性能和实时抵消饱和效应。
[0011]在一较佳的实施例中,步骤S1具体包括如下步骤:
[0012]步骤S11:多非完整约束移动机器人运动学建模
[0013]考虑一组N(N>2)的非完整约束移动机器人,其中每个机器人由差速轮驱动,i=1,...,N;第i个非完整约束移动机器人的广义速度表示为
[0014][0015]其中,和分别是线速度和角速度,和分别是左右轮的线速度,是左右轮间的距离,表示实数集合;
[0016]然后,第i个非完整约束移动机器人的运动学方程表示为
[0017][0018]其中,表示广义状态,和分别是位置和方向,表示非完整约束矩阵;
[0019]此外,第i个非完整约束移动机器人在惯性坐标系下的运动学方程为
[0020][0021]其中,是轮半径,表示惯性坐标性下的非完整约束矩阵,和分别是左右轮的旋转速度;
[0022]步骤S12:多非完整约束移动机器人动力学建模
[0023]通过使用欧拉拉格朗日方程,第i个非完整约束移动机器人的动力学模型推导为
[0024][0025]其中,是惯性矩阵,是科氏力和向心力矩阵,G
i
(x
i
)是重力矩阵,表示未知非线性项,是可设计的输入增益矩阵,是控制输入,是非完整约束力;
[0026]首先,公式(3)的微分形式推导如下
[0027][0028]其中,表示S
i
(x
i
)的微分,是轮的角加速度;
[0029]然后,将公式(3)和(5)代入(4),并左乘得到以下方程
[0030][0031]其中,其中,其中,
[0032]根据假设2,公式(6)改写为
[0033][0034]其中,是精确项,是非精确项;
[0035]假设1:多非完整约束移动机器人系统工作在一个静态的场景中,所有非机器人的障碍物均为静态且固定的;
[0036]假设2:输入增益矩阵E
i
(x
i
)始终满足设计为步骤S13:多非完整约束移动机器人基本行为构建
[0037]假设每一个非完整约束移动机器人均有M个基本行为,其中第i个非完整约束移动
机器人的第k个基本行为可以使用一个任务变量进行数学建模如下
[0038][0039]其中,g
i,k
(
·
):表示任务函数;
[0040]然后,任务变量σ
i,k
的微分形式表示为
[0041][0042]其中,是任务的雅克比矩阵;
[0043]最后,第i个非完整约束移动机器人的第k个基本行为的参考速度指令可以表示为
[0044][0045]其中,是任务的雅克比矩阵J
i,k
的右伪逆,是期望的任务函数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向多非完整约束移动机器人的强化学习行为控制方法,其特征在于:包括以下步骤:步骤S1,基于非完整约束矩阵建立多非完整约束移动机器人的运动学模型,基于欧拉拉格朗日方程建立多非完整约束移动机器人的动力学模型,并根据所建立的运动学模型构建基本行为,同时通过零空间投影技术,将所设计的基本行为以不同的优先级顺序组合成为复合行为;步骤S2,将行为优先级切换建模为一个分布式部分可观测的马尔科夫决策过程,在集中式训练分布式执行的强化学习算法框架下,设置复合行为的参考速度指令作为强化学习算法的动作集合,选取非完整约束机器人的位置和优先级,以及其邻居机器人的位置和优先级作为强化学习算法的观测集合,设计奖励函数,从而构建分布式强化学习任务监管器DRLMSs;步骤S3,以平衡控制性能和控制损耗为目标,引入辨识者

执行者

评论家强化学习算法,在线地辨识未知动力学模型、实施控制策略以及评估控制性能,从而设计强化学习控制器RLCs;步骤S4,基于自适应控制理论,设计自适应补偿器,以维持最优的控制性能和实时抵消饱和效应。2.根据权利要求1所述的面向多非完整约束移动机器人的强化学习行为控制方法,其特征在于:步骤S1具体包括如下步骤:步骤S11:多非完整约束移动机器人运动学建模考虑一组N(N>2)的非完整约束移动机器人,其中每个机器人由差速轮驱动,i=1,...,N;第i个非完整约束移动机器人的广义速度表示为其中,其中,和分别是线速度和角速度,和分别是左右轮的线速度,是左右轮间的距离,表示实数集合;然后,第i个非完整约束移动机器人的运动学方程表示为其中,表示广义状态,和分别是位置和方向,表示非完整约束矩阵;
此外,第i个非完整约束移动机器人在惯性坐标系下的运动学方程为其中,是轮半径,表示惯性坐标性下的非完整约束矩阵,和分别是左右轮的旋转速度;步骤S12:多非完整约束移动机器人动力学建模通过使用欧拉拉格朗日方程,第i个非完整约束移动机器人的动力学模型推导为其中,是惯性矩阵,是科氏力和向心力矩阵,G
i
(x
i
)是重力矩阵,表示未知非线性项,是可设计的输入增益矩阵,是控制输入,是非完整约束力;首先,公式(3)的微分形式推导如下其中,表示S
i
(x
i
)的微分,是轮的角加速度;然后,将公式(3)和(5)代入(4),并左乘得到以下方程其中,其中,其中,根据假设2,公式(6)改写为其中,是精确项,是非精确项;假设1:多非完整约束移动机器人系统工作在一个静态的场景中,所有非机器人的障碍物均为静态且固定的;
假设2:输入增益矩阵E
i
(x
i
)始终满足设计为步骤S13:多非完整约束移动机器人基本行为构建假设每一个非完整约束移动机器人均有M个基本行为,其中第i个非完整约束移动机器人的第k个基本行为可以使用一个任务变量人的第k个基本行为可以使用一个任务变量进行数学建模如下σ
i,k
=g
i,k
(x
i
),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)其中,表示任务函数;然后,任务变量σ
i,k
的微分形式表示为其中,是任务的雅克比矩阵;最后,第i个非完整约束移动机器人的第k个基本行为的参考速度指令可以表示为其中,是任务的雅克比矩阵J
i,k
的右伪逆,是期望的任务函数,是任务增益,是任务误差;在不失一般性的前提下,避障行为、分布式编队行为和分布式重构行为设计如下:避障行为:避障行为是一种局部行为,旨在确保非完整约束移动机器人避开路径附近的障碍物,其相应的任务函数、期望任务和任务雅克比矩阵分别表示为:的障碍物,其相应的任务函数、期望任务和任务雅克比矩阵分别表示为:的障碍物,其相应的任务函数、期望任务和任务雅克比矩阵分别表示为:其中,表示第i个非完整约束移动机器人与障碍物的最小距离,d
OA
为安全距离,为安全距离,是最小距离的相对位置,是避障行为期望的方向,+和

分别表示障碍物在第i个非完整约束移动机器人的左边和右边;分布式编队行为:分布式编队行为是一种分布式协作行为,旨在确保多非完整约束移动机器人仅通过使用邻居的状态形成所需的队形,其相应的任务函数、期望任务和任务雅克比矩阵分别表示为:
其中,是分布式编队行为的估计状态,其通过设计具有如下更新率的自适应估计器来估计:其中,κ
DF
是一个正常数,是编队的相对位置,表示领航者的状态,表示第i个非完整约束移动机器人的邻居;分布式重构行为:分布式重构行为是一种分布式协作行为,旨在确保多非完整约束移动机器人仅通过使用邻居的状态重构所需的队形,其相应的任务函数、期望任务和任务雅克比矩阵分别表示为:克比矩阵分别表示为:克比矩阵分别表示为:其中,是分布式编队行为的估计状态,其通过设计具有如下更新率的自适应估计器来估计:其中,κ
DR
是一个正常数,是编队重构矩阵;步骤S14:多非完整约束移动机器人复合行为构建一个复合任务是多个基本行为以一定的优先级顺序的组合;设定为第i个非完整约束移动机器人的任务函数,其中k
m
∈N
M
,N
M
={1,...,M},m
k
表示任务空间的维度,M表示任务的数量;定义与时间相关的优先级函数g
i
(k
m
,t):N
M
×
[0,∞]

N
M
;同时,定义一个具有如下规则的任务层次结构:1)一个具有g
i
(k
α
)优先级的任务k
α
不能干扰具有g
i
(k
β
)优先级的任务k
β
,如果g
i
(k
α
)≥g
i
(k
β
),k
α
≠k
β
;2)从速度到任务速度的映射关系由任务的雅可比矩阵表示;3)具有最低优先级任务m
M
的维度可能大于因此要确保维度m
n
大于所有任务的总维度;4)g
i
(k
m
)的值由任务监管器根据任务的需求和传感器信息进行分配;
通过给基本任务分配给定的优先级,t时刻复合任务的速度表示为通过给基本任务分配给定的优先级,t时刻复合任务的速度表示为通过给基本任务分配给定的优先级,t时刻复合任务的速度表示为其中,是行为优先级,是零空间投影的增广雅克比矩阵。3.根据权利要求1所述的面向多非完整约束移动机器人的强化学习行为控制方法,其特征在于:所述步骤S2具体为:定义集中式训练环境为ε,全局的状态为其中是联合的位置,是联合的优先级,是编队标志位,S表示全局状态集合;定义b
i,t
={v
r,i,t
...

【专利技术属性】
技术研发人员:黄捷张祯毅
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1