当前位置: 首页 > 专利查询>中山大学专利>正文

一种多机器人协同导航与避障的方法技术

技术编号:31509819 阅读:38 留言:0更新日期:2021-12-22 23:46
本发明专利技术公开了一种多机器人协同导航与避障的方法,包括根据部分可观察马尔科夫决策过程,对机器人在未知环境中的决策过程进行建模;再根据当前机器人的环境建模信息,引入深度确定性策略梯度算法,提取采样的图像样本,输入到卷积神经网络中进行特征提取;在深度确定性策略梯度算法基础上进行改进,引入长短时记忆神经网络,使网络具有记忆性,利用跳帧机制使图像数据更加准确稳定;同时修改经验池回放机制,通过给存储的每个经验样本设置优先级,让少有而重要的经验能够更多地用于学习中,提高学习效率。最后建立了多机器人导航避障的仿真系统,采用课程式学习的方式让机器人由易到难学习导航和避障,加快训练速度。加快训练速度。加快训练速度。

【技术实现步骤摘要】
一种多机器人协同导航与避障的方法


[0001]本专利技术涉及机器人导航领域,其中涉及一种多机器人协同导航与避障的方法。

技术介绍

[0002]随着5G技术的日趋成熟,机器人技术已全方位进入人类的生活和工作中,例如自动驾驶、自动运输、搜索救援等。由于人类的制造应用需求陡增,尤其面向智能制造中出现的小批量多品种个性化生产要求增多,应对这种复杂的柔性化生产趋势,单个机器人作业功能开始显得比较单一,生产需要更加数字化、网络化、智能化,因此多机器人的理论和应用发展成为必然。多机器人协作能更精准高效完成加工减少消耗,例如加工装配应用,用多个机器人完成装配、加工都能起到效率提升的作用,多机器人在工业加工领域有很好的应用价值,也有更多的拓展空间。
[0003]实现这些智能应用的重要前提是机器人在未知动态环境中具有强大的避障能力,然而在这一环境中,移动机器人无法获取障碍物或其他机器人的位置信息,只能观察到自身传感器获取的局部信息,这时“先建图再规划路径”的传统避障算法所产生巨大的计算量已经不再能支持应用满足5G时代的高实时性需求,而且障碍物数量和位置的变本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多机器人协同导航与避障的方法,具有多个用于系统工作的机器人,其特征在于,所方法包括基于部分可观察马尔科夫决策过程,建立了对未知环境的决策过程模型;根据移动机器人动作空间为连续值的特点,设计深度确定性策略梯度算法的算法网络,在输入端加入卷积层,提取图像的深层特征输入到算法网络中;具有优先经验回放机制;利用长短时记忆网络,记忆环境信息,通过跳帧机制避免机器人快速移动导致的视觉图像运动模糊;根据长短时记忆网络具有时序记忆性,利用随机更新策略,使网络学习有前后关联的样本;还包括采用跳跃更新的策略,且只采用轨迹后半部分的损失值进行梯度更新。2.根据权利要求1所述的多机器人协同导航与避障的方法,其特征在于,部分可观察马尔可夫决策过程根据环境部分观察信息来推断机器人状态的分布,用一个六元组进行描述(S,A,T,R,Z,O),其中S表示环境部分可观测的状态空间,A表示动作空间,T:S
×
A

π(S)表示状态转移函数,R:S
×
A

π(S)表示奖励函数,Z表示观测值集合,O:S
×
A

π(Z)是根据状态和所做动作给出的观测函数。3.根据权利要求1所述的多机器人协同导航与避障的方法,其特征在于,通过获取机器人的摄像头数据S
image
以及目的地相对于机器人当前位置的距离和方向角信息S
target
,作为机器人每一步观测到的数据,作为机器人的状态空间:S=(S
image
,S
target
)其中,S
image
是机器人从摄像头数据中提取出的信息,用于训练避障。S
target
=(ρ,θ),ρ表示机器人与目的地之间的距离,表达式为其中target.x和target.y分别代表目的地位置的横坐标与纵坐标,robot.x和robot.y分别代表机器人位置的横坐标与纵坐标。θ表示目的地与机器人的距离和方向角,表达式为用于训练导航。目的地位置在每次导航任务重新初始化时随机选取。4.根据权利要求1所述的多机器人协同导航与避障的方法,其特征在于,通过设置机器人的线速度和角速度,初始化机器人的动作空间:A=(a
linear
,a
angular
)其中,a
linear
是机器人的线速度,a
angular
是机器人的角速度,可在取值范围内连续变化。5.根据权利要求1所述的多机器人协同导航与避障的方法,其特征在于,通过设置机器人在不同情况下的奖励函数,分别对应发生碰撞、到达目的地、其他情况,其中其他情况由三部分组成:目的地与机器人的距离、机器人朝向与到目的地的方位角的差距、循环转圈,对好的情况设置奖励,坏的情况设置惩罚,使机器人学会正确的行驶方式,表达式为:
其中,r
c
是发生碰撞时给予的惩罚,r
g
是到达目的地时给予的奖励,r
d
是机器人与目的地距离的负值,表达式为:r
d


ρr
y
是机器人的朝向yaw与机器人与目的地的方位角θ的差,表达式为:r
y
=yaw

θr
l
表示过去50次运动中,如果有95%的运动都朝同一方向移动,则判定为机器人在转圈,此时需要给机器人一个惩罚,以避免循环转圈,表达式为:r
l


【专利技术属性】
技术研发人员:彭键清陈诺陈畅
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1