当前位置: 首页 > 专利查询>中南大学专利>正文

基于深度强化学习的机器人自主探索方法技术

技术编号:37254868 阅读:34 留言:0更新日期:2023-04-20 23:31
本发明专利技术公开了一种基于深度强化学习的机器人自主探索方法,包括机器人实时获取周围环境的数据信息;构建机器人工作空间的初始环境图;增量构建地图并检测地图的边界和信息增益;得到最终的环境拓扑地图;构建机器人自主探测学习模型;机器人采用自主探索学习模型探索周围环境并计算得到下一步的执行策略;重复以上步骤完成基于深度强化学习的机器人自主探索。本发明专利技术打破了动作空间和观察空间的维数诅咒,同时又不丢失工作空间的结构属性;采用无模型强化学习技术在与物理或仿真系统试错交互的过程中学习探索策略,无需人为干预;而且本发明专利技术方法实现了机器人的自主探索,可靠性高、准确性好且效率较高。准确性好且效率较高。准确性好且效率较高。

【技术实现步骤摘要】
基于深度强化学习的机器人自主探索方法


[0001]本专利技术属于人工智能
,具体涉及一种基于深度强化学习的机器人自主探索方法。

技术介绍

[0002]随着经济技术的发展和生活水平的提高,人工智能技术已经广泛应用于人们的生产和生活当中,给人们的生产和生活带来了无尽的便利。
[0003]近年来,机器人自主探测技术在学术研究领域得到了广泛关注,并在许多领域得到了应用,如搜索和救援任务、情报、监视和侦察任务以及行星探索任务等。当机器人在复杂、未知的环境中导航和工作时,往往需要具备自主环境探索的能力。具有自主探索能力的机器人可以灵活部署,因为它们可以利用以前观察到的环境知识,在新环境中快速收集有用信息,而不必依赖人类。这种能力使这类机器人能够为新环境中待执行的下游任务(例如重建、导航和交互)做好准备。随着经济技术的发展,自主探索能力已经成为智能机器人的必备技能。
[0004]智能机器人在复杂环境中的应用,取决于稳健和高效的探索策略。在过去几十年中,研究者提出了不同的自主探索方法,如著名的基于边界的探索方法和人工势场方法。然而在复杂的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的机器人自主探索方法,包括如下步骤:S1.机器人实时获取周围环境的数据信息;S2.根据步骤S1获取的数据信息,基于Voronoi图思想,构建机器人的工作空间的初始环境图;S3.根据步骤S1获取的数据信息,增量构建地图,并检测地图的边界和信息增益;S4.根据步骤S2和步骤S3得到的数据信息,得到最终的环境拓扑地图;S5.基于卷积神经网络,构建机器人自主探测学习模型;S6.机器人采用步骤S5构建的自主探索学习模型对周围环境进行探索,并计算得到下一步的执行策略;S7.重复以上步骤,完成基于深度强化学习的机器人自主探索。2.根据权利要求1所述的基于深度强化学习的机器人自主探索方法,其特征在于步骤S2所述的根据步骤S1获取的数据信息,基于Voronoi图思想,构建机器人的工作空间的初始环境图,具体包括如下步骤:设定机器人在工作空间W中工作;工作空间W为m维空间R
m
,由凸形障碍物C1,C2,...,C
m
填充,工作空间中的非凸形障碍物由凸形障碍物建模;工作空间W的边界为属于障碍集的凸集的集合;采用如下算式表示点x到障碍物C
i
之间的距离d
i
(x):(x):式中c0为障碍物C
i
中距离点x最近的点;||x

c0||为点x到点c0之间的欧几里得距离;为从点x到c0方向上的单位向量;x

c0表示点x到点c0之间的方向向量;在障碍物中存在一个等距点x1,且等距点与障碍物的最短距离D(x)表示为所述的等距点的定义为:在障碍物i和障碍物j之间存在一个点x,且点x与障碍物i和障碍物j的距离相同,则称点x为障碍物i和障碍物j之间的等距点;一组共线的等距点之间的集合定义为广义Voronoi边,并以下式进行表示:式中F
ij
为障碍物i和障碍物j之间的广义Voronoi边;广义Voronoi边的交点定义为广义Voronoi顶点,并以下式进行表示:式中F
ijk
为广义Voronoi顶点;由一组广义Voronoi边和顶点,构成广义Voronoi图作为机器人的工作空间的初始环境图。3.根据权利要求2所述的基于深度强化学习的机器人自主探索方法,其特征在于步骤S3所述的根据步骤S1获取的数据信息,增量构建地图,并检测地图的边界和信息增益,具体
包括如下步骤:对增量构造的地图检测边界,作为候选目标;边界处的信息增益测量了边界以外的剩余自由空间量,该剩余自由空间量也为当前部分地图中未探索的可导航单元;采用OpenCV中的CCL方法将未探测的自由空间单元分组为连接的分量Ω={ω1,


n
},然后将每个连通分量ω
i
与地图边界关联;只有当连通分量ω
i
中至少有一个像素是边界中某个像素的8连通邻居时,该连通分量ω
i
才与边界相关联;对于每一个边界,计算得到对应的信息增益作为与边界相关联的连通分量的面积的和,并由完整映射上的总自由空间进行归一化。4.根据权利要求3所述的基于深度强化学习的机器人自主探索方法,其特征在于步骤S4所述的根据步骤S2和步骤S3得到的数据信息,得到最终的环境拓扑地图,具体包括如下步骤:根据最短距离原理,将边界、机器人的位置和广义Voronoi图连接,从而得到最终的环境拓扑地图;所有节点之间的连接为无冲突的,完成语义地图的域转换5.根据权利要求4所述的基于深度强化学习的机器人自主探索方法,其特征在于步骤S5所述的基于卷积神经网络,构建机器人自主探测学习模型,具体包括如下步骤:基于图卷积神经网络和残差连接,构建空间特征编码器;基于时序信息和时间卷积神经网络,构建时间特征编码器;将空间特征编码器的输出和时间特征编码器的输出,采用注意力机制进行融合,并将融合结果通过Actor

Critic结构进行学习;采用无效动作屏蔽机制,对机器人的动作进行限制。6.根据权利要求5所述的基于深度强化学习的机器人自主探索方法,其特征在于所述的基于图卷积神经网络和残差连接,构建空间特征编码器,具体包括如下步骤:空间特征编码器用于编码拓扑图的空间结构信息;将前l层的节点特征表示为然后将第l层的节点聚合计算并作为第l+1层的输入G
(l+1)
:式中σ
S
()为ReLU函数;D为对角矩阵;为中间矩阵且A为探索图的邻接矩阵,I为单位矩阵;W
s(l)
为第l层的待学习的权重矩阵。7.根据权利要求6所述的基于深度强化学习的机器人自主探索方法,其特征在于所述的基于时序信息和时间卷积神经网络,构建时间特征编码器,具体包括如下步骤:采用建立缓冲区的方式实现历史情境存储;机器人在每个时间段τ内,向缓存中读取和取出空间特征编码器获取的地图空间信息;存储器中的缓冲区M存储先前τ时间步长的且成对的高维空间特征和前沿特征具体实施时,时间段τ采样滑动窗口的方式实现;
在τ时刻,时间卷积神经网络的输入由存储在缓冲区M中的历史空间特征组成,表示为M={M0,M1...

【专利技术属性】
技术研发人员:陈铂垒康嘉绪钟萍崔永正卢思怡
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1