【技术实现步骤摘要】
一种基于有限空间信号的移动机器人路径规划方法
[0001]本专利技术属于移动机器人路径规划
,具体涉及一种基于有限空间信号的移动机器人路径规划方法
。
技术介绍
[0002]随着人工智能技术的不断发展,移动机器人的自主化和智能化程度越来越高,需要能够通过自主感知和决策,进行路径规划和避障,以完成各种任务
。
移动机器人路径规划是移动机器人技术中的一个重要领域
。
在移动机器人完成任务的过程中,路径规划是一个必不可少的环节
。
因此,路径规划算法的设计和研究对于提高移动机器人的智能化和自主化水平,实现机器人自主完成任务具有重要意义
。
[0003]深度强化学习是将高维数据作为输入信息,通过深度学习模型将数据内部特征进行表示,并且使用函数形式配合强化学习的决策能力进行逼近,从而解决简单强化学习只能局限于处理低维离散数据的问题
。
[0004]深度强化学习的路径规划是一种基于深度学习和强化学习技术的路径规划方法,通过学习最优策略来实现路径
【技术保护点】
【技术特征摘要】
1.
一种基于有限空间信号的移动机器人路径规划方法,其特征在于,包括以下步骤:步骤一
、
初始化大小为
N3的可搜索环境
E
S
;步骤二
、
扩展所述可搜索环境
E
S
,建立大小为
M3的完全环境
E
;步骤三
、
基于深度图方法在所述可搜索环境
E
S
中建立一个以移动机器人当前坐标点为中心的有限观测环境
E
o
,用于模拟移动机器人在第一视角下观测到的有限空间信息;步骤四
、
在所述可搜索环境
E
S
的空间信息基础上添加以目标为中心的深度图信息;步骤五
、
通过训练过程和测试过程建立符合移动机器人行为方式的三维仿真环境;步骤六
、
采用特征提取网络提取移动机器人的特征信息,所述特征信息包括空间信号信息和位置信息;步骤七
、
通过强化学习将所述特征信息转换为移动机器人的方向和位移;步骤八
、
在所述三维仿真环境中建立移动机器人的奖励函数,所述奖励函数包括距离奖励和结算奖励;步骤九
、
建立两阶段离散动作空间,用于提高移动机器人在有限观测环境
E
o
中的搜索能力;步骤十
、
采集移动机器人搜索过程中产生的轨迹信息,通过所述两阶段离散动作空间获取移动机器人的下个坐标点,并获得奖励,得到一条从起始点到目标点的最优路径
。2.
按照权利要求1所述的一种基于有限空间信号的移动机器人路径规划方法,其特征在于,步骤一中所述可搜索环境
E
S
包括:
n
个自由状态
F
=
{F1,F2,...,F
n
}、m
个障碍物状态
O
=
{O1,O2,...,O
m
}、
起始点状态
S
和目标点状态
G。3.
按照权利要求1所述的一种基于有限空间信号的移动机器人路径规划方法,其特征在于,所述可搜索环境
E
S
的坐标系为:式中,
(x,y,z)
是完全环境
E
中的坐标点,
(x
′
,y
′
,z
′
)
是可搜索环境
E
S
中的坐标点,
μ
是边缘扩展数值
。4.
按照权利要求1所述的一种基于有限空间信号的移动机器人路径规划方法,其特征在于,步骤六中所述采用特征提取网络提取移动机器人的特征信息的具体过程包括:首先将空间信息中的切片信息对循环输入到三层卷积网络中进行融合;其次通过
AdaptiveMaxPool()
进行池化操作;再通过两层全连接层进行特征提取,最后将特征信息保存在
GRU
网络中
。5.
按照权利要求4所述的一种基于有限空间信号的移动机器人路径规划方法,其特征在于,步骤七中所述通过强化学习将所述特征信息转换为移动机器人的方向和位移的具体过程包括:通过
Actor
网络和
Critic
网络对保存的特征信息进行损失函数计算
、
策略更新和策略优化,其中,
Actor
网络包括方向网络
A
dir
和位移网络
A
move
;然后,方向网...
【专利技术属性】
技术研发人员:马天,曾奕杰,吕佳豪,席润韬,
申请(专利权)人:西安科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。