基于D3QN-PER移动机器人路径规划方法技术

技术编号:33536400 阅读:29 留言:0更新日期:2022-05-19 02:18
本发明专利技术公开了基于D3QN

【技术实现步骤摘要】
基于D3QN

PER移动机器人路径规划方法


[0001]本专利技术涉及应用深度学习和强化学习结合实现未知场景的路径规划
,具体为基于D3QN

PER移动机器人路径规划方法。

技术介绍

[0002]目前室内移动机器人主要采用基于已知室内环境模型的路径规划方法,如果环境模型和实际环境存在较大的误差会导致在路径规划过程中出现无法估计的影响,并且对环境建模需要耗费更多的资源。因此,研究对环境模型依赖程度低、自主学习适应室内环境的路径规划方法成为研究热点。
[0003]现今,人工智能领域取得一定进展,深度学习、增强学习、深度增强学习等各类人工智能方法被不断提出,并且逐步应用于实际工程领域。其中,深度增强学习结合了深度学习感知抽象能力与强化学习策略寻优能力,能通过端对端的学习方式来实现观测状态(激光雷达)作为算法的输入到决策动作输出的直接控制,训练机器人学习自主避障能力,在很多传统方法无法解决的问题上表现优异。这种端对端的方式对于自动控制系统、移动机器人控制、自动驾驶、游戏博弈等诸多问题的求解,具有天然本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于D3QN

PER移动机器人路径规划方法,分为环境建模、搭建深度强化学习方法的框架和训练模型三个阶段,其特征在于:具体按以下步骤:S1:环境建模,设计完整实验环境;S
1.1
:利用移动机器人上的单线激光雷达对所处于当前环境进行观察,并提取出移动机器人所处于当前环境中的所有障碍物信息S
o
;S
1.2
:利用移动机器人运动学模型,将全局坐标系下的移动机器人自身状态信息S
R
、目标位置以及步骤S
1.1
提取的所有障碍物信息S
o
变换到局部坐标系下;S
1.3
:移动机器人及障碍物质点处理,设计完整的实验环境;S2:搭建深度强化学习方法的框架;S
2.1
:将获取的环境状态s描述为24维向量;S
2.2
:将移动机器人的连续动作空间中对应的动作进行离散化,设计D3QN网络输出的决策离散动作空间A(s);S
2.3
:设计移动机器人的学习目标,其内容为躲避当前环境中的障碍物,朝着目标前进,直到抵达目标停止,通过奖励函数R(s,a)评估是否完成学习目标,奖励回报函数R(s,a)由到达目标位置奖励、碰撞障碍物惩罚两部分组成;S
2.4
:确定探索策略,首先,Q值网络输出步骤2.2设置的动作对应的动作值函数Q(s,a),通过相应的探索规则选择当前时刻的决策动作;S
2.5
:评价函数可以评估当下决策动作的好坏,指导移动机器人进行决策;利用DoubleDQN的思想和Dueling DQN的结构搭建D3QN网络去拟合状态价值函数Q(s,a),从而评估决策动作的累积奖励,获取最优的状态价值函数Q
*
(s,a);S3:训练模型,获取路径规划策略S
3.1
:处理移动机器人自身状态信息及环境障碍物状态信息;S
3.2
:将训练过程中获取的数据作为四元组(s,s

,a,r)存储到经验回放池中,作为数据备份;S
3.3
:采用改进的优先经验回放机制对回放经验池中数据进行小批量采样;S
3.4
:将S
3.3
中数据送入S2:搭建的D3QN模型中进行,计算目标Q值和时间差分误差TD

error,进而更新优先回放经验机制中优先级P;S
3.5
:通过随机梯度下降法计算损失函数,不断更新D3QN网络的权重参数;S
3.6
:循环训练,满足完成学习目标和设置回合数,获取训练好的路径规划策略,可以应用于在未知环境移动机器人的路径规划。2.根据权利要求1所述的基于D3QN

PER移动机器人路径规划方法,其特征在于,在步骤S1中,环境建模和设计完整实验场景的具体过程为:S
1.1.1
:将全局坐标系下的移动机器人自身状态、目标位置以及步骤S1.1提取的所有障碍物状态信息变换到局部坐标系下,局部坐标系是以移动机器人自身为坐标原点,以移动机器人指向目标位置的方向为x轴正方向,垂直于x轴方向。S
1.1.2
:状态信息表示为一个数组[v
t
,ω
t
,d
t
,θ
t
],其中,v
t
和ω
t
为t时刻移动机器人的速度和角速度信息,d
t
和θ
t
为t时刻移动机器人相对终点的距离和角度信息;S
1.1.3
:对移动机器人和障碍物做质点处理,设置安全距离。设计完整的实验场景,其中包括移动机器人和多个障碍物。开始训练时,初始化移动机器人、障碍物的位置,要求移动
机器人在当前场景下能避免互相碰撞和避开障碍物到达对应目的地,实现路径规划,在完整实验场景其中:d
o
代表障碍物的半径大小,d
r
代表机器人的半径大小,d
g
代表目标点的半径大小;d
rg
为移动机器人到目标位置的距离,且如式(1)和式(2)所示:d
rg
=||d
r

d
g
||2ꢀꢀꢀ
式(1)d
ro
为移动机器人到障碍物的距离d
ro
=||d
r

d
o
||2ꢀꢀꢀꢀ
式(2)(v
rx
,v
ry
)为移动机器人速度的x、y轴分量;θ
r
代表移动机器人航向夹角。3.根据权利要求1所述的基于D3QN

PER移动机器人路径规划方法,其特征在于,在步骤S2中搭建深度强化学习框架的具体过程为,将环境中障碍物状态信息s
o
描述为24维向量;S
2.1.1
:决策离散动作空间a的集合为A,离散动作空间A由航向角θ
r
和速度组成,航向角则集合A中有5个动作,包括向前移动,向左移动或左转,向右移动或右转;速度是包括角速度和线速度,设定前向动作v=1.0m/s,ω=0.3rad/s,其余四个动作的v=0.03m/s,ω=0.1rad/s。S
2.1.2
:设计学习框架及学习目标,通过奖励函数进行评估是否完成学习目标D3QN网络的奖励函数R(s,a)的形式如式(3)所示:R(s,a)=R1+R2ꢀꢀꢀꢀ
式(3)其中:其中,R1指到达目标点,K为安全检测阈值,K=0.4m。若移动机器人执行动作a后未遇到障...

【专利技术属性】
技术研发人员:袁帅高治军张莉莉张凤吕佳琪
申请(专利权)人:沈阳建筑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1