一种基于改进DDPG算法的高效路径规划方法、装置及介质制造方法及图纸

技术编号:34371181 阅读:34 留言:0更新日期:2022-07-31 11:14
本发明专利技术涉及一种基于改进DDPG算法的高效路径规划方法、装置及介质。本发明专利技术在DDPG神经网络Actor中引入第一LSTM网络,在Critic中引入第二LSTM网络,利用LSTM网络具有“记忆”的特点,综合机器人的以往状态矩阵和当前状态矩阵共同来决定机器人的规划动作,保证机器人前后动作之间的相关性,并在Actor中增加BatchNormalization,提高算法的稳定性和收敛速度。优化设计奖励的计算方式,引导机器人更快地朝目标点方向运动。采用不同归一化方法对机器人与目标点的相对位置关系的各个参数进行归一化处理,提高学习效率。改进的DDPG神经网络在输出机器人下一步动作时,添加高斯和OU混合噪声,进一步提高机器人的探索性,使机器人能够以最优路径快速到达目标点。人能够以最优路径快速到达目标点。人能够以最优路径快速到达目标点。

An efficient path planning method, device and medium based on improved ddpg algorithm

【技术实现步骤摘要】
一种基于改进DDPG算法的高效路径规划方法、装置及介质


[0001]本专利技术涉及机器人路径规划
,尤其涉及一种基于改进DDPG算法的高效路径规划方法、装置及介质。

技术介绍

[0002]随着机器人技术的兴起与不断发展,机器人的应用越来越广泛,在越来越多的领域都发挥着重要作用。路径规划作为机器人应用的关键技术之一,已经成为机器人趋向人工智能化不可或缺的组成部分。理想的路径规划方法可以大大节省机器人在路上的运动时间,帮助机器人高效、准确完成任务,为机器人在各行业中的应用提供有利保障。
[0003]近年来,随着人工智能的兴起,基于深度强化学习的路径规划方法应运而生。Q

Learning是一种用于路径规划的典型强化学习算法,其利用Q值表对状态

动作值进行存储和更新,根据机器人所学习的经验知识对Q值表进行更新,收敛后根据Q值求出最优路径。但当环境复杂时,由于状态

动作过多,需要维护的Q值表过大,导致消耗的内存空间剧增,且维数过大时还会导致维数灾难。2013年,Google DeepMind将深度学习与Q

Learning相结合,使用神经网络来近似值函数,首次提出了深度Q学习(DQN),实现了从感知到动作的端到端的革命性算法,解决了Q

Learning中的维数灾难问题。但是,该方法仅仅适用于离散动作空间,无法应用到连续动作空间。Google DeepMind在2015年将DQN纳入Actor

Critic框架,提出了深度确定性策略梯度(DDPG),解决了连续动作空间问题,使用DDPG进行机器人路径规划时,就可以输出连续的动作。但是当环境比较复杂时,DDPG算法容易陷入局部最优,存在成功率低、学习速度慢等问题。Lei Tai等人提出了一种基于学习的无地图运动规划器,以稀疏的10维范围和目标相对于机器人坐标系的位置作为输入,以连续转向命令作为输出,将DDPG扩展到异步版本,以提高采样效率,结果证明该规划器能够在不与任何障碍物碰撞的情况下,将机器人导航到期望的目标位置。但该方法既没有先前观测的记忆,也没有长期预测能力,所规划的路径较为曲折,且不是最优路径。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本专利技术提供一种基于改进DDPG算法的高效路径规划方法、装置及介质。
[0005]第一方面,本专利技术提供一种基于改进DDPG算法的高效路径规划方法,包括:
[0006]构造并初始化改进的DDPG神经网络;
[0007]其中,改进的DDPG神经网络的Actor当前网络和Actor目标网络结构相同,均包括用于输入状态矩阵的第一输入层,第一输入层连接第一LSTM网络,第一LSTM网络经Batch Normalization连接第一全连接层,第一全连接层经Batch Normalization连接第二全连接层,第二全连接层经Batch Normalization连接输出动作的第一输出层,第一输出层输出动作添加高斯和OU混合噪声;
[0008]改进的DDPG神经网络的Critic当前网络和Critic目标网络结构相同,均包括输入
状态矩阵的第二输入层和输入机器人动作的第三输入层,第二输入层连接第二LSTM网络,第三输入层连接第四全连接层,第二LSTM网络和第四全连接层均连接第五全连接层,第五全连接层连接第二输出层;
[0009]改进的DDPG神经网络的经验池存储包括状态矩阵、动作、奖励和下一时刻的状态矩阵的经验数据;
[0010]依次整合归一化处理的机器人与目标点的相对位置关系、机器人上一规划动作和采集的环境信息得到机器人当前的状态矩阵;
[0011]将当前的状态矩阵输入到改进的DDPG神经网络获取规划动作,执行规划动作进而获取下一时刻的状态矩阵并计算规划动作的对应的奖励,形成经验数据并存储于经验池;
[0012]经验池的经验数据达到预设量时,从经验池中随机采样经验数据作为样本数据,利用样本数据对改进的DDPG神经网络进行训练获取路径规划模型;通过路径规划模型规划路线。
[0013]更进一步地,第一全连接层、第二全连接层、第三全连接层、第四全连接层和第五全连接层均采用ReLU函数作为激活函数。
[0014]更进一步地,按如下公式为第一输出层输出动作添加高斯和OU混合噪声:
[0015]其中,θ为随机过程的学习率,a
t
为t时刻的动作,为动作采样数据的平均值,δ为OU随机权值,W
t
为维纳过程,var为高斯方差,var值随着训练次数的增加,对环境的适应而降低,var值更新的公式为var=var*α,α为小于1的衰减系数。
[0016]更进一步地,经验数据中奖励的计算方法如下:机器人到达目标点时奖励为预设的第一分值,机器人碰到障碍物时奖励为预设的第二分值,机器人未达目标点且未碰障碍物奖励为机器人到起点距离与机器人到目标点距离之差,其中预设的第一分值为正常数,预设的第二分值为负常数。
[0017]更进一步地,依次整合归一化处理的机器人与目标点的相对位置关系、机器人上一规划动作和采集的环境信息得到机器人当前的状态矩阵中采集的环境信息包括:通过激光传感器采集机器人在相对正前方

90
°
至90
°
范围的十个方向上与障碍物之间的十个距离,其中十个方向包括相对正前方的
±
10
°

±
30
°

±
50
°

±
70
°

±
90
°

[0018]更进一步地,机器人与障碍物距离小于激光传感器最小探测距离时,判断机器人与障碍物碰撞。
[0019]更进一步地,依次整合归一化处理的机器人与目标点的相对位置关系、机器人上一规划动作和采集的环境信息得到机器人当前的状态矩阵中归一化处理的机器人与目标点的相对位置关系包括:归一化处理的机器人与目标点的相对距离、相对角度、归一化处理的机器人偏航角和归一化处理的机器人与目标点的差角;
[0020]其中,机器人与目标点的相对距离除以环境地图的对角线长度获取归一化处理的相对距离,机器人与目标点的相对角度除以360获取归一化处理的相对角度,机器人的偏航角除以360获取归一化处理的偏航角,机器人与目标点的差角除以180获取归一化处理的差角,机器人与目标点的差角等于机器人与目标点的相对角度减去机器人偏航角。
[0021]更进一步地,依次整合归一化处理的机器人与目标点的相对位置关系、机器人上
一规划动作和采集的环境信息得到机器人当前的状态矩阵中机器人上一规划动作包括机器人上一时刻的线速度、机器人上一时刻的角速度。
[0022]第二方面,本专利技术提供一种执行基于改进DDPG算法的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进DDPG算法的高效路径规划方法,其特征在于,包括:构造并初始化改进的DDPG神经网络;其中,改进的DDPG神经网络的Actor当前网络和Actor目标网络结构相同,均包括用于输入状态矩阵的第一输入层,第一输入层连接第一LSTM网络,第一LSTM网络经Batch Normalization连接第一全连接层,第一全连接层经Batch Normalization连接第二全连接层,第二全连接层经Batch Normalization连接输出动作的第一输出层,第一输出层输出动作添加高斯和OU混合噪声;改进的DDPG神经网络的Critic当前网络和Critic目标网络结构相同,均包括输入状态矩阵的第二输入层和输入机器人动作的第三输入层,第二输入层连接第二LSTM网络,第三输入层连接第四全连接层,第二LSTM网络和第四全连接层均连接第五全连接层,第五全连接层连接第二输出层;改进的DDPG神经网络的经验池存储包括状态矩阵、动作、奖励和下一时刻的状态矩阵的经验数据;依次整合归一化处理的机器人与目标点的相对位置关系、机器人上一规划动作和采集的环境信息得到机器人当前的状态矩阵;将当前的状态矩阵输入到改进的DDPG神经网络获取规划动作,执行规划动作进而获取下一时刻的状态矩阵并计算规划动作的对应的奖励,形成经验数据并存储于经验池;经验池的经验数据达到预设量时,从经验池中随机采样经验数据作为样本数据,利用样本数据对改进的DDPG神经网络进行训练获取路径规划模型,通过路径规划模型规划路线。2.如权利要求1所述的基于改进DDPG算法的高效路径规划方法,其特征在于,第一全连接层、第二全连接层、第三全连接层、第四全连接层和第五全连接层均采用ReLU函数作为激活函数。3.如权利要求1所述的基于改进DDPG算法的高效路径规划方法,其特征在于,按如下公式为第一输出层输出动作添加高斯和OU混合噪声:其中,θ为随机过程的学习率,a
t
为t时刻的动作,为动作采样数据的平均值,δ为OU随机权值,W
t
为维纳过程,var为高斯方差,var值随着训练次数的增加,对环境的适应而降低,var值更新的公式为var=var*α,α为小于1的衰减系数。4.如权利要求1所述的基于改进DDPG算法的高效路径规划方法,其特征在于,经验数据中奖励的计算方法如下:机器人到达目标点时奖励为预设的第一分值,机器人碰到障碍物时奖励为预设的第二分值,机器人未达目标点且未碰障碍物奖励为机器人到起点距离与机器人到目标点距离之差,其中预设的第一分值为正常数,预设的第二分值为负常数。5.如权利要求1所述的基于改进DDPG算法的高效路径规划方法,其特征在于,依次整合归一化处理的机器人与目标点的相对...

【专利技术属性】
技术研发人员:王朋巩慧倪翠
申请(专利权)人:山东交通学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1