当前位置: 首页 > 专利查询>湖南大学专利>正文

一种深度强化学习的高效学习方法技术

技术编号:37331812 阅读:25 留言:0更新日期:2023-04-21 23:09
本发明专利技术公开了一种深度强化学习的高效学习方法,应用于三维大尺寸地形环境中无人车路径规划,包括:将全局地图观测信息输入至动态全局通道;将局部地图观测信息输入至动态局部通道;通过多目标奖励函数对无人车的能耗和行驶时间进行评价;在每个训练过程中,从经验缓冲池中提取到达目标位置的若干历史经验数据作为训练集;其中,动态全局通道与动态局部通道为深度强化学习模型的两个并联输入通道;动态全局通道的第一层图像输入用于存放当前规划点的位置信息;第二层图像输入用于存放目标位置信息;第三层图像输入用于存放三维地图数据;动态局部通道的输入层设置为一层图像输入;深度强化学习模型采用基于优先经验重播的深度强化学习探索策略。深度强化学习探索策略。深度强化学习探索策略。

【技术实现步骤摘要】
一种深度强化学习的高效学习方法


[0001]本专利技术涉及无人车路径规划
,具体涉及一种深度强化学习的高效学习方法。

技术介绍

[0002]近年来,深度强化学习(Deep Reinforcement Learning,DRL)得到了广泛发展。有研究表明DRL具有解决复杂高维状态空间上决策问题的能力。DeepMind公司提出的AlphaGo在围棋领域取得了巨大胜利,将DRL的研究推向了一个新的高度。DRL在视频游戏、机器人、智能驾驶、推荐系统等诸多领域得到了广泛的研究。同时DRL已经被验证在解决NP

hard问题方面具有巨大的潜力,如旅行商问题(TSP)。
[0003]路径规划作为典型的NP

hard问题也受到越来越多学者的广泛关注。但是,基于DRL的路径规划方法在规划较大尺寸地图时,存在网络学习效率低,收敛困难等问题。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供了一种深度强化学习的高效学习方法,以解决现有技术中采用基于DRL的路径规划方法在规划较大尺寸地图时,存在网络学习效率低和收敛困难的问题。
[0005]本专利技术实施例提供了一种深度强化学习的高效学习方法,包括:
[0006]将全局地图观测信息输入至动态全局通道;
[0007]将局部地图观测信息输入至动态局部通道;
[0008]通过多目标奖励函数对无人车的能耗和行驶时间进行评价;
[0009]在每个训练过程中,从经验缓冲池中提取到达目标位置的若干历史经验数据作为训练集;
[0010]其中,动态全局通道与动态局部通道为深度强化学习模型的两个并联输入通道;动态全局通道的输入层设置为三层图像输入;第一层图像输入用于存放当前规划点的位置信息;第二层图像输入用于存放目标位置信息;第三层图像输入用于存放三维地图数据;动态局部通道的输入层设置为一层图像输入;以当前规划点为中心向外扩展10个单位步长,形成的矩形在原始地图中截取的部分即为局部地图观测信息;深度强化学习模型采用基于优先经验重播的深度强化学习探索策略。
[0011]可选地,动态全局通道的卷积主干层由第一卷积层和第二卷积层组成;在第一卷积层和第二卷积层之间设置一个最大池化;
[0012]动态局部通道的卷积主干层由第三卷积层和第四卷积层组成。
[0013]可选地,动态全局通道的输入大小为100*100*3;第一卷积层的卷积核大小为8*(3*3*3),第二卷积层的卷积核的大小为16*(3*3*8);最大池化的池化核尺寸为2*2,步长设置为3;
[0014]动态局部通道的输入大小为20*20*1;第三卷积层的卷积核的大小为4*(3*3*1),
第四卷积层的卷积核的大小为10*(3*3*4);
[0015]第一卷积层、第二卷积层、第三卷积层和第四卷积层的激活函数均采用ReLu函数。
[0016]可选地,在动态全局通道的卷积主干层的输出和动态局部通道的卷积主干层的输出通过全连接层进行拼接后,引出第一分支输出和第二分支输出;将第一分支输出和第二分支输出线性连接,形成的输出节点用于表示各个方位动作的Q值;
[0017]其中,第一分支输出的第一层设置128个节点;第一分支输出的第二层设置8个节点;第一分支输出用于评价8个方位的动作质量;第二分支输出的第一层设置128个节点;第二分支输出的第二层设置1个节点;第二分支输出用于预测状态价值;第一分支输出的第一层和第二分支的第一层的激活函数采用ReLu函数;第一分支输出的第二层和第二分支的第二层的激活函数采用线性函数。
[0018]可选地,当前规划点用6*6*1大小的图像表示;目标位置用5*5*1大小的图像表示。
[0019]可选地,三维地图数据的获取包括:
[0020]以当前规划点位置与目标位置的连线作为对角线形成一个矩形区域;将矩形区域内的地图居中,并将地图的各边界分别向外扩展10个单位步长;将扩展后的地图周围用0补边形成100*100*1的地图图像。
[0021]可选地,多目标奖励函数包括:能耗奖励函数、耗时奖励函数、撞墙奖励函数和目标位置奖励函数。
[0022]可选地,撞墙奖励函数包括:
[0023]根据撞墙惩罚的强度因子和撞墙惩罚的敏感值分别对横轴方向和纵轴方向进行惩罚项计算。
[0024]可选地,基于优先经验重播的深度强化学习探索策略包括:
[0025]获取无人车在三维环境中的训练样本;训练样本为状态动作序列;
[0026]将无人车在训练过程中的训练样本存储在第一经验缓冲池中;将到达目标位置的训练样本存储在第二经验缓冲池中;其中,到达目标位置的训练样本的判断条件为:当前训练样本的奖励得分大于0;
[0027]当第一经验缓冲池/第二经验缓冲池中的训练样本数量达到上限时,删除最先存储的训练样本数据,并保存最新的训练样本数据;
[0028]当第一经验缓冲池中的训练样本数量达到预设值时,开始训练网络。
[0029]本专利技术实施例的有益效果:
[0030]本专利技术实施例提出了一种深度强化学习的高效学习方法,应用于无人车路径规划,通过构建一种新型双通道并联网络模型,该新型双通道并联网络包含两个通道,分别是动态全局通道和动态局部通道。从全局地图和局部地图两个视角,显著提高深度强化学习方法关注三维地形,提高了观测状态与动作奖励的相关性。
附图说明
[0031]通过参考附图会更加清楚的理解本专利技术的特征和优点,附图是示意性的而不应理解为对本专利技术进行任何限制,在附图中:
[0032]图1示出了本专利技术实施例中一种深度强化学习的高效学习方法的流程图;
[0033]图2示出了本专利技术实施例中一种深度强化学习的高效学习方法的新型双通道并联
网络框架示意图;
[0034]图3示出了本专利技术实施例中一种深度强化学习的高效学习方法的新型双通道并联网络的输入设置示意图;
[0035]图4示出了本专利技术实施例中一种深度强化学习的高效学习方法的经验缓冲池示意图;
[0036]图5示出了本专利技术实施例中一种深度强化学习的高效学习方法的训练策略示意图。
具体实施方式
[0037]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0038]本专利技术实施例提供了一种深度强化学习的高效学习方法,应用于无人车路径规划,如图1所示,包括:
[0039]步骤S10,将全局地图观测信息输入至动态全局通道。
[0040]步骤S20,将局部地图观测信息输入至动态局部通道。
[0041]在本实施例中,构建一种新型双通道并联网络模型,该新型双通道并联本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度强化学习的高效学习方法,应用于三维大尺寸地形环境中的无人车路径规划,其特征在于,包括:将全局地图观测信息输入至动态全局通道;将局部地图观测信息输入至动态局部通道;通过多目标奖励函数对无人车的能耗和行驶时间进行评价;在每个训练过程中,从经验缓冲池中提取到达目标位置的若干历史经验数据作为训练集;其中,所述动态全局通道与所述动态局部通道为深度强化学习模型的两个并联输入通道;所述动态全局通道的输入层设置为三层图像输入;第一层图像输入用于存放当前规划点的位置信息;第二层图像输入用于存放目标位置信息;第三层图像输入用于存放三维地图数据;所述动态局部通道的输入层设置为一层图像输入;以所述当前规划点为中心向外扩展10个单位步长,形成的矩形在原始地图中截取的部分即为所述局部地图观测信息;所述深度强化学习模型采用基于优先经验重播的深度强化学习探索策略。2.根据权利要求1所述的深度强化学习的高效学习方法,其特征在于,所述动态全局通道的卷积主干层由第一卷积层和第二卷积层组成;在所述第一卷积层和所述第二卷积层之间设置一个最大池化;所述动态局部通道的卷积主干层由第三卷积层和第四卷积层组成。3.根据权利要求2所述的深度强化学习的高效学习方法,其特征在于,所述动态全局通道的输入大小为100*100*3;所述第一卷积层的卷积核大小为8*(3*3*3),第二卷积层的卷积核的大小为16*(3*3*8);所述最大池化的池化核尺寸为2*2,步长设置为3;所述动态局部通道的输入大小为20*20*1;所述第三卷积层的卷积核的大小为4*(3*3*1),所述第四卷积层的卷积核的大小为10*(3*3*4);所述第一卷积层、所述第二卷积层、所述第三卷积层和所述第四卷积层的激活函数均采用ReLu函数。4.根据权利要求3所述的深度强化学习的高效学习方法,其特征在于,在所述动态全局通道的卷积主干层的输出和所述动态局部通道的卷积主干层的输出通过全连接层进行拼接后,引出第一分支输出和第二分支输出;将所述第一分支输出和所述第二分支输出线性连接,形成的输出节点用于...

【专利技术属性】
技术研发人员:袁小芳侯明心李哲黄国明王耀南
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1