一种深度强化学习的高效学习方法技术

技术编号：37331812 阅读：25 留言：0更新日期：2023-04-21 23:09

本发明专利技术公开了一种深度强化学习的高效学习方法，应用于三维大尺寸地形环境中无人车路径规划，包括：将全局地图观测信息输入至动态全局通道；将局部地图观测信息输入至动态局部通道；通过多目标奖励函数对无人车的能耗和行驶时间进行评价；在每个训练过程中，从经验缓冲池中提取到达目标位置的若干历史经验数据作为训练集；其中，动态全局通道与动态局部通道为深度强化学习模型的两个并联输入通道；动态全局通道的第一层图像输入用于存放当前规划点的位置信息；第二层图像输入用于存放目标位置信息；第三层图像输入用于存放三维地图数据；动态局部通道的输入层设置为一层图像输入；深度强化学习模型采用基于优先经验重播的深度强化学习探索策略。深度强化学习探索策略。深度强化学习探索策略。

全部详细技术资料下载

【技术实现步骤摘要】
一种深度强化学习的高效学习方法

[0001]本专利技术涉及无人车路径规划
，具体涉及一种深度强化学习的高效学习方法。

技术介绍

[0002]近年来，深度强化学习(Deep Reinforcement Learning，DRL)得到了广泛发展。有研究表明DRL具有解决复杂高维状态空间上决策问题的能力。DeepMind公司提出的AlphaGo在围棋领域取得了巨大胜利，将DRL的研究推向了一个新的高度。DRL在视频游戏、机器人、智能驾驶、推荐系统等诸多领域得到了广泛的研究。同时DRL已经被验证在解决NP
‑
hard问题方面具有巨大的潜力，如旅行商问题(TSP)。
[0003]路径规划作为典型的NP
‑
hard问题也受到越来越多学者的广泛关注。但是，基于DRL的路径规划方法在规划较大尺寸地图时，存在网络学习效率低，收敛困难等问题。

技术实现思路

[0004]有鉴于此，本专利技术实施例提供了一种深度强化学习的高效学习方法，以解决现有技术中采用基于DRL的路径规划方法在规划较大尺寸地图时，存在网络学习效率低和收敛困难的问题。
[0005]本专利技术实施例提供了一种深度强化学习的高效学习方法，包括：
[0006]将全局地图观测信息输入至动态全局通道；
[0007]将局部地图观测信息输入至动态局部通道；
[0008]通过多目标奖励函数对无人车的能耗和行驶时间进行评价；
[0009]在每个训练过程中，从经验缓冲池中提取到达目标位置...

【技术保护点】

【技术特征摘要】
1.一种深度强化学习的高效学习方法，应用于三维大尺寸地形环境中的无人车路径规划，其特征在于，包括：将全局地图观测信息输入至动态全局通道；将局部地图观测信息输入至动态局部通道；通过多目标奖励函数对无人车的能耗和行驶时间进行评价；在每个训练过程中，从经验缓冲池中提取到达目标位置的若干历史经验数据作为训练集；其中，所述动态全局通道与所述动态局部通道为深度强化学习模型的两个并联输入通道；所述动态全局通道的输入层设置为三层图像输入；第一层图像输入用于存放当前规划点的位置信息；第二层图像输入用于存放目标位置信息；第三层图像输入用于存放三维地图数据；所述动态局部通道的输入层设置为一层图像输入；以所述当前规划点为中心向外扩展10个单位步长，形成的矩形在原始地图中截取的部分即为所述局部地图观测信息；所述深度强化学习模型采用基于优先经验重播的深度强化学习探索策略。2.根据权利要求1所述的深度强化学习的高效学习方法，其特征在于，所述动态全局通道的卷积主干层由第一卷积层和第二卷积层组成；在所述第一卷积层和所述第二卷积层之间设置一个最大池化；所述动态局部通道的卷积主干层由第三卷积层和第四卷积层组成。3.根据权利要求2所述的深度强化学习的高效学习方法，其特征在于，所述动态全局通道的输入大小为100*100*3；所述第一卷积层的卷积核大小为8*(3*3*3)，第二卷积层的卷积核的大小为16*(3*3*8)；所述最大池化的池化核尺寸为2*2，步长设置为3；所述动态局部通道的输入大小为20*20*1；所述第三卷积层的卷积核的大小为4*(3*3*1)，所述第四卷积层的卷积核的大小为10*(3*3*4)；所述第一卷积层、所述第二卷积层、所述第三卷积层和所述第四卷积层的激活函数均采用ReLu函数。4.根据权利要求3所述的深度强化学习的高效学习方法，其特征在于，在所述动态全局通道的卷积主干层的输出和所述动态局部通道的卷积主干层的输出通过全连接层进行拼接后，引出第一分支输出和第二分支输出；将所述第一分支输出和所述第二分支输出线性连接，形成的输出节点用于...

【专利技术属性】
技术研发人员：袁小芳，侯明心，李哲，黄国明，王耀南，
申请(专利权)人：湖南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人