一种基于DQN算法的强化学习方法及其应用技术

技术编号：37852610 阅读：15 留言：0更新日期：2023-06-14 22:44

本发明专利技术提出了一种基于DQN算法的强化学习方法，包括以下步骤：DQN在探索的过程中训练网络，利用Q估计和Q现实的差值进行反向传播；通过Q

全部详细技术资料下载

【技术实现步骤摘要】
一种基于DQN算法的强化学习方法及其应用

[0001]本专利技术属于深度学习
，具体涉及一种基于DQN算法的强化学习方法及其应用。

技术介绍

[0002]无人艇具有自主航行、自动作业能力成本低、环境适应性强等特点可用于测绘、勘探、巡逻等领域。路径规划是无人艇发展的关键问题之一，它包括全局规划和局部规划。全局规划是基于已知信息建立适当的环境模型并寻找符合约束条件的安全路径；局部规划需要根据船载环境传感系统实时获取的周围环境信息动态调整和修正局部路径以确保无人艇在航行过程中的安全。
[0003]Dijkstra算法是经典的全局路径规划方法之一，可以在实际环境中搜索最短路径，使用启发式搜索的A*算法在静态环境的路径规划中得到广泛使用，并可以添加安全约束，提高生成路径的安全性；或结合路径平滑方法，消除路径中的“锯齿”以增强可行性。此外，许多仿生物智能算法，例如遗传算法(GA)、蚁群优化(ACO)、粒子群化(PSO)以及细菌觅食算法(BFO)可用于无人艇的路径规划。
[0004]尽管现有很多关于无人水面艇路径规划的研究，但其中大多数仅考虑全局规划或局部规划的单一应用场合，无法应对存在动态障碍物的复杂环境。

技术实现思路

[0005]为了解决上述现有技术存在的问题，本申请提出一种基于DQN算法的强化学习方法及其应用，包括以下步骤：
[0006]DQN在探索的过程中训练网络，利用Q估计和Q现实的差值进行反向传播；
[0007]通过Q
‑
learning中的奖励...

【技术保护点】

【技术特征摘要】
1.一种基于DQN算法的强化学习方法，其特征在于，包括以下步骤：DQN在探索的过程中训练网络，利用Q估计和Q现实的差值进行反向传播；通过Q
‑
learning中的奖励值Reward来构造监督学习所需要的样本标签；降低强化学习过程中状态之间的关联性。2.根据权利要求1所述的一种基于DQN算法的强化学习方法，其特征在于，构造监督学习所需要的样本标签包括以下步骤：引入循环神经网络对在高维并且连续的状态空间下的Q
‑
table做函数拟合；对函数进行近似优化。3.根据权利要求2所述的一种基于DQN算法的强化学习方法，其特征在于，对函数进行近似优化具体包括以下步骤：获取损失函数；确定了损失函数后，进行神经网络的训练，选用随机梯度下降法去更新网络参数的梯度。4.根据权利要求3所述的一种基于DQN算法的强化学习方法，其特征在于，获取损失函数具体包括以下步骤：按照深度学习范式来定义DQN中的损失函数；通过学习更新公式中的项来确定损失函数。5.根据权利要求1所述的一种基于DQN算法的强化学习方法，其特征在于，降低强化学习过程中状态之间的关联性包括以下步骤：在学习过程中通过建立经验池解决相关性及非静态问题；用两个网络减少目标值计算和要更新网络参数之间的依赖关系。6.根据权利要求5所述的一种基于DQN算法的强化学习方法，其特征在于，在学习过程中建立经验池解决相关性及非静态问题具体...

【专利技术属性】
技术研发人员：赵亮，顾启佳，何晓，田思佳，王博，
申请(专利权)人：中国船舶集团有限公司系统工程研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人