一种基于DQN算法的强化学习方法及其应用技术

技术编号:37852610 阅读:15 留言:0更新日期:2023-06-14 22:44
本发明专利技术提出了一种基于DQN算法的强化学习方法,包括以下步骤:DQN在探索的过程中训练网络,利用Q估计和Q现实的差值进行反向传播;通过Q

【技术实现步骤摘要】
一种基于DQN算法的强化学习方法及其应用


[0001]本专利技术属于深度学习
,具体涉及一种基于DQN算法的强化学习方法及其应用。

技术介绍

[0002]无人艇具有自主航行、自动作业能力成本低、环境适应性强等特点可用于测绘、勘探、巡逻等领域。路径规划是无人艇发展的关键问题之一,它包括全局规划和局部规划。全局规划是基于已知信息建立适当的环境模型并寻找符合约束条件的安全路径;局部规划需要根据船载环境传感系统实时获取的周围环境信息动态调整和修正局部路径以确保无人艇在航行过程中的安全。
[0003]Dijkstra算法是经典的全局路径规划方法之一,可以在实际环境中搜索最短路径,使用启发式搜索的A*算法在静态环境的路径规划中得到广泛使用,并可以添加安全约束,提高生成路径的安全性;或结合路径平滑方法,消除路径中的“锯齿”以增强可行性。此外,许多仿生物智能算法,例如遗传算法(GA)、蚁群优化(ACO)、粒子群化(PSO)以及细菌觅食算法(BFO)可用于无人艇的路径规划。
[0004]尽管现有很多关于无人水面艇路径规划的研究,但其中大多数仅考虑全局规划或局部规划的单一应用场合,无法应对存在动态障碍物的复杂环境。

技术实现思路

[0005]为了解决上述现有技术存在的问题,本申请提出一种基于DQN算法的强化学习方法及其应用,包括以下步骤:
[0006]DQN在探索的过程中训练网络,利用Q估计和Q现实的差值进行反向传播;
[0007]通过Q

learning中的奖励值Reward来构造监督学习所需要的样本标签;
[0008]降低强化学习过程中状态之间的关联性。
[0009]进一步的,构造监督学习所需要的样本标签包括以下步骤:
[0010]引入循环神经网络对在高维并且连续的状态空间下的Q

table做函数拟合;
[0011]对函数进行近似优化。
[0012]进一步的,对函数进行近似优化具体包括以下步骤:
[0013]获取损失函数;
[0014]确定了损失函数后,进行神经网络的训练,选用随机梯度下降法去更新网络参数的梯度。
[0015]进一步的,获取损失函数具体包括以下步骤:
[0016]按照深度学习范式来定义DQN中的损失函数;
[0017]通过学习更新公式中的项来确定损失函数。
[0018]进一步的,降低强化学习过程中状态之间的关联性包括以下步骤:
[0019]在学习过程中通过建立经验池解决相关性及非静态问题;
[0020]用两个网络减少目标值计算和要更新网络参数之间的依赖关系。
[0021]进一步的,在学习过程中建立经验池解决相关性及非静态问题具体包括以下步骤:
[0022]将每个时间步智能体与环境交互所得到的转移样本D=(s
t
,a
t
,r
t
,s
t+1
)储存到经验池中;
[0023]每次要训练神经网络时,就随机从经验池中抽取一个minibatch的经验进行训练;
[0024]经过训练的DNN获得的Q值经过转换后,又存入经验池中,用于下一次训练中获得新的经验。
[0025]进一步的,所述经验池为回放记忆单元。
[0026]进一步的,用两个网络来减少目标值计算和要更新网络参数之间的依赖关系具体包括以下步骤:
[0027]使用Q

target在DQN算法中构建两个结构相同的神经网络;
[0028]第一神经网络不断的更新自身的网络参数;
[0029]第二神经网络使用更新前的参数频繁但缓慢地更新第一网络的值。
[0030]进一步的,两个神经网络结构的区别在于两个神经网络结构的参数有所不同:
[0031]一个用于预测当前Q值的网络,称其为MainNet;另一个用于预测目标Q值,称其为TargetNet。
[0032]上述基于DQN算法的强化学习方法应用于水上路径规划。
[0033]本专利技术与现有技术相比,其有益效果在于:
[0034]本专利技术提出的基于DQN算法的强化学习方法应用于水上路径规划时,可以向无人艇和无人机集群提供最优路径规划策略与方案;同时利用强化学习的试错机制,对无人艇集群的每步动作进行奖励或惩罚处理,使动作可以量化,保证规划出的路径方案的可靠性、最优性和可进化性。
具体实施方式
[0035]为使本领域技术人员能够更好的理解本专利技术的技术方案,下面对本专利技术做进一步的说明。
[0036]1、本申请的总体框架
[0037]强化学习场景设计的关键影响因素包括状态空间设计、奖励设计、算法选择与超参探索等。
[0038]此外,由于强化学习涉及大规模的数据采集与训练支撑,还需要考虑强化学习环境的分布式实时数据采集能力与大规模并行计算能力的部署架构设计与准备。
[0039](1)状态空间设计
[0040]在一个强化学习场景中,状态信息代表了智能体(Agent)所感知到的环境信息,以及因自身的行为(Action)带来的变化。状态信息是Agent制定决策和评估其长期收益的依据,而状态设计的好坏直接决定了强化学习算法能否收敛、收敛速度以及最终性能,是一个强化学习场景开发过程中的关键设计因素之一。
[0041]通常在一些公共平台,如Gym,大部分实验的状态空间都是现成的,可以评估谁的算法收敛快、性能好;然而,在实际项目中,状态空间设计工作需要进行专门的设计,增加一
个优秀的新状态信息所带来的性能提升明显高于其他方面的工作(如调参),状态空间的优化工作会贯彻整个项目始终。
[0042]虽然状态空间的设计等同于特征工程(feature engineering),可以把所有原始信息一股脑堆砌起来,让神经网络自动去挑选其中有用的成分并学习它们与决策间的相关性,也就是深度强化学习。但是端到端的深度强化学习需要耗费非常大的资源,即使经过大量训练神经网络能够最终提取到有用信息,因为训练时间的延长也会导致算法实用性的下降。同时,一些不相关的干扰信息还可能起到反作用。
[0043]因此,要想在可控时间内训练得到比较好的策略(Policy),的确需要人为筛选出一些好的状态信息,既可以是原始信息(Raw information),也可以是经过二次加工的信息,来帮助神经网络更轻松准确地建立起决策相关性,这就是状态空间设计。
[0044](2)奖励设计
[0045]奖励函数(reward)设计在深度强化学习应用中是极其重要的一环,通过将任务目标具体化和数值化,reward就如同一种特殊语言,实现了目标与算法之间的沟通,算法工作者在这里面承担了翻译的角色,翻译的好坏体现了其对任务逻辑的理解深度,决定了agent最终是否能学到期望的技能,并直接影响算法的收敛速度和最终性能。深度强化学习算法中reward负责引导神经网络挖掘状本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于DQN算法的强化学习方法,其特征在于,包括以下步骤:DQN在探索的过程中训练网络,利用Q估计和Q现实的差值进行反向传播;通过Q

learning中的奖励值Reward来构造监督学习所需要的样本标签;降低强化学习过程中状态之间的关联性。2.根据权利要求1所述的一种基于DQN算法的强化学习方法,其特征在于,构造监督学习所需要的样本标签包括以下步骤:引入循环神经网络对在高维并且连续的状态空间下的Q

table做函数拟合;对函数进行近似优化。3.根据权利要求2所述的一种基于DQN算法的强化学习方法,其特征在于,对函数进行近似优化具体包括以下步骤:获取损失函数;确定了损失函数后,进行神经网络的训练,选用随机梯度下降法去更新网络参数的梯度。4.根据权利要求3所述的一种基于DQN算法的强化学习方法,其特征在于,获取损失函数具体包括以下步骤:按照深度学习范式来定义DQN中的损失函数;通过学习更新公式中的项来确定损失函数。5.根据权利要求1所述的一种基于DQN算法的强化学习方法,其特征在于,降低强化学习过程中状态之间的关联性包括以下步骤:在学习过程中通过建立经验池解决相关性及非静态问题;用两个网络减少目标值计算和要更新网络参数之间的依赖关系。6.根据权利要求5所述的一种基于DQN算法的强化学习方法,其特征在于,在学习过程中建立经验池解决相关性及非静态问题具体...

【专利技术属性】
技术研发人员:赵亮顾启佳何晓田思佳王博
申请(专利权)人:中国船舶集团有限公司系统工程研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1