一种于改进DQN的无人船路径规划算法制造技术

技术编号：39404512 阅读：24 留言：0更新日期：2023-11-19 15:56

本发明专利技术公开了一种于改进DQN的无人船路径规划算法，其涉及无人船路径规划算法技术领域，旨在解决DQN算法存在的探测能力差、训练时间长的问题，其技术方案要点是，其算法如下：S1：算法改进：将Q

全部详细技术资料下载

【技术实现步骤摘要】
一种于改进DQN的无人船路径规划算法

[0001]本专利技术涉及无人船路径规划算法
，尤其是涉及一种于改进
DQN
的无人船路径规划算法
。

技术介绍

[0002]随着经济的不断发展和人口的不断增多，水库
、
江河
、
湖泊
、
近海水体的树木枝叶
、
庄稼杂草
、
塑料泡沫
、
生活垃圾等漂浮物的数量越来越多，由于受主客观因素的影响，水面常常带有各类漂浮物，且水面漂浮物逐年不断增多，给水库
、
电站以及各种水上设施和饮用水的安全带来隐患，人们都在争取采用各种方式打捞漂浮物，清洁无人船便是对水面上的垃圾进行识别并进行拾取和处理的重要工具
。
[0003]无人船路径规划技术要求无人船自主规划出一条连接起点和终点的安全
、
经济的最佳路径，是实现无人清洁船智能决策的又一关键技术
。
[0004]但是目前在实际的水上环境中，除了礁石，建筑等静态...

【技术保护点】

【技术特征摘要】
1.
一种于改进
DQN
的无人船路径规划算法，其特征在于：其算法如下：
S1
：算法改进：将
Q
‑
learning
算法和
DQN
算法进行改进，并代入后续建立的模型中进行计算；
S2
：环境建模：使用合适的方法建立路径规划的环境模型，采用的环境建模使用了膨化处理后的圆形障碍物和长方形的障碍，把无人船看作只占一个栅格的质点，简化处理后，无人船的状态空间即为无人船在地图中的二维坐标，而无人船的动作空间为四个运动方向；
S3
：奖励函数：对无人船路径规划算法的奖励函数进行了改进，如下：其中，即为无人船到目标的距离，
round
代表取整函数，将奖励函数设置为一个离散值，总体越靠近目标点越小，但不至于每两步都不相同，同时对这个值取负数，未到达终点永远为负值，促使智能体不会因为避免惩罚而陷入局部循环；
S4
：
DQN
网络设计：使用
leaky Relu
函数，在
x<0
时通过系数
a
保证仍有一定的输出，防止神经元坏死后不再参与参数的更新，神经网络输入为状态空间，即无人船的坐标，输出为动作空间，即无人船的前后左右四个动作，包含
eval_net
和
target_net
两个神经网络，
eval_net
保存当前状态的信息，
target_net
保存下一时刻状态的信息，以此计算出
Q
值，
eval_net
和
target_net
两个神经网络结构相同，输入层包含
32
个神经元，另外还有两个隐含层，分别有
512
个和
128
个神经元，利用
Tensorboard
工具可以实现网络结构可视化；
S5
：动态窗口算法设计：使用动态窗口法对局部路径规划进行计算，动态窗口法分为三个步骤，建立运动模型，速度采样和轨迹评价；
S6
：
DQN
‑
DWA
融合算法：将
DQN
算法与动态窗口法融合，利用
DQN
中的
Q
值指导动态窗口法；
B1
：使用
RGB
图片作为无人船路径规划的仿真环境，读取地图的灰度值，将黑色区域设置为无人船地图中的可通行区域，将白色区域设置为障碍物，随机初始化每一次无人船的路径规划起点和终点，同时保证起点到终点的距离不能过近，以及不能在障碍物的边缘或内部，达到模拟动态障碍物的效果；
B2
：建立无人船的运动学模型，初始化其运动参数，包括速度范围，角速度范围，最大加速度，最大角加速度以及速度和转速的分辨，通过编写函数得到无人船检测到的周围的障碍物信息与离目标点之间的距离作为状态信息，再用当前参数通过动态窗口的方法更新状态，得到下一状态，并更新奖励值
Reward
，在动态避障这一环节，奖励值设置如下：其中，
CurDist
表示当前位置与目标点的距离，即动态窗口更新后的位置，
PreDist
表示更新前的位置离目标点的距离，当位置离目标点的距离变远时，会受到更大的惩罚，
τ
是距
离阈值，
dist(v,
ω
)
＜
τ
表示按无人船的当前速度和角速度与障碍物发生碰撞的危险性很大，即认为寻迹失败，
dist(v,
ω
)
＞
τ
即当前位置在安全距离内，未达到终点时，奖励值都设为负值，以免陷入局部最优；
B3
：算法更新状态，通过动态窗口法更新前后的状态，此步骤的动作，奖励值，是否达到目标点这些信息存入缓存区，当缓存区满后，每隔5次路径规划进行一次学习，通过梯度下降的方法更新网络权重参数，循环这个步骤，直至达到终点或者遇到障碍物；在此过程中，选择动作的贪婪系数
ε
设为一个动态的值，当路径规划时每次要选择动作时，生成一个随机数
σ
∈[0,1]
，当
σ
小于
ε
时，随机选择动作，反之，选择最优的动作，令：
ε
＝
ε
·
(0.99)
episode
其中，
episode
代表迭代的轮次，
ε
是一个随迭代次数逐渐减少的值，当迭代次数比较少时，动作随机选择可能比较大，以免过于注重眼前利益而陷入局部最优解，当迭代次数比较足够时，此时网络输出的
Q
值更具有指导性，则更趋向于选择最优解以更快达到终点；
S7
：仿真实验：将改进后的
DQN
算法与
Q
‑
learning
算法同时应用在
15*10
的地图上，分别统计两种算法的寻优出的最短路径以及训练过程的步数变化图和奖励值图，确定整体实际可行性
。2.
根据权利要求1所述的一种于改进
DQN
的无人船路径规划算法，其特征在于：所述
S1
中
Q
‑
learning
改进为：令
Q(s,a)
表示智能体在
s
状态下采取
a
动作可以获得的收益，将智能体根据不同的
state
和
action
获得的
reward
构建成
Q
‑
table
存储
Q
的值；令第
t
步智能体的状态为
s
t
，下一步的状态
s
t+1
通过状态转移方程
T(a|s
t
)
得到，
P(s
t+1
|s
t
,a)
表示通过动作
a
从状态
s
t
转移到状态
s
t+1
的概率，
R(s
t+1
|s
t
,a)
则表示通过动作
a
从状态
s
t
转移到状态
s
t+1
得到的
reward
，
Q
‑
learning
算法的目标就是找到累积
reward
最大的策略期望，用公式可以表示为：其中，
γ
表示衰减系数，表示随着与
agent
当前状态量的距离越远，影响就越小；
Q
‑
learning
算法采用贝尔曼方程对马尔科夫过程求解最优策略，根据贝尔曼方程，定义
Q(s,a)
状态下的状态值函数为：
q
π
(s,a)
＝
E
π
{r
t+1
+
γ
[r
t+2
+
γ
(r
t+3
+...)]|A
t
＝
a,S
t
＝...

【专利技术属性】
技术研发人员：程霁月，李立崑，王建宇，马磊，何新，黄成文渊，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人