当前位置: 首页 > 专利查询>三峡大学专利>正文

一种基于注意力和循环PPO实现的导航决策方法技术

技术编号:38528986 阅读:25 留言:0更新日期:2023-08-19 17:03
一种基于注意力和循环PPO实现的导航决策方法,它包括以下步骤:步骤1:智能体与环境交互获取环境图像数据信息;步骤2:对获取的图像信息进行编码,压缩状态信息,提高训练效率;步骤3:构建多核卷积神经网络模块对环境信息进行初步特征提取;步骤4:构建注意力模块与LSTM的结合网络对特征信息进行筛选与压缩,获取重要且关键的信息;步骤5:将经过模型提取的重要历史信息输入到actor网络获取动作,输入到critic网络评估价值;步骤6:智能体根据actor网络所得概率矩阵选取动作,与环境交互一定次数后,数据存入经验池;步骤7:随机抽取batch_size大小的数据进行训练,计算损失函数,进行梯度裁剪,最终通过反向传播进行参数更新。最终通过反向传播进行参数更新。最终通过反向传播进行参数更新。

【技术实现步骤摘要】
一种基于注意力和循环PPO实现的导航决策方法


[0001]本专利技术涉及图像处理
,具体涉及一种基于注意力和循环PPO实现的导航决策方法。

技术介绍

[0002]路径规划是机器人导航必不可少的技术,该技术旨在让机器人以最小代价在所处环境中找到最短且无碰撞障碍物的路径。传统的路径规划技术有A
*
算法、粒子群优化算法、模拟退火算法等。但上述算法仅适用于完全可观测环境的路径规划,现实中的环境大多是部分可观测的,存在着状态信息不完整、稀疏奖励等困难情景,大大提高了智能体的探索难度。
[0003]得益于深度学习与强化学习的技术发展,大多学者开始考虑将深度学习的感知能力与强化学习的决策能力进行结合,为智能体在复杂环境的路径规划问题提供了解决方案。申请公布号为CN115469683A的专利文献公开了一种基于PPO算法的无人机编队飞行方法及系统,该方法基于深度强化学习PPO算法对每架无人机将收集的周围物体与其的距离和方向信息进行分析然后做出决策,实现了无人机自主编队飞行训练,经过训练的无人机能够形成编队,精确避开周围障碍物与其他本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于注意力和循环PPO实现的导航决策方法,其特征在于,它包括以下步骤:步骤1:智能体与环境交互获取环境图像数据信息;步骤2:对获取的图像信息进行编码,压缩状态信息,提高训练效率;步骤3:构建多核卷积神经网络模块对环境信息进行初步特征提取;步骤4:构建注意力模块与LSTM的结合网络对特征信息进行筛选与压缩,获取重要且关键的信息;步骤5:将经过模型提取的重要历史信息输入到actor网络获取动作,输入到critic网络评估价值;步骤6:智能体根据actor网络所得概率矩阵选取动作,与环境交互一定次数后,数据存入经验池;步骤7:随机抽取batch_size大小的数据进行训练,计算损失函数,进行梯度裁剪,最终通过反向传播进行参数更新。2.根据权利要求1所述的方法,其特征在于,步骤2具体包括以下子步骤:步骤2

1)将由步骤1获取到的环境数据中的图像信息进行整体编码处理;步骤2

2)根据图像中目标单位的颜色、状态这些信息进行编码设计;步骤2

3)整合状态信息,将图像数据信息最终压缩成编码信息,提高训练效率。3.根据权利要求1所述的方法,其特征在于,在步骤3中,构建两层CNN卷积网层,使用多个卷积核对环境编码信息进行特征处理,采用的CNN卷积网络公式为:x
t
=σ
cnn
(w
cnn

x
t
+b
cnn
)x
t
表示当前的环境状态特征,w
cnn
表示过滤器的权重矩阵,b
cnn
表示偏置向量,σ
cnn
是激活函数。4.根据权利要求1所述的方法,其特征在于,在步骤4中,具体包括以下子步骤:步骤4

1)卷积网络模块提取的特征输入到注意力网络模块,其中多头注意力网络能够使模型在多个位置上共同关注不同子空间的信息,最后将各空间所得信息进行拼接,能够更好地对重要信息增加权重,多头注意力网络公式为:Q=XW
Q
K=XW
K
V=XW
VV
Multi(Q,K,V)=Concat(head
i
,

,head
i
)W
O
公式中Q表示查询矩阵,K表示键矩阵,V表示值矩阵,它们由输入的特征向量X分别与对应的权重矩阵W
Q
,W
K
,W
V
相乘所得,Attention(Q,K,V)表示注意力公式,由矩阵Q与矩阵K的转秩相乘的结果除以矩阵Q,K,V维数的平方根,然后乘以矩阵V所得,softmax表示激活函数,head
i
表示第i个头部的注意力信息,W
iQ
表示第i个头部对应Q的权重矩阵,表示第i个头部对应K的权重矩阵,表示第i个头部对应V的权重矩阵,Multi(Q,K,V)表示通过Concat连接函数整合各头部重要信息的多头注意力特征信息,W
O
表示计算头部注意力实例线性变
换的矩阵;4

2)将注意力模块的输出结果输入到LSTM网络;LSTM神经网络通过引入3个门控结构和1个长期记忆单元,来控制信息的流通和损失,其计算公式为:f
t
=σ(W
f
x
t
+U
f
h
t
‑1+b
f
)i
t
=σ(W
i
x
t
+U
i
h
t
‑1+b
i
)o
t
=σ(W
o
x
t
+U
o
h
t
‑1+b
o
))其中f
t
表示t时刻遗忘门信息,i
t
表示t时刻输入门信息,o
t
表示t时刻输出门信息,c
t
表示t时刻记忆细胞状态,前一时间的隐状态h
t
‑1与序列x
t
输入到网络中,同时更新隐状态和记忆细胞状态,W
f
,W
i
,W
o
,U
f
,U
i
,U
o
表示对应各门控结构的权重矩阵,b
f
,b
i
,b
...

【专利技术属性】
技术研发人员:臧兆祥吕相霖
申请(专利权)人:三峡大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1