一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法技术

技术编号:37517177 阅读:38 留言:0更新日期:2023-05-12 15:38
本发明专利技术公布了一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法。在训练阶段,随机初始化网络参数以及参考轨迹,通过当前状态利用动作网络得到动作并以初始区间加入噪声,利用动作得到下一个状态以及对应奖励,将状态

【技术实现步骤摘要】
一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法


[0001]本专利技术属于智能控制和无人系统领域,尤其针对无人机运动模型不精确轨迹跟踪效果较差的情况下,具体涉及一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法。

技术介绍

[0002]由于其灵活性和可操作性,无人机在广泛的应用中显示出巨大的潜力。在轨迹跟踪任务中,需要为无人机设计控制律,以跟踪导航系统分配的参考轨迹。现有的控制法包括滑模控制(Sliding Mode Control)、反步控制(Backstepping Control)、模型预测控制(Model Predictive Control)、分散和线性时变控制、神经网络控制(Neural Networked Control)。在传统的控制算法中,基于模型的方法由于其良好的性能而被广泛使用。然而,这些方法严重依赖于无人机的精确动力学建模,大多数工作只考虑无人机的动力学模型,而忽略了实际中复杂的动态环境。此外,由于无人机的高速运动,任何轻微的扰动、模型失配和长的控制间隔都可能导致灾难性的碰撞。因此,在复杂环境中,无人机的轨迹本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法,其特征在于包含以下步骤:S1,构建深度强化学习所需的网络模型,构建的网络模型中包括动作网络、价值网络;S2,根据当前状态向量使用步骤S1中的动作网络与环境进行交互,得到下一个状态向量,将所有状态向量以及动作网络输出的动作向量作为元组进行存储;S3,在步骤S2存储的数据中随机采样,并获得状态向量的Q值,即状态向量的价值,并更新价值网络参数;S4,获取一个周期内的奖励,根据获取的奖励以及循环次数通过计算得到高斯噪声的方差,并使用得到的高斯噪声的方差来更新高斯噪声;S5,循环步骤S2

S4,计算出梯度,根据得到的梯度对动作网络、价值网络进行更新,得到新的动作网络、价值网络参数;S6,循环步骤S2

S5,直到循环次数达到设定的最大训练周期时结束循环,得到基于深度强化学习的无人机轨迹跟踪控制器,使用得到的无人机轨迹跟踪控制器对无人机进行轨迹跟踪控制。2.根据权利要求1所述的一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法,其特征在于:所述步骤S2中,元组批处理大小大于设定阈值。3.根据权利要求2所述的一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法,其特征在于:所述步骤S2中,元组批处理大小的设定阈值为255。4.根据权利要求1所述的一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法,其特征在于:所述步骤S2中,元组为(s,,,

,a

),r为当前状态向量s下使用动作向量a与环境进行交互得到的奖励,初始状态向量s0为给定无人机的初始轨迹数据,与当前状态向量s对应的动作网络输出的动作向量为a,与下一个状态向量s

对应的动作网络输出的动作向量为a

,与初始状态...

【专利技术属性】
技术研发人员:孙健邓博远王钢李卓张野晨周子煜陈杰
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1