一种基于双BP网络增强学习框架的水下机器人轨迹跟踪方法技术

技术编号:24408378 阅读:41 留言:0更新日期:2020-06-06 08:05
一种基于双BP网络增强学习框架的水下机器人轨迹跟踪方法,它属于水下机器人轨迹跟踪技术领域。本发明专利技术解决了现有技术在进行控制器参数的在线优化时,需要依赖大量的专家先验知识建立模糊规则,导致控制器参数的在线优化耗时耗力的问题。本发明专利技术利用强化学习方法可以通过与环境的不断交互,在得到环境给出的强化值后便能通过循环迭代寻找到最优策略的特点,将强化学习方法与双BP网络结合起来,通过在线调节水下机器人的速度和艏向控制系统控制律的相关参数,使得所设计的速度和艏向控制系统能在不同的环境中选择与该环境相对应的最优控制参数,克服了现有技术中控制器参数在线优化的耗时耗力的问题。本发明专利技术可以应用于水下机器人的轨迹跟踪。

An underwater vehicle trajectory tracking method based on double BP network reinforcement learning framework

【技术实现步骤摘要】
一种基于双BP网络增强学习框架的水下机器人轨迹跟踪方法
本专利技术属于水下机器人轨迹跟踪
,具体涉及一种基于双BP网络增强学习框架的水下机器人轨迹跟踪方法。
技术介绍
水下机器人在海洋环境检测、海底测绘、海底管道检测等任务中扮演着重要角色,其轨迹跟踪控制性能的好坏,在很大程度上影响了水下机器人在海底作业时的安全性、稳定性和经济性。通常,水下机器人在进行特定作业时,要求水下机器人负载可变,如海底管道铺设,并且海风、海浪、海流等会随时间和位置的不同而发生改变,使得水下机器人作业环境具有高度非线性和不确定性,这些因素导致设计能够在不同情况下都具有良好控制效果的控制器较为困难。因此,水下机器人的控制系统应该具备对控制器参数进行自动优化的能力。目前,对于控制器参数的自动优化问题,学者们进行了大量研究,通常结合智能控制技术,如神经网络、模糊以及进化算法等技术对相关控制器的控制参数进行调整。然而神经网络的学习效果通常与环境影响息息相关,多变的外界干扰易引起自学习不稳定,会对机器人控制系统可靠性造成不利影响;进化算法虽然有很好的寻优能力,但仅仅是离线学习本文档来自技高网...

【技术保护点】
1.一种基于双BP网络增强学习框架的水下机器人轨迹跟踪方法,其特征在于,该方法包括以下步骤:/n步骤一、根据水下机器人的速度和艏向控制系统的控制律确定待设计的控制参数k

【技术特征摘要】
1.一种基于双BP网络增强学习框架的水下机器人轨迹跟踪方法,其特征在于,该方法包括以下步骤:
步骤一、根据水下机器人的速度和艏向控制系统的控制律确定待设计的控制参数k1、k2、k3和k4;
步骤二、构建双BP神经网络结构,所述双BP神经网络的结构包括当前BP神经网络和目标BP神经网络,且目标BP神经网络的结构与当前BP神经网络的结构相同;
所述当前BP神经网络的输入为当前状态st,目标BP神经网络的输入为当前状态st执行最优动作at后所得到的下一时刻的状态st+1;当前BP神经网络和目标BP神经网络均根据输入的状态确定输出的动作;
步骤三、根据当前BP神经网络输出的实际Q值Qm(st,at),目标BP神经网络输出的目标Q值以及当前BP神经网络在当前状态st下选择最优动作at并执行后得到的下一时刻状态st+1和奖赏值rt+1(st+1,a),来计算TD误差,再利用计算出的TD误差对当前BP神经网络的参数进行更新;
每个时刻对应的状态动作样本对均存入经验样本池,在当前BP神经网络训练的空闲时间,从经验样本池中随机抽取状态动作样本对,利用抽取的状态动作样本对对当前BP神经网络继续进行训练;
且每经过N个时刻后,目标BP神经网络对当前BP神经网络的参数进行复制,实现对当前BP神经网络和目标BP神经网络参数的更新;
步骤四、当每个时刻的状态依次输入当前BP神经网络后,当前BP神经网络分别根据每个时刻的状态输出对应时刻的动作a,再利用ε贪婪策略选择出最优动作;
将每个时刻对应的最优动作代入待设计的控制参数的表达式,获得待设计的控制参数的参数值,将获得的参数值输入水下机器人的速度和艏向控制系统的控制律,实现对水下机器人轨迹跟踪的控制。


2.根据权利要求1所述的一种基于双BP网络增强学习框架的水下机器人轨迹跟踪方法,其特征在于,所述步骤一的具体过程为:
水下机器人的速度和艏向控制系统的控制律如公式(1)至(3)所示:









其中,τu为推进器纵向推力,m为水下机器人质量,Xu|u|、Nr|r|、Nr均为无量纲水动力参数,v为水下机器人横向速度,r为水下机器人偏航角速度,|r|为水下机器人偏航角速度的绝对值,u为水下机器人纵向速度,|u|为水下机器人纵向速度的绝对值,ud为水下机器人纵向期望速度,代表水下机器人纵向期望加速度,τr为转艏力矩,Iz为水下机器人绕运动坐标系z轴的转动惯量,为水下机器人的艏向角,β为侧漂角,为侧漂角速度,为参考型水下机器人在惯性参考系下的艏向角,为参考型水下机器人艏向角速度,δ为导航角,为导航角的角速度,ur为参考型水下机器人纵向速度,vt=(u,v)Τ为水下机器人合速度,为艏向角误差,s为沿路径的广义弧长,为s的一阶导数,xe为待控制的水下机器人与参考型水下机器人的纵向位置误差,为期望角角速度,k1、k2、k3和k4均为待设计的控制参数,且k1、k2、k3和k4均为正常数;
导航角δ的表达式:



其中,ye为待控制的水下机器人与参考型水下机器人的横向位置误差,k0为导航角控制增益,Δ为超前长度;<...

【专利技术属性】
技术研发人员:孙延超张佩王卓秦洪德李鹏景锐洁曹禹张宇昂
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1