【技术实现步骤摘要】
一种基于双BP网络增强学习框架的水下机器人轨迹跟踪方法
本专利技术属于水下机器人轨迹跟踪
,具体涉及一种基于双BP网络增强学习框架的水下机器人轨迹跟踪方法。
技术介绍
水下机器人在海洋环境检测、海底测绘、海底管道检测等任务中扮演着重要角色,其轨迹跟踪控制性能的好坏,在很大程度上影响了水下机器人在海底作业时的安全性、稳定性和经济性。通常,水下机器人在进行特定作业时,要求水下机器人负载可变,如海底管道铺设,并且海风、海浪、海流等会随时间和位置的不同而发生改变,使得水下机器人作业环境具有高度非线性和不确定性,这些因素导致设计能够在不同情况下都具有良好控制效果的控制器较为困难。因此,水下机器人的控制系统应该具备对控制器参数进行自动优化的能力。目前,对于控制器参数的自动优化问题,学者们进行了大量研究,通常结合智能控制技术,如神经网络、模糊以及进化算法等技术对相关控制器的控制参数进行调整。然而神经网络的学习效果通常与环境影响息息相关,多变的外界干扰易引起自学习不稳定,会对机器人控制系统可靠性造成不利影响;进化算法虽然有很好的寻优能 ...
【技术保护点】
1.一种基于双BP网络增强学习框架的水下机器人轨迹跟踪方法,其特征在于,该方法包括以下步骤:/n步骤一、根据水下机器人的速度和艏向控制系统的控制律确定待设计的控制参数k
【技术特征摘要】
1.一种基于双BP网络增强学习框架的水下机器人轨迹跟踪方法,其特征在于,该方法包括以下步骤:
步骤一、根据水下机器人的速度和艏向控制系统的控制律确定待设计的控制参数k1、k2、k3和k4;
步骤二、构建双BP神经网络结构,所述双BP神经网络的结构包括当前BP神经网络和目标BP神经网络,且目标BP神经网络的结构与当前BP神经网络的结构相同;
所述当前BP神经网络的输入为当前状态st,目标BP神经网络的输入为当前状态st执行最优动作at后所得到的下一时刻的状态st+1;当前BP神经网络和目标BP神经网络均根据输入的状态确定输出的动作;
步骤三、根据当前BP神经网络输出的实际Q值Qm(st,at),目标BP神经网络输出的目标Q值以及当前BP神经网络在当前状态st下选择最优动作at并执行后得到的下一时刻状态st+1和奖赏值rt+1(st+1,a),来计算TD误差,再利用计算出的TD误差对当前BP神经网络的参数进行更新;
每个时刻对应的状态动作样本对均存入经验样本池,在当前BP神经网络训练的空闲时间,从经验样本池中随机抽取状态动作样本对,利用抽取的状态动作样本对对当前BP神经网络继续进行训练;
且每经过N个时刻后,目标BP神经网络对当前BP神经网络的参数进行复制,实现对当前BP神经网络和目标BP神经网络参数的更新;
步骤四、当每个时刻的状态依次输入当前BP神经网络后,当前BP神经网络分别根据每个时刻的状态输出对应时刻的动作a,再利用ε贪婪策略选择出最优动作;
将每个时刻对应的最优动作代入待设计的控制参数的表达式,获得待设计的控制参数的参数值,将获得的参数值输入水下机器人的速度和艏向控制系统的控制律,实现对水下机器人轨迹跟踪的控制。
2.根据权利要求1所述的一种基于双BP网络增强学习框架的水下机器人轨迹跟踪方法,其特征在于,所述步骤一的具体过程为:
水下机器人的速度和艏向控制系统的控制律如公式(1)至(3)所示:
其中,τu为推进器纵向推力,m为水下机器人质量,Xu|u|、Nr|r|、Nr均为无量纲水动力参数,v为水下机器人横向速度,r为水下机器人偏航角速度,|r|为水下机器人偏航角速度的绝对值,u为水下机器人纵向速度,|u|为水下机器人纵向速度的绝对值,ud为水下机器人纵向期望速度,代表水下机器人纵向期望加速度,τr为转艏力矩,Iz为水下机器人绕运动坐标系z轴的转动惯量,为水下机器人的艏向角,β为侧漂角,为侧漂角速度,为参考型水下机器人在惯性参考系下的艏向角,为参考型水下机器人艏向角速度,δ为导航角,为导航角的角速度,ur为参考型水下机器人纵向速度,vt=(u,v)Τ为水下机器人合速度,为艏向角误差,s为沿路径的广义弧长,为s的一阶导数,xe为待控制的水下机器人与参考型水下机器人的纵向位置误差,为期望角角速度,k1、k2、k3和k4均为待设计的控制参数,且k1、k2、k3和k4均为正常数;
导航角δ的表达式:
其中,ye为待控制的水下机器人与参考型水下机器人的横向位置误差,k0为导航角控制增益,Δ为超前长度;<...
【专利技术属性】
技术研发人员:孙延超,张佩,王卓,秦洪德,李鹏,景锐洁,曹禹,张宇昂,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:黑龙;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。