System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于双重优势策略梯度的水下机器人的路径跟随控制方法技术_技高网

基于双重优势策略梯度的水下机器人的路径跟随控制方法技术

技术编号:40553899 阅读:10 留言:0更新日期:2024-03-05 19:14
本发明专利技术公开了基于双重优势策略梯度的水下机器人的路径跟随控制方法,该方法首先定义自主水下航行器AUV路径跟随控制问题。其次针对AUV路径跟随控制问题,建立AUV路径跟随问题的马尔科夫决策过程模型。通过构建双重优势策略网络求解马尔科夫决策过程。最后求解AUV路径跟随控制的马尔科夫决策过程,完成水下机器人的路径跟随控制。本发明专利技术能够实现更智能和自适应的控制,适用于在复杂深海环境下工作的AUV,实现高精度的AUV路径跟随控制。

【技术实现步骤摘要】

本专利技术属于深度强化学习和智能控制领域,涉及一种基于双重优势策略梯度算法的自治水下机器人(auv)路径跟随控制方法。


技术介绍

1、自治水下机器人(autonomous underwater vehicle,auv)因自主性、灵活性、高机动性等优点,已被广泛应用于军事、海底勘测、海洋资源开发等复杂水下任务。auv的水下路径跟随对于实现这些复杂任务至关重要,近年来成为控制领域的研究热点。然而,当前auv的运动控制仍面临许多挑战,主要包括以下几个方面:首先,auv具有高度非线性的动力学模型和时变的水动力系数,并且具有强耦合性;其次,难以准确获取auv的模型;最后,由于复杂多变的水下环境,外部噪音干扰也是一种挑战。

2、近年来,研究人员应用了多种方法控制auv的运动,包括比例-积分-微分(proportional integral derivative,pid)控制、反步、滑膜控制、模型预测控制等,然而pid等算法不适用于auv的非线性模型,反步、滑膜控制、模型预测控制等算法在auv模型不准确的情况下效果不理想,refsnes j e等人在上述方法的基础上对auv模型解耦或线性化降低控制困难,然而这种做法并不适用于真实的auv控制环境。

3、鉴于上述方法的局限性并且考虑到智能控制的自我学习能力,cui r等人尝试引入强化学习控制auv的运动,zhang q等人将auv的控制输入离散化后应用dqn算法进行路径跟随与避障任务。shi w等人使用多对策略网络和评估网络的方式提高ddpg算法在auv轨迹跟踪任务中的稳定性。基于策略梯度的强化学习算法通常使用动作值评估策略网络的决策,然而由于动作值存在不均匀高估的问题,策略网络容易受到错误的指导导致输出不稳定,并且拖慢训练收敛速度。xi m等人将auv的控制输入离散化并应用dueling dqn实现路径规划,dueling dqn通过在动作值中去除状态值,提出了优势值的概念,其度量了智能体处于某个状态时采取某个动作相较于平均动作的优势程度,使用优势值代替动作值一定程度上避免了动作值高估的问题。尽管优势值的思想已经被应用在一些强化学习算法上并得到了广泛应用,但当前优势值的实现形式只适用于离散动作空间,而auv的控制输入属于连续动作空间,无法直接在auv的控制中应用优势值。另一方面,由于水下环境的复杂多变,较大的外部噪声会干扰到策略网络的输出,而auv的控制输入直接继承策略网络的输出,从而导致auv与环境的交互受到影响。


技术实现思路

1、本专利技术的目的是提出一种双重优势策略梯度算法并应用在auv路径跟随上,该方法通过引入优势值和两组策略网络的方式,提高策略网络训练的稳定性并优化其输出,同时提高算法的抗干扰能力,实现高精度的auv路径跟随控制和稳定学习。

2、为了实现上述目的,本专利技术采用如下技术方案:

3、一种基于双重优势策略梯度的自主水下航行器路径跟随控制方法,该方法包括以下步骤:

4、1)定义自主水下航行器auv路径跟随控制问题

5、定义auv路径跟随控制问题包括三个部分:确定auv系统输入、确定auv系统输出、定义轨迹跟踪控制误差;具体步骤如下:

6、1-1)确定auv系统输入

7、令auv的系统输入向量为τt=[ξt,δt]t,其中ξt、δt分别为螺旋桨推力和舵角,下标t表示第t个时间步;ξt、δt的取值范围分别为和其中和分别为最大的螺旋桨推力和最大舵角;

8、1-2)确定auv系统输出

9、令auv系统输出向量为ηt=[xt,yt,ψt]t,其中xt,yt分别为第t个时间步,auv在惯性坐标系i-xyz下沿x、y轴的坐标,ψt为auv前进方向与x轴线的夹角;

10、1-3)定义路径跟随控制误差

11、根据auv的行驶路径选取第t个时间步的轨迹参考点定义第t个时间步的auv路径跟随控制误差为:

12、

13、2)建立auv路径跟随问题的马尔科夫决策过程模型

14、对步骤1)中的auv路径跟随问题进行马尔科夫决策过程建模,具体步骤如下:

15、2-1)定义状态向量

16、定义auv系统的速度向量为φt=[ut,vt,rt]t,其中ut、vt分别为第t个时间步auv沿前进方向、垂直于前进方向的线速度,rt为第t个时间步auv环绕前进方向的角速度;

17、根据步骤1-2)确定的auv系统输出向量ηt和步骤1-3)定义的轨迹参考点,定义第t个时间步的状态向量如下:

18、st=[ηtt,φtt,dtt,dt+1t]t

19、2-2)定义动作向量

20、定义第t个时间步的动作向量为该时间步的auv系统输入向量,即at=τt

21、2-3)定义奖励函数

22、第t个时间步的奖励函数用于刻画在状态st采取动作at的执行效果,根据步骤1-3)定义的轨迹跟踪控制误差et,定义第t个时间步的auv奖励函数如下:

23、rt=r(st,at)=-ettet

24、3)构建双重优势策略网络

25、通过构建双重优势策略网络来求解马尔科夫决策过程,构建双重优势策略网络包括三部分:构建优势网络、构建双重策略网络和确定目标动作,具体步骤如下:

26、3-1)构建优势网络

27、双重优势策略网络通过构建优势网络a(st,at,ω,μ)评估策略的好坏;其中ω、μ为网络的权重参数;优势网络由动作值网络q(st,at,ω)和状态值网络v(st,μ)组成,动作值网络和状态值网络均分别使用一个全连接的深度神经网络来实现;动作值网络的输入为状态向量st和动作向量at,动作值网络的输出为动作值;状态值网络的输入为状态向量st,状态值网络的输出为状态值,通过使用动作值减去状态值确定优势值,优势网络的输出为优势值。同时定义动作值目标网络q(st,at,ω′)和状态值目标网络v(st,μ′)计算目标值,其中ω′和μ′为网络的权重参数。动作值目标网络结构和动作值网络完全相同,状态值目标网络结构和状态值网络完全相同;

28、3-2)构建双重策略网络

29、双重优势网络通过构建两个模型完全相同,只有参数不同的两个策略网络π(st,θ1)与π(st,θ2)来确定最优策略,两个策略网络均分别使用一个全连接的深度神经网络来实现;两个策略网络的输入为状态向量st,两个策略网络的输出为动作向量at;

30、3-3)确定目标动作

31、根据所构建的双重优势策略网络,在第t个时间步选取的动作为使得优势值最大的动作,计算公式如下:

32、

33、4)求解auv路径跟随控制的马尔科夫决策过程,完成水下机器人的路径跟随控制,具体步骤如下:

34、4-1)参数设置

35、分别设置最大迭代次数m、每次迭代的最大时间步t、经验回放抽取的本文档来自技高网...

【技术保护点】

1.基于双重优势策略梯度的水下机器人的路径跟随控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于双重优势策略梯度的水下机器人的路径跟随控制方法,其特征在于,S1所述AUV路径跟随控制问题包括确定AUV系统输入、确定AUV系统输出和定义轨迹跟踪控制误差,具体如下:

3.根据权利要求2所述的基于双重优势策略梯度的水下机器人的路径跟随控制方法,其特征在于,S2具体过程如下:

4.根据权利要求3所述的基于双重优势策略梯度的水下机器人的路径跟随控制方法,其特征在于,S3所述构建双重优势策略网络包括构建优势网络、构建双重策略网络和确定目标动作,具体如下:

5.根据权利要求4所述的基于双重优势策略梯度的水下机器人的路径跟随控制方法,其特征在于,在S3-1中,所述动作值网络和状态值网络均使用全连接的深度神经网络实现;

6.根据权利要求5所述的基于双重优势策略梯度的水下机器人的路径跟随控制方法,其特征在于,S4具体过程如下:

【技术特征摘要】

1.基于双重优势策略梯度的水下机器人的路径跟随控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于双重优势策略梯度的水下机器人的路径跟随控制方法,其特征在于,s1所述auv路径跟随控制问题包括确定auv系统输入、确定auv系统输出和定义轨迹跟踪控制误差,具体如下:

3.根据权利要求2所述的基于双重优势策略梯度的水下机器人的路径跟随控制方法,其特征在于,s2具体过程如下:

4.根据权利要求3所述的...

【专利技术属性】
技术研发人员:韩杰锐郭栋梁季朝阳张启忠
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1