当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于SAC算法的AUV路径规划控制方法技术

技术编号:36047551 阅读:20 留言:0更新日期:2022-12-21 10:56
本发明专利技术涉及一种基于SAC算法的AUV路径规划控制方法,属于机器人路径规划技术领域,主要包括在SAC算法中引入动态人工势场法,可以在智能体难以做出决策或者长时间做出无效动作时提供引导作用,也可以避免纯粹人工势场法陷入局部最优的问题,AUV基于结合人工势场法的强化学习SAC算法采取动作并执行动作,使用AUV的声纳搜索障碍物,并将障碍物信息保存到障碍物集合中;在SAC算法中引入启发式函数,用来引导AUV做出正确的动作,以加快强化学习的训练过程,解决稀疏奖励的问题,网络训练完毕后,将环境信息输入到策略网络中,使用策略网络输出的动作控制AUV运动,最终得到规划路径。最终得到规划路径。最终得到规划路径。

【技术实现步骤摘要】
一种基于SAC算法的AUV路径规划控制方法


[0001]本专利技术涉及一种基于SAC算法的AUV路径规划的连续控制方法,属于机器人路径规划


技术介绍

[0002]随着科技的发展,人类对海洋资源的开发和投入越来越大,海洋拥有丰富的矿产资源、生物资源以及可再生能源,是人类社会可持续发展的重要资产。自主水下航行器(autonomousunderwatervehicle,AUV)作为海洋作业的重要工具,非常适合海上搜索、调查、识别和打捞作业,AUV 路径规划技术的研究与发展使海洋开发进入了一个新的时代。
[0003]传统的AUV路径规划方法主要包括以下几种:(1)基于几何模型搜索的方法,如Dijkstra、A*等,这类方法需要建立运动环境的几何模型,规划出的轨迹不够平滑,难以满足AUV的机动性要求,且每一个新的规划都必须从头开始计算,规划过程不够智能化。
[0004](2)基于虚拟势场的方法,如人工势场法,这类方法所需环境信息少,操作方便,然而,它很容易陷入局部最优。
[0005](3)基于人工智能的方法,如蚁群算法、遗传算法等,这类方法的主要优点是不需要建立复杂的环境障碍物模型,AUV可以在环境空间中进行随机或特定搜索,但在面临复杂的海洋环境时效果较差,且难以完成实时动态规划。
[0006]近年来,随着深度学习和强化学习的发展,强化学习在AUV路径规划技术中的应用越来越多。强化学习通过智能体和环境的不断交互来不断优化智能体的策略,相比于传统方法具有更好的路径规划效果,训练出来的智能体具有更好的环境适应性,且可以针对环境信息进行实时路径规划。
[0007]然而AUV所处的海洋环境十分复杂,强化学习存在训练过程缓慢、收敛速度慢等问题,且强化学习的奖励往往由人为规定,很难实现理想的环境奖励设置,导致强化学习在训练过程中存在奖励稀疏的问题,即存在智能体长时间得不到有效奖励导致训练速度极慢甚至训练失败的问题。

技术实现思路

[0008]针对现有技术的不足,为了解决上述
技术介绍
中存在的问题,本专利技术提供一种基于强化学习SAC算法的AUV路径规划方法,并主要对方法进行两个方面的改进:第一是在SAC算法中引入动态人工势场法,可以在智能体难以做出决策或者长时间做出无效动作时提供引导作用,同时SAC算法具有极强的探索能力,可以避免纯粹人工势场法陷入局部最优的问题;第二是在SAC算法中引入启发式函数,以加快强化学习的训练过程,解决稀疏奖励的问题。
[0009]本专利技术的技术方案如下:本专利技术一个方面为使用SAC算法结合人工势场法的AUV路径规划方法,包括:
使用基于最大熵随机策略的强化学习算法SAC,该方法基于actor

critic框架,使用策略网络输出随机动作,驱动AUV运动,使用价值网络评判动作的好坏。在训练过程中,设置AUV的声纳搜素范围,在每一步的运动中,将声纳发现的障碍物添加到障碍物集合中,并在一定条件下,根据当前障碍物集合中的障碍物使用人工势场法采取动作,随着训练的进行,调整使用人工势场法的概率。
[0010]本专利技术的第二个方面提供了一种基于启发式函数的奖励函数设计方法,其包括:对传统奖励函数进行修正,在奖励函数中引入启发式函数,用来引导AUV做出正确的动作,并随着训练的进行,适当调整启发式函数的影响因子,降低启发式函数的影响。
[0011]一种基于SAC算法的AUV路径规划控制方法,包含以下步骤:第一步,建立连续坐标值的二维平面地图,定义环境的奖励函数,初始化相关参数及障碍物集合;第二步,AUV基于结合人工势场法的强化学习SAC算法采取动作;第三步,执行第二步计算出的动作,使用AUV的声纳搜索障碍物,并将障碍物信息保存到障碍物集合中;在SAC算法的奖励函数中加入启发式函数,计算启发式奖励;第四步,进行价值网络和策略网络的更新;第五步,调整动作选择策略的相关概率及启发函数的启发系数;第六步,重复执行第二步至第五步,直至达到一定收敛条件为止;第七步,最后,网络训练完毕后,将环境信息输入到策略网络中,使用策略网络输出的动作控制AUV运动,最终得到规划路径。
[0012]优选的,第一步:建立目标点障碍物的环境模型,初始化参数;首先生成1200*800的连续环境地图,设置地图的某一坐标为目标点位置,设置地图另一坐标为AUV起始运动坐标,设置AUV的速度v=(x, y),其中x为AUV的运动幅度,y为AUV的转动角度,x和y均为连续值;在地图中随机生成n个障碍物,以圆形表示AUV、障碍物和目标点,优选的,其中AUV的半径为20,声纳搜索半径为150,目标点的半径为100,障碍物的半径为范围内随机值。初始化概率参数p1,p2,初始化启发系数,初始化SAC的策略网络和价值网络,初始化障碍物集合D,将每个障碍物的坐标原点添加到障碍物集合中。
[0013]优选的,奖励函数最初的奖励定义为:在AUV采取每一步动作后,如果AUV到达了目标点给予奖励值r1,r1>0,如果AUV触碰到了边界给予奖励值r2,r2<0,如果AUV触碰到了障碍物给予奖励值r3,r3<r2<0,其他情况下,给予奖励值0。
[0014]优选的,策略网络为一神经网络,输入变量为AUV观测的环境状态,经过线性计算后分别输出动作分布的均值和标准差,AUV根据标准正态分布结合策略网络输出的均值和标准差计算动作;价值网络为另一神经网络,输入变量为AUV观测的环境状态和AUV采取的动作,输出一标量值用来衡量AUV在当前状态采取当前动作的好坏程度,该值越大代表采取的动作越好。
[0015]优选的,第二步,计算AUV的动作,策略网络输出动作的均值mean和标准差std,然后生成和动作相同维度的标准正态分布并获取采样值normal,则输出的动作为mean + normal * std;以p1概率采取策略网络输出的动作,以1

p1概率采取其他动作;在采取其他动作的情况下,以p2概率采取人工势场法,以1

p2的概率采取随机动作。
[0016]其中人工势场法动作的计算如下:对障碍物集合中的所有障碍物使用式(1)建立
斥力势场,使用式(2)计算斥力,(1)(2)其中为斥力系数,为当前点到障碍物的距离,为斥力失效距离,距离超过则斥力为0,为当前点到目标点的距离,为q点所受到的斥力场大小,q为当前所在点的坐标,为q点所受到的斥力大小,其中和分别为q点所受斥力分解为横向x方向和纵向y方向的斥力大小,n为一任意正常数,优选的,这里n取2。
[0017]对目标点使用式(3)建立引力势场,使用式(4)计算引力,(3)(4)其中,为q点所受到的斥力场大小,为q点所受到的斥力大小,为引力系数,为当前点到目标点的距离;最后求得引力和所有斥力的合力向量,向量的幅度作为AUV的运动幅度,向量的角度与AUV前一步运动方向的夹角作为AUV的转动角度。
[0018]优选的,合力向量的计算为:首先计算出A本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于SAC算法的AUV路径规划控制方法,其特征在于,包含以下步骤:第一步,建立连续坐标值的二维平面地图,定义环境的奖励函数,初始化相关参数及障碍物集合;第二步,AUV基于结合人工势场法的强化学习SAC算法采取动作;第三步,执行第二步计算出的动作,使用AUV的声纳搜索障碍物,并将障碍物信息保存到障碍物集合中;在SAC算法的奖励函数中加入启发式函数,计算启发式奖励;第四步,进行价值网络和策略网络的更新;策略网络为一神经网络,输入变量为AUV观测的环境状态,经过线性计算后分别输出动作分布的均值和标准差,AUV根据标准正态分布结合策略网络输出的均值和标准差计算动作;价值网络为另一神经网络,输入变量为AUV观测的环境状态和AUV采取的动作,输出一标量值用来衡量AUV在当前状态采取当前动作的好坏程度,该值越大代表采取的动作越好;第五步,调整动作选择策略的相关概率及启发函数的启发系数;第六步,重复执行第二步至第五步,直至达到一定收敛条件为止;第七步,最后,网络训练完毕后,将环境信息输入到策略网络中,使用策略网络输出的动作控制AUV运动,最终得到规划路径。2.根据权利要求1所述的基于SAC算法的AUV路径规划控制方法,其特征在于,第一步:建立目标点障碍物的环境模型,初始化参数;首先生成1200*800的连续环境地图,设置地图的某一坐标为目标点位置,设置地图另一坐标为AUV起始运动坐标,设置AUV的速度v=(x,y),其中x为AUV的运动幅度,y为AUV的转动角度,x和y均为连续值;在地图中随机生成n个障碍物,以圆形表示AUV、障碍物和目标点,初始化概率参数p1,p2,初始化启发系数,初始化SAC的策略网络和价值网络,初始化障碍物集合D,将每个障碍物的坐标原点添加到障碍物集合中。3.根据权利要求2所述的基于SAC算法的AUV路径规划控制方法,其特征在于,第一步中,以圆形表示AUV、障碍物和目标点,设定AUV的半径为20,声纳搜索半径为150,目标点的半径为100,障碍物的半径为范围内随机值。4.根据权利要求2所述的基于SAC算法的AUV路径规划控制方法,其特征在于,最初的奖励定义为:在AUV采取每一步动作后,如果AUV到达了目标点给予奖励值r1,r1>0,如果AUV触碰到了边界给予奖励值r2,r2<0,如果AUV触碰到了障碍物给予奖励值r3,r3<r2<0,其他情况下,给予奖励值0。5.根据权利要求1所述的基于SAC算法的AUV路径规划控制方法,其特征在于,第二步,计算AUV的动作,策略网络输出动作的均值mean和标准差std,然后生成和动作相同维度的标准正态分布并获取采样值normal,则输出的动作为mean + normal * std;以p1概率采取策略网络输出的动作,以1

p1概率采取其他动作;在采取其他动作的情况下,以p2概率采取人工势场法,以1

p2的概率采取随机动作;其中人工势场法动作的计算如下:对障碍物集合中的所有障碍物使用式(1)建立斥力势场,使用式(2)计算斥力,(1)
(2)其中为斥力系数,为当前点到障碍物的距离,为斥力失效距离,距离超过则斥力为0,为当前点到目标点的距离,为q点所受到的斥力场大小,q为当前所在点的坐标,为q点所受到的斥力大小,其中和分别为q点所受斥力分解为横向x方向和纵向y方向的斥力大小,n为一任意正常数;对目标点使用式(3)建立引力势场,使用式(4)计算引力,(3)(4)其中,为q点所受到的斥力场大小,为q点所受到的斥力大小,为引力系数,为当前点到目标点的距离;最后求得...

【专利技术属性】
技术研发人员:李沂滨张忠铝张天泽张悦孙雨泽
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1