【技术实现步骤摘要】
一种基于SAC算法的AUV路径规划控制方法
[0001]本专利技术涉及一种基于SAC算法的AUV路径规划的连续控制方法,属于机器人路径规划
技术介绍
[0002]随着科技的发展,人类对海洋资源的开发和投入越来越大,海洋拥有丰富的矿产资源、生物资源以及可再生能源,是人类社会可持续发展的重要资产。自主水下航行器(autonomousunderwatervehicle,AUV)作为海洋作业的重要工具,非常适合海上搜索、调查、识别和打捞作业,AUV 路径规划技术的研究与发展使海洋开发进入了一个新的时代。
[0003]传统的AUV路径规划方法主要包括以下几种:(1)基于几何模型搜索的方法,如Dijkstra、A*等,这类方法需要建立运动环境的几何模型,规划出的轨迹不够平滑,难以满足AUV的机动性要求,且每一个新的规划都必须从头开始计算,规划过程不够智能化。
[0004](2)基于虚拟势场的方法,如人工势场法,这类方法所需环境信息少,操作方便,然而,它很容易陷入局部最优。
[0005](3)基于人工智能的方法,如蚁群算法、遗传算法等,这类方法的主要优点是不需要建立复杂的环境障碍物模型,AUV可以在环境空间中进行随机或特定搜索,但在面临复杂的海洋环境时效果较差,且难以完成实时动态规划。
[0006]近年来,随着深度学习和强化学习的发展,强化学习在AUV路径规划技术中的应用越来越多。强化学习通过智能体和环境的不断交互来不断优化智能体的策略,相比于传统方法具有更好的路径规划效果,训练出来的智能 ...
【技术保护点】
【技术特征摘要】
1.一种基于SAC算法的AUV路径规划控制方法,其特征在于,包含以下步骤:第一步,建立连续坐标值的二维平面地图,定义环境的奖励函数,初始化相关参数及障碍物集合;第二步,AUV基于结合人工势场法的强化学习SAC算法采取动作;第三步,执行第二步计算出的动作,使用AUV的声纳搜索障碍物,并将障碍物信息保存到障碍物集合中;在SAC算法的奖励函数中加入启发式函数,计算启发式奖励;第四步,进行价值网络和策略网络的更新;策略网络为一神经网络,输入变量为AUV观测的环境状态,经过线性计算后分别输出动作分布的均值和标准差,AUV根据标准正态分布结合策略网络输出的均值和标准差计算动作;价值网络为另一神经网络,输入变量为AUV观测的环境状态和AUV采取的动作,输出一标量值用来衡量AUV在当前状态采取当前动作的好坏程度,该值越大代表采取的动作越好;第五步,调整动作选择策略的相关概率及启发函数的启发系数;第六步,重复执行第二步至第五步,直至达到一定收敛条件为止;第七步,最后,网络训练完毕后,将环境信息输入到策略网络中,使用策略网络输出的动作控制AUV运动,最终得到规划路径。2.根据权利要求1所述的基于SAC算法的AUV路径规划控制方法,其特征在于,第一步:建立目标点障碍物的环境模型,初始化参数;首先生成1200*800的连续环境地图,设置地图的某一坐标为目标点位置,设置地图另一坐标为AUV起始运动坐标,设置AUV的速度v=(x,y),其中x为AUV的运动幅度,y为AUV的转动角度,x和y均为连续值;在地图中随机生成n个障碍物,以圆形表示AUV、障碍物和目标点,初始化概率参数p1,p2,初始化启发系数,初始化SAC的策略网络和价值网络,初始化障碍物集合D,将每个障碍物的坐标原点添加到障碍物集合中。3.根据权利要求2所述的基于SAC算法的AUV路径规划控制方法,其特征在于,第一步中,以圆形表示AUV、障碍物和目标点,设定AUV的半径为20,声纳搜索半径为150,目标点的半径为100,障碍物的半径为范围内随机值。4.根据权利要求2所述的基于SAC算法的AUV路径规划控制方法,其特征在于,最初的奖励定义为:在AUV采取每一步动作后,如果AUV到达了目标点给予奖励值r1,r1>0,如果AUV触碰到了边界给予奖励值r2,r2<0,如果AUV触碰到了障碍物给予奖励值r3,r3<r2<0,其他情况下,给予奖励值0。5.根据权利要求1所述的基于SAC算法的AUV路径规划控制方法,其特征在于,第二步,计算AUV的动作,策略网络输出动作的均值mean和标准差std,然后生成和动作相同维度的标准正态分布并获取采样值normal,则输出的动作为mean + normal * std;以p1概率采取策略网络输出的动作,以1
‑
p1概率采取其他动作;在采取其他动作的情况下,以p2概率采取人工势场法,以1
‑
p2的概率采取随机动作;其中人工势场法动作的计算如下:对障碍物集合中的所有障碍物使用式(1)建立斥力势场,使用式(2)计算斥力,(1)
(2)其中为斥力系数,为当前点到障碍物的距离,为斥力失效距离,距离超过则斥力为0,为当前点到目标点的距离,为q点所受到的斥力场大小,q为当前所在点的坐标,为q点所受到的斥力大小,其中和分别为q点所受斥力分解为横向x方向和纵向y方向的斥力大小,n为一任意正常数;对目标点使用式(3)建立引力势场,使用式(4)计算引力,(3)(4)其中,为q点所受到的斥力场大小,为q点所受到的斥力大小,为引力系数,为当前点到目标点的距离;最后求得...
【专利技术属性】
技术研发人员:李沂滨,张忠铝,张天泽,张悦,孙雨泽,
申请(专利权)人:山东大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。