System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于离散SAC的海洋洋流助力路径规划方法技术_技高网
当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于离散SAC的海洋洋流助力路径规划方法技术

技术编号:40413256 阅读:5 留言:0更新日期:2024-02-20 22:31
本发明专利技术涉及一种基于离散SAC的海洋洋流助力路径规划方法,可解决目前因洋流对水下机器人的不确定影响及水下机器人耗能多的问题。包括下列步骤:首先搭建复杂时变的海洋洋流环境,选取国家海洋数据中心的洋流数据,对洋流数据进行预处理,得到类真实的海洋环境;接着对水下机器人进行运动学动力学建模,探究水下机器人的控制机理;然后搭建深度强化学习框架,设计通用状态空间、动作空间、以及节能奖励函数,设计深度强化学习网络,为水下机器人的运动提供智能控制框架;最后在Gazebo平台中进行仿真训练,通过海洋环境和水下机器人与算法的交互,不断策略迭代和更新,得到最优控制策略。最终得到一种基于离散SAC的海洋洋流助力水下机器人路径规划算法。

【技术实现步骤摘要】

本专利技术涉及无人机的自主控制领域,特别是涉及一种基于离散sac的海洋洋流助力路径规划的方法。


技术介绍

1、近年来,在海洋勘测、海洋资源开发以及环境监测等领域,水下机器人广泛用于执行各种任务,如海底地形测量、水下目标搜索和救援等。然而,在复杂的海洋环境中,水下机器人的路径规划问题面临着许多挑战,尤其是在海洋洋流的影响情况下。海洋洋流是海洋中水流的运动形式,它受到多种因素的影响,如地球自转、风力、海水密度差异等。洋流的速度和方向在空间和时间上都是非常复杂和变化的。这种复杂性对水下机器人的路径规划提出了新的要求。传统的路径规划算法,如a*算法、d*算法,以及基于强化学习的路径规划算法通常只考虑水下机器人自身的状态与目标任务的关系,忽略了洋流对水下机器人的影响,导致路径规划结果不准确,并且水下机器人需要消耗更多的能源来完成任务,导致能源浪费等问题。

2、因此,需要一种新的路径规划算法在考虑海洋洋流对水下机器人的影响下,并充分利用洋流对水下机器人的助推效应,以提高路径规划的准确性和能源利用效率。强化学习旨在让智能体通过与环境的交互试错的方式来训练智能体,最大化累积奖励,学习最优行为策略。离散sac(soft actor-critic,sac)算法是一种基于强化学习的算法,能够学习到最优策略并应用于路径规划问题。该算法结合了离散动作空间和策略梯度方法,适用于具有大型状态空间和动作空间的问题。

3、本专利技术旨在提供一种基于离散sac的海洋洋流助力水下机器人路径规划方法,通过获取海洋洋流数据并结合离散sac方法,使水下机器人能够充分利用洋流助推效应,实现高效、准确的路径规划。该算法考虑了水下机器人的能源消耗、任务完成时间等因素,能够生成最优路径,提高水下机器人的导航性能和能源利用效率。


技术实现思路

1、本专利技术的目的在于避免水下机器人在水下运动耗能大、运动时间有限的不足,提出一种基于离散sac的海洋洋流助力水下机器人路径规划算法。本专利技术以gazebo机器人仿真平台为基础,搭建与实际海洋环境相符的复杂的洋流环境,为算法的泛化性提供一定的环境基础,接着算法基于深度强化学习框架搭建,与复杂的洋流环境不断交互学习,利用本专利技术提出的能耗最优奖励函数更新策略网络,从而探索到从起始点到目标点的能耗最少、效率最高的一条路径。技术方案如下:

2、一种基于离散sac的海洋洋流助力水下机器人路径规划方法,步骤如下:

3、第一步:搭建复杂时变的海洋洋流环境;

4、(1)海洋洋流及地理信息数据获取:从国家海洋数据中心获取真实海洋洋流的地理信息数据,记录对应经纬度、高度、以及对应点的洋流三维速度信息。

5、(2)数据预处理:对获取的海洋洋流数据进行预处理和清洗,确保洋流数据的时变性、准确性和可靠性。

6、(3)洋流模型构建:基于预处理后的数据,建立一种基于数值的洋流模型。

7、(4)gazebo环境集成:将洋流的数值模型通过ros的话题形式发布到gazebo仿真平台中,使得仿真环境可以在三维空间中实时模拟洋流的时变状态。

8、(5)交互界面设计:利用rviz设计复杂海洋洋流环境的交互界面,保证在仿真实验过程中可以实时监控海洋环境和水下机器人的运动状态。

9、(6)实时模拟和数据输出:利用gazebo强大的实时性能,对海洋洋流及海底模型进行实时模拟,并输出模拟数据供后续机器人运动的交互分析。

10、(7)对水下机器人进行建模:定义水下机器人的潜航器模型,并将对应的物理属性后发布到gazebo仿真器中,通过ros系统的信息发布和订阅机制实现对水下机器人状态的获取以及模型的控制,并且将控制代码抽象为python的接口供后续强化学习算法的调用。

11、(8)构建路径规划具体任务:在gazebo仿真器中定义路径规划的起始点和终止点,实现水下机器人在海洋三维空间的路径规划。

12、第二步:设计深度强化学习训练框架:

13、(1)深度强化学习网络设计:设计适合该任务的深度神经网络,包括卷积网络、全连接网络以及激活函数等,用于从状态空间中提取特征,并辅助智能体进行决策。

14、(2)强化学习算法集成:选择离散sac算法,引入经验回放缓冲技术,用于存储智能体在与环境交互过程中的经验样本,在经验回放区存满之前不会丢弃样本,减少样本相关性,提高训练效率。并且将离散sac算法集成到深度学习网络中,实现算法的网络搭建和相应参数的调整。

15、(3)设计动作空间、状态空间:状态空间和动作空间直接影响智能体的学习和训练过程,因此,在状态空间的选择中应该包含足够的信息,并且要避免信息冗余,以减少状态空间的维度,例如物体的位置、速度、方向等;;动作空间应与任务目标和要求相匹配,并且限制动作空间的幅度以提高训练的稳定性,例如水下机器人移动的方向和速度、执行器的转速等。

16、(4)奖励函数设计:设计合理且创新的奖励函数,以引导智能体朝着期望的目标进行学习和决策。

17、(5)训练策略优化:通过不断地在环境中与智能体交互,对深度学习网络参数进行优化,以提高智能体的性能和决策能力。

18、(6)收敛性监测:引入收敛性监测机制,及时检测训练过程中的收敛状态,避免过拟合或者训练不稳定的情况。

19、本专利技术的有益效果是:

20、本专利技术提出的基于离散sac的海洋洋流助力水下机器人路径规划算法,不仅可以更好地利用洋流助力效果,实现节能的效果,而且该方法提供了强大的自主决策能力,使水下机器人能够更好地适应复杂的海洋环境,实现更准确、高效、安全的路径规划。总之,该方法的设计,为基于强化学习的路径规划算法开辟了一种新的思路。

本文档来自技高网...

【技术保护点】

1.一种基于离散SAC的海洋洋流助力路径规划方法,其特征在于:

2.如权利要求1中所述的一种基于离散SAC的海洋洋流助力路径规划方法,其特征在于,基于海洋洋流数据预处理提出采用牛顿插值的方法解决原始数据时间维度以及位置维度稀疏,保证水下机器人与仿真环境在每个位置都有充分的交互。

3.如权利要求1中所述的一种基于离散SAC的海洋洋流助力路径规划方法,其特征在于,一种基于数值的洋流模型,包含了该海洋区域的所有坐标位置信息,以及该位置下的洋流大小和方向的信息。基于此,在后续强化学习训练中,水下机器人运动的每个位置都有洋流的作用。

4.如权利要求1中所述的一种基于离散SAC的海洋洋流助力路径规划方法,其特征在于,基于深度强化学习网络设计一种SAC算法的网络框架。其中包含了1个actor网络和4个critic网络(其中两个V网络的输出为v(s),代表状态价值的估计;QCritic网络的输出为q(s,a),代表动作-状态对价值的估计)。actor网络的输入为状态s,输出为动作a;4个critic网络输入为s,输出为价值估计。由于输入数据简单,复杂的网络更容易过拟合,因此,采用两个隐藏层的多层感知器,并且采用dropout的技术防止过拟合。并且,使用ReLU作为激活函数。

5.如权利要求1中所述的一种基于离散SAC的海洋洋流助力路径规划方法,其特征在于,动作空间、状态空间设计结合路径规划任务的特点,设计动作空间为5维向量,其中vfin控制水下机器人的转动方向,vthruster为推进器提供动力。通过学习水下机器人鳍和推进器的速度,从而满足水下机器人在三维空间中的运动。

6.如权利要求1中所述的一种基于离散SAC的海洋洋流助力路径规划方法,其特征在于,设计目标奖励rgoal为机器人当前位置到目标位置的距离并且进行归一化处理。为了节省能耗,设计能耗奖励renergy,能耗奖励考察动作空间数值的大小,数值越大代表水下机器人耗能越高,renergy为负。为了加快训练进程,设计训练奖励rstep,当训练步长在规定步长之内完成训练,rstep为正,否则无奖励。因此,总奖励函数r的计算如下。

...

【技术特征摘要】

1.一种基于离散sac的海洋洋流助力路径规划方法,其特征在于:

2.如权利要求1中所述的一种基于离散sac的海洋洋流助力路径规划方法,其特征在于,基于海洋洋流数据预处理提出采用牛顿插值的方法解决原始数据时间维度以及位置维度稀疏,保证水下机器人与仿真环境在每个位置都有充分的交互。

3.如权利要求1中所述的一种基于离散sac的海洋洋流助力路径规划方法,其特征在于,一种基于数值的洋流模型,包含了该海洋区域的所有坐标位置信息,以及该位置下的洋流大小和方向的信息。基于此,在后续强化学习训练中,水下机器人运动的每个位置都有洋流的作用。

4.如权利要求1中所述的一种基于离散sac的海洋洋流助力路径规划方法,其特征在于,基于深度强化学习网络设计一种sac算法的网络框架。其中包含了1个actor网络和4个critic网络(其中两个v网络的输出为v(s),代表状态价值的估计;qcritic网络的输出为q(s,a),代表动作-状态对价值的估计)。actor网络的输入为状态s,输出为动作a;4个crit...

【专利技术属性】
技术研发人员:杨嘉琛王芷菁奚萌温家宝肖帅
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1