基于深度强化学习的水下自主航行器接驳控制方法和系统技术方案

技术编号：40477748 阅读：5 留言：0更新日期：2024-02-26 19:13

基于深度强化学习的水下自主航行器接驳控制方法和系统，涉及水下航行器的接驳控制领域。解决现有水下自主航行器的接驳基于导航信息的Pid控制，控制稳定性受洋流影响大，面对未知障碍物时决策能力不足的问题。方法包括：根据海洋环境数据和接驳控制任务场景构建状态空间和动作空间以及仿真环境模型；设计奖励函数；构建基于SAC改进的深度神经网络模型；初始化深度神经网络模型参数和经验重放缓冲区；深度神经网络模型根据当前环境状态信息输入，输出当前时间步下的最优决策，并与模拟环境模型交互，产生新状态并存储；训练深度神经网络模型，利用模型为水下自主航行器提供接驳控制支持。应用于水下探测领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及水下航行器的接驳控制领域，具体涉及海洋场景下基于深度强化学习的接驳控制方法。

技术介绍

1、水下自主航行器在对海洋的探索和开发中发挥着越来越重要的作用。水下自主航行器可以帮助人类完成许多复杂的水下任务，例如海洋水文监测、海洋生物勘探、海底管道检查和海底测绘、海防安全等。由于水下自主航行器在水下工作时存在功耗大和自身携带能源有限的问题，且如海洋检测等任务对水下自主航行器有长期活动的要求，为此需要对水下自主航行器进行周期性的能量补充以维持其在水下的长期活动。为保障水下自主航行器能够在水下长时间持续作业，需要水下自主航行器自行前往指定的回收坞站，完成接驳以及时补充能量，

2、水下自主航行器的接驳控制过程总共涉及两个方面：前往回收坞站的返航过程和与回收坞站精准对接过程。在返航过程，水下自主航行器需要从当前位置出发，实时探测并躲避周边的障碍物，快速到达目标回收坞站附近。在对接过程，水下自主航行器需要放慢速度，调整角度，以精确的姿态接入坞站，进行自主充能。整个过程中，还需要水下自主航行器具有抵抗海洋中存在的洋流、波浪等动态变化的干扰因素的能力。

3、现有的水下自主航行器的接驳技术主要基于导航信息的pid控制。然而，这种控制方法的稳定性受到洋流的严重影响。在复杂的海洋环境中，洋流的快速变化会导致航行器偏离预定路径，甚至发生碰撞。此外，当航行器遇到未知障碍物时，现有的控制系统往往无法做出及时有效的决策，增加了航行器的安全风险。

技术实现思路

1、本专利技术针对

2、一种基于深度强化学习的水下自主航行器接驳控制方法，所述方法包括：

3、s1：根据海洋环境数据和接驳控制任务场景构建状态空间和动作空间以及仿真环境模型；

4、s2：根据到达目标实际需求和接驳控制任务场景设计深度强化学习的奖励函数；

5、s3：根据所述基于深度强化学习的状态空间和动作空间，构建基于sac改进的深度神经网络模型；

6、s4：初始化所述基于sac改进的深度神经网络模型参数和经验重放缓冲区；

7、s5：基于sac改进的深度神经网络模型根据当前环境状态信息输入，输出当前时间步下的最优决策，水下自主航行器基于所述最优决策与模拟环境模型交互，产生新状态，并将状态经验存储至经验重放缓冲区；

8、s6：根据经验重放缓冲区中经验训练基于sac改进的深度神经网络模型；

9、s7：重复步骤s5和步骤s6，直至达到预设结束条件停止，获得收敛模型；

10、s8：利用收敛模型为水下自主航行器提供接驳控制支持。

11、进一步的，还提供一种优选方式，所述步骤s1包括：

12、根据历史海洋环境数据进行分析，获取数据变化范围；

13、构建地坐标系和随水下自主航行器运动的以其自身为中心的体坐标系；

14、定义水下自主航行器动作空间和状态空间；

15、根据坐标系和水下自主航行器动力学方程构建水下自主航行器动力学模型；

16、根据水下自主航行器动力学模型的自身状态更新和障碍物的碰撞检测构建仿真环境模型。

17、进一步的，还提供一种优选方式，所述历史海洋环境数据包括：洋流、波浪、海冰、深度、礁石和地形。

18、进一步的，还提供一种优选方式，所述步骤s2包括：

19、

20、

21、

22、

23、

24、其中，是目标距离奖励函数；是目标角度奖励函数；是避障惩罚函数；是条件奖励函数，每一时间步的奖励r是4种奖励之和；是奖励函数对应的权重，，，，，是水下自主航行器当前时刻与目标之间的距离，是水下自主航行器上一时刻与目标之间的距离，是目标与水下自主航行器之间的相对偏航角，是目标与水下自主航行器之间的相对俯仰角，是与目标接驳所设置的最大安全偏航角，是与目标接驳所设置的最大安全俯仰角，是水下自主航行器与障碍物之间的距离，是水下自主航行器与障碍物的最小安全距离。

25、进一步的，还提供一种优选方式，所述步骤s3中基于sac改进的深度神经网络模型包括：行动者网络和评论家网络；

26、所述行动者网络的输入层的输入为当前时刻水下自主航行器的状态；输入层与第一全连接层一端连接，第一全连接层输出端与gru网络连接，所述gru网络连接输出端连接第二全连接层，所述第二全连接层的两个输出端连接分别第三全连接层和第四全连接层，所述第三全连接层用于输出动作均值，所述第四全连接层用于输出动作标准差；

27、所述评论家网络的输入层的输入为当前时刻水下自主航行器的状态以及行动者网络输出的动作，输入层与全连接层连接，所述全连接层与gru网络连接，所述gru网络的输出端连接两个全连接层，获得动作价值。

28、进一步的，还提供一种优选方式，所述行动者网络的输入层的输入具体为：水下自主航行器的位置、姿态，水下自主航行器与障碍物的距离，水下自主航行器与目标的距离、相对角度以及上一时刻的动作控制量。

29、进一步的，还提供一种优选方式，所述评论家网络的输入层的输入具体为：水下自主航行器的位置、姿态，水下自主航行器与障碍物的距离，水下自主航行器与目标的距离、相对角度，上一时刻的动作控制量，以及当前时刻行动者网络输出的动作控制量。

30、基于同一专利技术构思，本专利技术一种基于深度强化学习的水下自主航行器接驳控制系统，所述系统包括：

31、仿真环境构建单元，用于根据海洋环境数据和接驳控制任务场景构建状态空间和动作空间以及仿真环境模型；

32、奖励函数设计单元，用于根据到达目标实际需求和接驳控制任务场景设计深度强化学习的奖励函数；

33、基于sac改进的深度神经网络模型构建单元，用于根据所述基于深度强化学习的状态空间和动作空间，构建基于sac改进的深度神经网络模型；

34、初始化单元，用于初始化所述基于sac改进的深度神经网络模型参数和经验重放缓冲区；

35、决策交互单元，用于基于sac改进的深度神经网络模型根据当前环境状态信息输入，输出当前时间步下的最优决策，水下自主航行器基于所述最优决策与模拟环境模型交互，产生新状态，并将状态经验存储至经验重放缓冲区；

36、训练单元，用于根据经验重放缓冲区中经验训练基于sac改进的深度神经网络模型；

37、循环单元，用于重复决策交互单元和训练单元，直至达到预设结束条件停止，获得收敛模型；

38、接驳单元，用于利用收敛模型为水下自主航行器提供接驳控制支持。

39、基于同一专利技术构思，本专利技术还提出一种计算机可读存储介质，所述计算机可读存储介质用于储存计算机程序，所述计算机本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的水下自主航行器接驳控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于深度强化学习的水下自主航行器接驳控制方法，其特征在于，所述步骤S1包括：

3.根据权利要求2所述的一种基于深度强化学习的水下自主航行器接驳控制方法，其特征在于，所述历史海洋环境数据包括：洋流、波浪、海冰、深度、礁石和地形。

4.根据权利要求1所述的一种基于深度强化学习的水下自主航行器接驳控制方法，其特征在于，所述行动者网络的输入层的输入具体为：水下自主航行器的位置、姿态，水下自主航行器与障碍物的距离，水下自主航行器与目标的距离、相对角度以及上一时刻的动作控制量。

5.根据权利要求1所述的一种基于深度强化学习的水下自主航行器接驳控制方法，其特征在于，所述评论家网络的输入层的输入具体为：水下自主航行器的位置、姿态，水下自主航行器与障碍物的距离，水下自主航行器与目标的距离、相对角度，上一时刻的动作控制量，以及当前时刻行动者网络输出的动作控制量。

6.一种基于深度强化学习的水下自主航行器接驳控制系统，其特征在于，所述系统包括：

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于储存计算机程序，所述计算机程序执行权利要求1-5任一项所述的一种基于深度强化学习的水下自主航行器接驳控制方法。

8.一种计算机设备，其特征在于：包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据权利要求1-5中任一项中所述的一种基于深度强化学习的水下自主航行器接驳控制方法。

...

【技术特征摘要】

1.一种基于深度强化学习的水下自主航行器接驳控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于深度强化学习的水下自主航行器接驳控制方法，其特征在于，所述步骤s1包括：

5.根据权利要求1所述的一种基于深度强化学习的水下自主航行器接驳控制方法，其特征在于，所...

【专利技术属性】
技术研发人员：姜宇，齐红，宁宸，张凯欣，赵明浩，王凯，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人