System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于深度强化学习的半潜式无人艇定深控制方法及装置制造方法及图纸_技高网

基于深度强化学习的半潜式无人艇定深控制方法及装置制造方法及图纸

技术编号:40954192 阅读:2 留言:0更新日期:2024-04-18 20:30
本发明专利技术公开了一种基于深度强化学习的半潜式无人艇定深控制方法及装置,所述方法包括:构建半潜式无人艇在垂直面的二维运动模型,二维运动模型表征了所述半潜式无人艇的控制器发出的控制动作、环境信息与半潜式无人艇的运动状态的对应关系;由半潜式无人艇的控制动作、环境信息与对应的所述半潜式无人艇的运动状态组成训练数据,对DQN网络模型进行训练,得到训练完毕的DQN网络模型;半潜式无人艇使用自身的传感器采集半潜式无人艇当前状态和环境信息,提取特征向量输入训练完毕的DQN网络模型,输出半潜式无人艇的控制动作,基于控制动作,驱动半潜式无人艇的深度驱动装置。本方法显著提高半潜式无人艇的自主性、智能性和适应性。

【技术实现步骤摘要】

本专利技术涉及半潜式无人艇自主控制,具体涉及一种基于深度强化学习的半潜式无人艇定深控制方法及装置


技术介绍

1、半潜式无人艇是一种多用途无人水面舰艇,在海洋调查、海洋资源勘探以及探测潜艇、水下航行器等领域广泛应用。然而,传统的半潜式无人艇定深控制系统面临着一些挑战。首先,需要建立一个精确的航行体模型,但控制质量与模型精度高度相关,这使得系统在复杂和动态的水下环境中表现不稳定。其次,半潜式无人艇作为典型的多变量、强耦合、扰动大的非线性系统,其各方面参数和模型存在不确定性,使得传统的定深控制方法难以应对各种复杂情况。

2、为了克服这些挑战,本专利技术创新性地提出了一种基于深度强化学习的半潜式无人艇定深控制方法及装置。与传统方法不同,该系统通过深度学习算法,利用深度q网络(dqn)实现端到端的学习,避免了对复杂的航行体模型的依赖。通过与环境的交互,该系统能够自主学习和优化深度控制策略,使得无人艇航行控制系统能够根据不同环境和任务做出智能的决策。同时,深度强化学习的方法能够处理非线性系统的复杂性和不确定性,使得该系统更具适应性和鲁棒性,能够在各种复杂水下情况下实现稳定和准确的定深控制。


技术实现思路

1、有鉴于此,本专利技术提供了一种基于深度强化学习的半潜式无人艇定深控制方法及装置,能够解决半潜式无人艇的定深控制的精度差、自动化程度低的技术问题。

2、为了解决上述技术问题,本专利技术是这样实现的。

3、一种基于深度强化学习的半潜式无人艇定深控制方法,所述方法包括:

4、步骤s1:半潜式无人艇使用自身的传感器采集半潜式无人艇运动状态、与所述运动状态对应的环境信息,所述传感器包括深度传感器、陀螺仪以及水流传感器;构建所述半潜式无人艇在垂直面的二维运动模型,所述二维运动模型表征了所述半潜式无人艇的控制器发出的控制动作、环境信息与所述半潜式无人艇的运动状态的对应关系;由所述半潜式无人艇的控制动作、环境信息与对应的所述半潜式无人艇的运动状态组成训练数据,对dqn网络模型进行训练,得到训练完毕的dqn网络模型;

5、步骤s2:半潜式无人艇使用自身的传感器采集半潜式无人艇当前状态和环境信息,提取特征向量输入训练完毕的dqn网络模型,输出所述半潜式无人艇的控制动作,基于所述控制动作,驱动所述半潜式无人艇的深度驱动装置。

6、优选地,所述半潜式无人艇在垂直面的二维运动模型为

7、

8、

9、

10、

11、

12、

13、

14、

15、

16、

17、m11=m+λ11

18、m22=m+λ22

19、m26=mxc+λ26

20、

21、其中,m是半潜式无人艇质量;g是的重力,θ是半潜式无人艇的俯仰角,η、m26、m22、cy是中间变量,和是半潜式无人艇的升力因素对攻角α和水平舵角δe的位置导数;是升力因素对角速度的旋转导数;相应地,是偏航力矩因素对攻角α、水平舵角δe、角速度的导数;δe是所述半潜式无人艇的控制器发出的控制动作;λ11、λ22、λ26、λ66是与流体动力学有关的各附加质量;xc、yc是半潜式无人艇重心到浮心的距离在x轴和y轴上的分量;t是由螺旋桨提供的推力;cxs是半潜式无人艇的阻力系数,该数值与半潜式无人艇的最大横截面积s、速度v和水的密度ρ有关;δg是的负浮力,即重力与浮力的差值;jzz是绕z轴旋转的转动惯量;vx、vy分别是在x轴和y轴上的速度分量,ωz是的俯仰角速度,攻角无量纲角速度l是的长度。

22、优选地,所述dqn网络模型中定义所述半潜式无人艇的状态、所述半潜式无人艇的控制动作和奖励函数,将所述半潜式无人艇当前深度、深度变化率、以及环境信息中的水流情况以编码的形式进行表征,作为所述半潜式无人艇的状态。

23、优选地,所述奖励函数在所述半潜式无人艇达到期望深度时提供正奖励,而在偏离期望深度时提供负奖励。

24、优选地,所述dqn网络模型为具有q网络、目标q网络及及经验池的深度网络模型,所述q网络用于根据所述半潜式无人艇的当前状态选择选择动作,所述q网络为由输入层、多个隐藏层及输出层形成的网络模型,所述输入层接收所述半潜式无人艇的状态,隐藏层通过学习,使得输出层输出每个可能动作的q值估计;所述目标q网络用于提供一个目标值,以辅助q网络的训练过程,所述目标q网络的网络结构与所述q网络的网络结构相同,所述目标q网络的参数与所述q网络的参数在数值分布、数值量级上相同,所述目标q网络的参数的更新频率低于所述q网络的参数的更新频率。

25、一种深度驱动装置,使用如前所述的方法,包括安装在所述半潜式无人艇前部位置的深度控制机构,所述深度控制机构接收所述半潜式无人艇的控制动作,以及安装在所述半潜式无人艇中部位置的深度控制驱动装置;深度控制机构包括升降舵直线电机、安装有升降舵滑块的丝杠滑轨以及位于升降舵直线电机上方的能够同步转动的左升降舵叶和右升降舵舵叶,深度控制驱动装置能够对升降舵直线电机进行控制。所述升降舵直线电机与升降舵滑块配合安装并能够带动升降舵滑块在丝杠滑轨上往复运动,所述左升降舵叶和右升降舵舵叶通过升降舵滑块在丝杠滑轨上往复运动并通过转舵结构带动转动;所述升降舵直线电机安装在升降舵的底座上,所述升降舵的底座上布置有多个用于记录升降舵滑块运动的位置的红外光电开关;所述方向舵直线电机安装在方向舵的底座上,所述方向舵的底座上布置有多个用于记录方向舵滑块运动的位置的红外光电开关。

26、本专利技术所提供的一种基于深度强化学习的半潜式无人艇定深控制装置,包括:

27、模型训练模块:配置为半潜式无人艇使用自身的传感器采集半潜式无人艇运动状态、与所述运动状态对应的环境信息,所述传感器包括深度传感器、陀螺仪以及水流传感器;构建所述半潜式无人艇在垂直面的二维运动模型,所述二维运动模型表征了所述半潜式无人艇的控制器发出的控制动作、环境信息与所述半潜式无人艇的运动状态的对应关系;由所述半潜式无人艇的控制动作、环境信息与对应的所述半潜式无人艇的运动状态组成训练数据,对dqn网络模型进行训练,得到训练完毕的dqn网络模型;

28、驱动模块:配置为半潜式无人艇使用自身的传感器采集半潜式无人艇当前状态和环境信息,提取特征向量输入训练完毕的dqn网络模型,输出所述半潜式无人艇的控制动作,基于所述控制动作,驱动所述半潜式无人艇的深度驱动装置。

29、本专利技术所提供的一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述方法。

30、本专利技术所提供的一种电子设备,其特征在于,所述电子设备,包括:

31、处理器,用于执行多条指令;

32、存储器,用于存储多条指令;

33、其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的半潜式无人艇定深控制方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述半潜式无人艇在垂直面的二维运动模型为

3.如权利要求2所述的方法,其特征在于,所述DQN网络模型中定义所述半潜式无人艇的状态、所述半潜式无人艇的控制动作和奖励函数,将所述半潜式无人艇当前深度、深度变化率、以及环境信息中的水流情况以编码的形式进行表征,作为所述半潜式无人艇的状态。

4.如权利要求3所述的方法,其特征在于,所述奖励函数在所述半潜式无人艇达到期望深度时提供正奖励,而在偏离期望深度时提供负奖励。

5.如权利要求1-4中任一项所述的方法,其特征在于,所述DQN网络模型为具有Q网络、目标Q网络及及经验池的深度网络模型,所述Q网络用于根据所述半潜式无人艇的当前状态选择选择动作,所述Q网络为由输入层、多个隐藏层及输出层形成的网络模型,所述输入层接收所述半潜式无人艇的状态,隐藏层通过学习,使得输出层输出每个可能动作的Q值估计;所述目标Q网络用于提供一个目标值,以辅助Q网络的训练过程,所述目标Q网络的网络结构与所述Q网络的网络结构相同,所述目标Q网络的参数与所述Q网络的参数在数值分布、数值量级上相同,所述目标Q网络的参数的更新频率低于所述Q网络的参数的更新频率。

6.一种深度驱动装置,使用如权利要求1-5中任一项所述的方法,其特征在于,包括安装在所述半潜式无人艇前部位置的深度控制机构,所述深度控制机构接收所述半潜式无人艇的控制动作,以及安装在所述半潜式无人艇中部位置的深度控制驱动装置;深度控制机构包括升降舵直线电机、安装有升降舵滑块的丝杠滑轨以及位于升降舵直线电机上方的能够同步转动的左升降舵叶和右升降舵舵叶,深度控制驱动装置能够对升降舵直线电机进行控制。所述升降舵直线电机与升降舵滑块配合安装并能够带动升降舵滑块在丝杠滑轨上往复运动,所述左升降舵叶和右升降舵舵叶通过升降舵滑块在丝杠滑轨上往复运动并通过转舵结构带动转动;所述升降舵直线电机安装在升降舵的底座上,所述升降舵的底座上布置有多个用于记录升降舵滑块运动的位置的红外光电开关;所述方向舵直线电机安装在方向舵的底座上,所述方向舵的底座上布置有多个用于记录方向舵滑块运动的位置的红外光电开关。

7.一种基于深度强化学习的半潜式无人艇定深控制装置,其特征在于,所述装置包括:

8.一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如权利要求1-5中任一项所述方法。

9.一种电子设备,其特征在于,所述电子设备,包括:

...

【技术特征摘要】

1.一种基于深度强化学习的半潜式无人艇定深控制方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述半潜式无人艇在垂直面的二维运动模型为

3.如权利要求2所述的方法,其特征在于,所述dqn网络模型中定义所述半潜式无人艇的状态、所述半潜式无人艇的控制动作和奖励函数,将所述半潜式无人艇当前深度、深度变化率、以及环境信息中的水流情况以编码的形式进行表征,作为所述半潜式无人艇的状态。

4.如权利要求3所述的方法,其特征在于,所述奖励函数在所述半潜式无人艇达到期望深度时提供正奖励,而在偏离期望深度时提供负奖励。

5.如权利要求1-4中任一项所述的方法,其特征在于,所述dqn网络模型为具有q网络、目标q网络及及经验池的深度网络模型,所述q网络用于根据所述半潜式无人艇的当前状态选择选择动作,所述q网络为由输入层、多个隐藏层及输出层形成的网络模型,所述输入层接收所述半潜式无人艇的状态,隐藏层通过学习,使得输出层输出每个可能动作的q值估计;所述目标q网络用于提供一个目标值,以辅助q网络的训练过程,所述目标q网络的网络结构与所述q网络的网络结构相同,所述目标q网络的参数与所述q网络的参数在数值分布、数值量级上相同,所述目标q网络的参数的更新频率低于所述q...

【专利技术属性】
技术研发人员:淦智权高琪琪邵兴廖鹏刘俊宜
申请(专利权)人:宜昌测试技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1