System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于强化学习激励信号塑性的无人船操纵优化方法及装置制造方法及图纸_技高网

基于强化学习激励信号塑性的无人船操纵优化方法及装置制造方法及图纸

技术编号:41264807 阅读:4 留言:0更新日期:2024-05-11 09:21
本发明专利技术涉及基于强化学习激励信号塑性的无人船操纵优化方法及装置,包括以下:S1、依据自适应演化控制算法,构建航行态势分析网络、样本存储网络,构建二维平面坐标体系;S2、依照无人船基本物理构造舵机最大、小运作角度构造智能体自主控制船舶的舵机决策动作空间;S3、构造无人船自身物理特征核心信息及航行态势信息进行激励的软性惩罚函数,并入航行态势分析网络,以形成全局环境激励网络;S4、对形成的全局环境激励网络进行反复的基础经验和经验复用的自主采样强化学习;S5、基于状态随机转移矩阵迁移样本存储网络内航行样本逼近近似策略,得到更新后的船舶操纵智能体模型。本发明专利技术能够使无人船智能体能够成功执行类似于实际船舶的打舵操作。

【技术实现步骤摘要】

本专利技术涉及船舶自动驾驶相关,尤其涉及基于强化学习激励信号塑性的无人船操纵优化方法及装置


技术介绍

1、针对海洋探测、环境监测、军事侦察等领域中无人船的应用,仍存在诸多挑战,例如长距离自主航行、位姿信息精确掌握以及避障能力等方面的难题。为解决这些问题,研究者们近年来致力于探索新的技术和方法,其中基于深度学习和传感器融合技术的无人船自动驾驶系统备受关注。

2、原生基于强化学习的自动驾驶船舶,不可避免地会出现打舵行为的随意性。例如,在15°舵角的平滑运行中,船体可能会突兀地切换至-15°舵角,由此产生的剧烈晃动对船只的结构和稳定性都可能构成极大的风险,潜藏着深重的安全隐患。


技术实现思路

1、本专利技术的目的是为了至少解决现有技术的不足之一,提供基于强化学习激励信号塑性的无人船操纵优化方法及装置。

2、为了实现上述目的,本专利技术采用以下的技术方案:

3、具体的,提出基于强化学习激励信号塑性的无人船操纵优化方法,包括以下:

4、s1、依据自适应演化控制算法,构建航行态势分析网络、样本存储网络,以无人船中心为原心,构建二维平面坐标体系,所述航行态势分析网络用于获取不确定水域下的可航行水域及不可航行水域,所述样本存储网络用于储存n量级的智能体在训练过程中所采取到的信息样本称之为经验,后用于经验复用学习;

5、s2、依照无人船基本物理构造舵机最大、小运作角度构造智能体自主控制船舶的舵机决策动作空间;

6、s3、构造无人船自身物理特征核心信息及航行态势信息进行激励的软性惩罚函数,并入航行态势分析网络输入端,以形成全局环境激励网络;

7、s4、对形成的全局环境激励网络进行反复的基础经验和经验复用的自主采样强化学习;

8、s5、基于状态随机转移矩阵迁移样本存储网络内航行样本逼近近似策略,得到更新后的船舶操纵智能体模型;

9、s6、以更新后的船舶操纵智能体模型对无人船进行操作优化。

10、进一步,具体的,依照无人船基本物理构造舵机最大、小运作角度构造智能体自主控制船舶的舵机决策动作空间,包括,

11、依照无人船自身信息及其舵角信息构建的舵机决策动作空间用于智能体实际操纵船舶时的舵角决策,所构建的舵机决策动作空间actions如下,

12、actions={-35°,-30°...-5°,0°...20°,25°...35°}。

13、进一步,具体的,构造无人船自身物理特征核心信息及航行态势信息进行激励的软性惩罚函数,包括计算无人船本身距离目标点的欧氏距离、无人船航向角阶梯二次变化量、阶梯二次舵机决策实际实施舵角的差值,并基于此计算最终奖励值,具体的设计过程如下,

14、s3.1、生成距离奖励rlength、无人船航向角阶梯二次变化量惩罚值rangle、阶梯二次舵机决策实际实施舵角的差值惩罚值raction;其中:

15、距离奖励rlength的计算式如下:

16、

17、上式中,xk、yk分别为于k时刻无人船自身相较于初始坐标体系的实际横纵坐标;xg、yg分别为在初始坐标体系中目的地中心的横纵坐标;argmax{lengths}为二维平面中无人船初始位置与目的地位置在可航行水域中的最大距离,

18、无人船航向角阶梯二次变化量惩罚值rangle的计算式如下:

19、rangle=0.001|φk-1-φk|

20、上式中,φk-1、φk为于k-1、k时刻无人船相较于初始航向角0°的纵向偏离度,||表示绝对值计算符号,

21、阶梯二次舵机决策实际实施舵角的差值惩罚值raction的计算式如下:

22、raction=|10-|ak-2-ak-1||

23、上式中,ak-1、ak-2为于k-1、k-2时刻智能体操纵无人船采取的舵机决策舵角的实际舵角度数,||表示绝对值计算符号;

24、s3.2求和软性奖励函数最终奖励值:

25、

26、上式中,sk-1、sk为k时刻智能体提取无人船的状态值[(x,y),φ],其中(x,y)为无人船于二维平面坐标体系中当前的x与y坐标值,φ为当前于舵机决策动作空间actions中所选取的舵角值。

27、进一步,具体的,基于状态随机转移矩阵迁移样本存储网络内航行样本逼近近似策略,得到更新后的船舶操纵智能体模型,包括,

28、对样本储存网络中的所采集的经验进行经验复用学习,在经过n次策略抉择后进行一次数量为m的状态随机转移,并进行经验复用,得到更新后的船舶操纵智能体模型。

29、进一步,具体的,不可航行水域包括但不限于危险水域、障碍物区块、管制区域。

30、本专利技术还提出基于强化学习激励信号塑性的无人船操纵优化装置,包括:

31、初始化模块,用于依据自适应演化控制算法,构建航行态势分析网络、样本存储网络,以无人船中心为原心,构建二维平面坐标体系,所述航行态势分析网络用于获取不确定水域下的可航行水域及不可航行水域,所述样本存储网络用于储存n量级的智能体在训练过程中所采取到的信息样本称之为经验,后用于经验复用学习;

32、舵机决策动作空间构建模块,用于依照无人船基本物理构造舵机最大、小运作角度构造智能体自主控制船舶的舵机决策动作空间;

33、全局环境激励网络构建模块,用于构造无人船自身物理特征核心信息及航行态势信息进行激励的软性惩罚函数,并入航行态势分析网络输入端,以形成全局环境激励网络;

34、训练模块,用于对形成的全局环境激励网络进行反复的基础经验和经验复用的自主采样强化学习;

35、船舶操纵智能体模型更新模块,用于基于状态随机转移矩阵迁移样本存储网络内航行样本逼近近似策略,得到更新后的船舶操纵智能体模型;

36、操作优化模块,用于以更新后的船舶操纵智能体模型对无人船进行操作优化。

37、本专利技术的有益效果为:

38、1.考虑到强化学习智能体直接操纵舵机操作的无人船存在显著的操作不确定性,本专利技术显著优化了操作不确定性,使智能体的舵机操作更加倾向于适航,提高了航行安全性以及船体保护。

39、2.传统的强化学习采样效率低下,且易陷入局部最优,导致无法找到有效的路径到达目的地。本专利技术提出的软性惩罚函数通过其引导性的距离奖励机制,显著提高了智能体寻找目的地的效率。

40、3.本专利技术提出了一种全新的奖励信号机制,该机制结合了三种不同的初等函数模型,不仅提高了函数的实际操作性,还使其能够兼容简单的函数模型,使得智能体更易于学习。

41、4.本专利技术采用了训练后的智能体直接实施舵机操作的方法,这使强化学习在自动驾驶领域的应用更进一步,同时也具有更高的实践价值。

本文档来自技高网...

【技术保护点】

1.基于强化学习激励信号塑性的无人船操纵优化方法,其特征在于,包括以下:

2.根据权利要求1所述的基于强化学习激励信号塑性的无人船操纵优化方法,其特征在于,具体的,依照无人船基本物理构造舵机最大、小运作角度构造智能体自主控制船舶的舵机决策动作空间,包括,

3.根据权利要求1所述的基于强化学习激励信号塑性的无人船操纵优化方法,其特征在于,具体的,构造无人船自身物理特征核心信息及航行态势信息进行激励的软性惩罚函数,包括计算无人船本身距离目标点的欧氏距离、无人船航向角阶梯二次变化量、阶梯二次舵机决策实际实施舵角的差值,并基于此计算最终奖励值,具体的设计过程如下,

4.根据权利要求1所述的基于强化学习激励信号塑性的无人船操纵优化方法,其特征在于,具体的,基于状态随机转移矩阵迁移样本存储网络内航行样本逼近近似策略,得到更新后的船舶操纵智能体模型,包括,

5.根据权利要求1所述的基于强化学习激励信号塑性的无人船操纵优化方法,其特征在于,具体的,不可航行水域包括但不限于危险水域、障碍物区块、管制区域。

6.基于强化学习激励信号塑性的无人船操纵优化装置,其特征在于,包括:

...

【技术特征摘要】

1.基于强化学习激励信号塑性的无人船操纵优化方法,其特征在于,包括以下:

2.根据权利要求1所述的基于强化学习激励信号塑性的无人船操纵优化方法,其特征在于,具体的,依照无人船基本物理构造舵机最大、小运作角度构造智能体自主控制船舶的舵机决策动作空间,包括,

3.根据权利要求1所述的基于强化学习激励信号塑性的无人船操纵优化方法,其特征在于,具体的,构造无人船自身物理特征核心信息及航行态势信息进行激励的软性惩罚函数,包括计算无人船本身距离目标点的欧氏距离、无人船航向角阶梯二次变化量、阶梯二次舵...

【专利技术属性】
技术研发人员:李佳文姜鑫吴志伟李荣辉张浩黄子铭冯逸晨詹俊权孙嘉华李鑫黄技
申请(专利权)人:广东海洋大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1