一种基于强化学习的水下航行器路径规划装置及方法制造方法及图纸

技术编号:42686557 阅读:26 留言:0更新日期:2024-09-10 12:34
本申请提供了一种基于强化学习的水下航行器路径规划装置及方法,所述装置包括:探测数据预处理单元:用于对声呐探测数据进行预处理;路径生成动作单元:用于生成当前状态下的航行器航向参数,各个时刻的航向参数组成航行器的路径;评价单元:用于根据预处理后的声呐探测的障碍信息、需到达的目标信息、水下航行器自身状态、当前规划的航向参数和奖励惩罚单元计算的瞬时评价参数,利用评价函数,得到当前动作对未来一段时间的影响效果;和奖励惩罚单元:用于根据预处理后的声呐探测的障碍信息、需到达的目标信息、水下航行器自身状态和当前规划的航向参数,利用奖励函数,评价当前瞬时状态的优劣。本申请的优势在于:有效减少了计算量。

【技术实现步骤摘要】

本申请属于路径规划领域,具体涉及一种基于强化学习的水下航行器路径规划装置及方法


技术介绍

1、现有技术中路径规划算法已有不少研究,比较典型的有基于图的方法和基于采样数据的方法。

2、在基于图的方法中dijkstar得到了广泛的引用,它采用贪婪策略去遍历所有的路径点,但是计算量较大。后来发展出了a*算法,a*算法采用启发式搜索策略,避免了每步迭代对所有路径点的遍历,但在规模较大的路径规划问题中仍然存在计算量过大的问题,再后来又有采用跳点技术来优化搜索过程,但是优化效果有限。

3、在基于采样数据的方法中,典型代表是rrt(rapidly exploring random tree),它不需要整个地图的信息,只需要满足约束需求的当前位置附近的信息,由于它采用较小的步长来实现高性能,因此需要较大的迭代次数,基于rrt的改进有rrt*(基于一种启发式改进的rrt)。

4、以上这些传统方法都具有共同的缺陷:一旦设计好,即无法自动优化自身,受设计的参数影响较大,当从一个环境换到另一个环境后往往需要人工重新调整,增加了实际引用的开销。本文档来自技高网...

【技术保护点】

1.一种基于强化学习的水下航行器路径规划装置,其特征在于,所述装置包括:

2.根据权利要求1所述的基于强化学习的水下航行器路径规划装置,其特征在于,所述对声呐探测数据进行预处理,包括:

3.根据权利要求1所述的基于强化学习的水下航行器路径规划装置,其特征在于,所述路径生成动作单元采用前馈神经网络实现,表达式如下:

4.根据权利要求1所述的基于强化学习的水下航行器路径规划装置,其特征在于,所述评价单元采用前馈神经网络实现,表达式如下:

5.根据权利要求1所述的基于强化学习的水下航行器路径规划装置,其特征在于,所述奖励函数的表达式如下:

...

【技术特征摘要】

1.一种基于强化学习的水下航行器路径规划装置,其特征在于,所述装置包括:

2.根据权利要求1所述的基于强化学习的水下航行器路径规划装置,其特征在于,所述对声呐探测数据进行预处理,包括:

3.根据权利要求1所述的基于强化学习的水下航行器路径规划装置,其特征在于,所述路径生成动作单元采用前馈神经网络实现,表达式如下:

4.根据权利要求1所述的基于强化学习的水下航行器路径规划装置,其特征在于,所述评价单元采用前馈神经网络实现,表达式如下:

5.根据权利要求1所述的基于强化学习的水下航行器路径规划装置,其特征在于,所述奖励函数的表达式如下:

...

【专利技术属性】
技术研发人员:郝程鹏林晓波庞舟岐潘光帅
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1