【技术实现步骤摘要】
本申请属于路径规划领域,具体涉及一种基于强化学习的水下航行器路径规划装置及方法。
技术介绍
1、现有技术中路径规划算法已有不少研究,比较典型的有基于图的方法和基于采样数据的方法。
2、在基于图的方法中dijkstar得到了广泛的引用,它采用贪婪策略去遍历所有的路径点,但是计算量较大。后来发展出了a*算法,a*算法采用启发式搜索策略,避免了每步迭代对所有路径点的遍历,但在规模较大的路径规划问题中仍然存在计算量过大的问题,再后来又有采用跳点技术来优化搜索过程,但是优化效果有限。
3、在基于采样数据的方法中,典型代表是rrt(rapidly exploring random tree),它不需要整个地图的信息,只需要满足约束需求的当前位置附近的信息,由于它采用较小的步长来实现高性能,因此需要较大的迭代次数,基于rrt的改进有rrt*(基于一种启发式改进的rrt)。
4、以上这些传统方法都具有共同的缺陷:一旦设计好,即无法自动优化自身,受设计的参数影响较大,当从一个环境换到另一个环境后往往需要人工重新调整,增
...【技术保护点】
1.一种基于强化学习的水下航行器路径规划装置,其特征在于,所述装置包括:
2.根据权利要求1所述的基于强化学习的水下航行器路径规划装置,其特征在于,所述对声呐探测数据进行预处理,包括:
3.根据权利要求1所述的基于强化学习的水下航行器路径规划装置,其特征在于,所述路径生成动作单元采用前馈神经网络实现,表达式如下:
4.根据权利要求1所述的基于强化学习的水下航行器路径规划装置,其特征在于,所述评价单元采用前馈神经网络实现,表达式如下:
5.根据权利要求1所述的基于强化学习的水下航行器路径规划装置,其特征在于,所述奖励函数的
...【技术特征摘要】
1.一种基于强化学习的水下航行器路径规划装置,其特征在于,所述装置包括:
2.根据权利要求1所述的基于强化学习的水下航行器路径规划装置,其特征在于,所述对声呐探测数据进行预处理,包括:
3.根据权利要求1所述的基于强化学习的水下航行器路径规划装置,其特征在于,所述路径生成动作单元采用前馈神经网络实现,表达式如下:
4.根据权利要求1所述的基于强化学习的水下航行器路径规划装置,其特征在于,所述评价单元采用前馈神经网络实现,表达式如下:
5.根据权利要求1所述的基于强化学习的水下航行器路径规划装置,其特征在于,所述奖励函数的表达式如下:
...
【专利技术属性】
技术研发人员:郝程鹏,林晓波,庞舟岐,潘光帅,
申请(专利权)人:中国科学院声学研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。