智能体路径规划方法、装置、电子装置和存储介质制造方法及图纸

技术编号：40355216 阅读：12 留言：0更新日期：2024-02-09 14:40

本申请涉及一种智能体路径规划方法、装置、电子装置和存储介质，其中，该智能体路径规划方法包括：针对目标动态环境构建实时路径规划器；根据实时路径规划器，构建强化学习模型；根据强化学习模型搭建深度强化学习算法的神经网络结构；根据奖励函数和预设的仿真环境对深度强化学习算法的神经网络结构进行训练，得到训练完备的目标深度强化学习算法的神经网络结构；通过目标深度强化学习算法的神经网络结构，对实时路径规划器的输入进行处理，得到针对智能体的移动控制指令。解决了在未知动态环境中智能体因其学习能力较低，导致避障准确度和效率均较低的问题，提高了智能体避障的准确度和效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及路径规划领域，特别是涉及一种智能体路径规划方法、装置、电子装置和存储介质。

技术介绍

1、随着智能体的发展，智能体越来越多地在人类社会中涌现，智能体与人类共存的前提是它能够有效地观测并躲避智能体周围的障碍物，从而为自身规划一条安全无碰的路径。其次智能体的自主性是智能体能力拓展的基石，而当前大部分智能体都使用传统路径规划方法，传统方法对地图信息和传感器精度的依赖在一定程度上限制了智能体自主性的提升。目前应用广泛的智能体路径规划方法主要包含两个阶段。第一个阶段是全局路径规划，智能体根据给定的目标点位置和提前构建的全局环境地图进行全局路径的规划。全局路径规划需要用到提前已知的全局环境信息，且对于全局环境地图的构建和维护十分耗时耗力。第二个阶段是局部路径规划，目前常用的局部路径规划方法主要包含人工势场法、模糊控制算法、模拟退火算法和动态窗口法等，这类方法常常会出现局部最优的情况，且在连续变化场景下实时性较差，也不适用于未知动态环境。因此传统路径规划方法在未知动态环境中的规划避障准确度和规划效率都较低，传统的强化学习方法虽然具备一定的连续决策学习能力，但在面对现实世界的高维感知和复杂控制时并没有很好的学习能力，且会面临维度爆炸问题，针对相关技术中在未知动态环境中智能体避障准确度低和效率较低的问题，目前还没有提出稳定有效的解决方案。

技术实现思路

1、在本实施例中提供了一种智能体路径规划方法、装置、电子装置和存储介质，以解决相关技术中智能体避障准确度低和效率较低的问题。

3、针对目标动态环境构建实时路径规划器；

4、根据实时路径规划器，构建强化学习模型；

5、根据强化学习模型搭建深度强化学习算法的神经网络结构；

6、根据奖励函数和预设的仿真环境对所述深度强化学习算法的神经网络结构进行训练，得到训练完备的目标深度强化学习算法的神经网络结构；

7、通过目标深度强化学习算法的神经网络结构，对实时路径规划器的输入进行处理，得到针对智能体的移动控制指令。

8、在其中的一些实施例中，根据实时路径规划器，构建强化学习模型，包括：

9、以智能体的可观测信息作为实时路径规划器的输入，智能体的线速度和角速度作为实时路径规划器的输出；其中观测信息，包含智能体的雷达测距数据、智能体的速度信息以及目标位置的相对位置与方向；根据实时路径规划器的输入和输出，构建强化学习模型。

10、在其中一些实施例中，深度强化学习算法的神经网络结构包括深度强化学习策略网络，深度强化学习价值网络，及策略网络和价值网络的目标网络。

11、在其中一些实施例中，深度强化学习策略网络使用交叉注意力模块；深度强化学习价值网络使用决斗网格增强算法。

12、在其中一些实施例中，奖励函数包括主线奖励因子和辅助奖励因子，其中，主线奖励因子包括成功奖励因子和碰撞奖励因子；辅助奖励因子包括距离奖励因子、方向奖励因子、安全奖励因子、线速度奖励因子以及角速度奖励因子。

13、在其中一些实施例中，上述智能体路径规划方法，还包括：在得到移动控制指令后，基于移动控制指令，控制智能体移动至目标位置。

14、在其中一些实施例中，预设的仿真环境包括无障碍物环境、静态障碍物环境和动态障碍物环境。

15、第二个方面，在本实施例中提供了一种智能体路径规划装置，包括：第一构建模块，第二构建模块，搭建模块，训练模块以及获取模块，其中，

16、第一构建模块，用于针对目标动态环境构建实时路径规划器；

17、第二构建模块，用于根据实时路径规划器，构建强化学习模型；

18、搭建模块，用于根据强化学习模型搭建深度强化学习算法的神经网络结构；

19、训练模块，用于根据奖励函数和预设的仿真环境对深度强化学习算法的神经网络结构进行训练，得到训练完备的目标深度强化学习算法的神经网络结构；

20、获取模块，用于通过目标深度强化学习算法的神经网络结构，对目标实时路径规划器的输入进行处理，得到针对智能体的移动控制指令。

21、第三个方面，在本实施例中提供了一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一个方面所述的智能体路径规划方法。

22、第四个方面，在本实施例中提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一个方面所述的智能体路径规划方法。

23、与相关技术相比，在本实施例中提供的智能体路径规划方法，通过针对目标动态环境构建实时路径规划器；根据实时路径规划器，构建强化学习模型；根据强化学习模型搭建深度强化学习算法的神经网络结构；根据奖励函数和预设的仿真环境对深度强化学习算法的神经网络结构进行训练，得到训练完备的目标深度强化学习算法的神经网络结构；通过目标深度强化学习算法的神经网络结构，对实时路径规划器的输入进行处理，得到针对智能体的移动控制指令。解决了在未知动态环境中智能体因其学习能力较低，导致避障准确度和效率均较低的问题，提高了智能体避障的准确度和效率。

24、本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

本文档来自技高网...

【技术保护点】

1.一种智能体路径规划方法，其特征在于，包括：

2.根据权利要求1所述的智能体路径规划方法，其特征在于，根据所述实时路径规划器，构建强化学习模型，包括：

3.根据权利要求1所述的智能体路径规划方法，其特征在于：

4.根据权利要求3所述的智能体路径规划方法，其特征在于：

5.根据权利要求1所述的智能体路径规划方法，其特征在于：

6.根据权利要求1所述的智能体路径规划方法，其特征在于，所述方法还包括：

7.根据权利要求1至6中任一项所述智能体路径规划方法，其特征在于：

8.一种智能体路径规划装置，其特征在于，包括：第一构建模块，第二构建模块，搭建模块，训练模块以及获取模块，其中，

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的智能体路径规划方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的智能体路径规划方法的步骤。

...

【技术特征摘要】

1.一种智能体路径规划方法，其特征在于，包括：

2.根据权利要求1所述的智能体路径规划方法，其特征在于，根据所述实时路径规划器，构建强化学习模型，包括：

3.根据权利要求1所述的智能体路径规划方法，其特征在于：

4.根据权利要求3所述的智能体路径规划方法，其特征在于：

5.根据权利要求1所述的智能体路径规划方法，其特征在于：

6.根据权利要求1所述的智能体路径规划方法，其特征在于，所述方法还包括：

7.根据权利要求1至6中任一项所述...

【专利技术属性】
技术研发人员：薛均晓，张世文，严笑然，陆亚飞，滕皓，郭刚，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人