基于人工智能的导航方法、模型训练方法及装置制造方法及图纸

技术编号：41129069 阅读：19 留言：0更新日期：2024-04-30 17:57

本申请实施例提供了一种基于人工智能的导航方法、模型训练方法、装置、电子设备及计算机可读存储介质，涉及人工智能领域，可应用于自动驾驶领域。该方法包括：获取样本智能体在当前时间步的环境信息，将当前时间步的环境信息和动作指令集输入初始模型，获得回报期望值最大的动作指令；获得当前时间步的回报期望值增幅；若当前时间步为相应时间周期的结束时间步，则获取样本智能体在当前时间步与相应时间周期的开始时间步间的位置关系，以确定当前时间步的奖励值；根据当前时间步的奖励值和回报期望值增幅，对当前时间步的初始模型的参数进行更新。本申请实施例提高智能体的自主性和适应性，使其能够更灵活、高效地应对各种导航任务。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，具体而言，本申请涉及一种基于人工智能的导航方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

技术介绍

1、在数字化时代，人工智能技术在各个领域取得了显著的进展，其中之一是智能体在虚拟和现实环境中的导航。

2、现有的基于深度强化学习的智能体导航学习主要依赖于基于地图资源的寻路算法，例如navmesh寻路算法等。这些算法以每一帧的导航方位引导和导航距离差异作为奖励函数，使得智能体能够在预定的路径上进行学习和导航。

3、然而，这种基于地图资源的方法存在一些显著的局限性。首先，它们对地图的准确性和完整性有很高的依赖性，导致在未知环境或地图更新时性能下降。其次，智能体的行为受到固定路径的引导，缺乏在复杂环境中灵活自主探索的能力。

技术实现思路

1、本申请实施例提供了一种基于人工智能的导航方法、装置、电子设备、计算机可读存储介质及计算机程序产品，可以解决现有技术的上述问题。所述技术方案如下：

2、根据本申请实施例的第一个方面，提供了一种...

【技术保护点】

1.一种模型训练方法，其特征在于，通过以下方式对初始模型进行多轮迭代训练至收敛，将收敛后的初始模型作为回报期望模型，每轮迭代训练对应样本智能体从一次导航的起点到终点的过程，每轮迭代训练包括：

2.根据权利要求1所述的方法，其特征在于，所述获取样本智能体在当前时间步与相应时间周期的开始时间步间的位置关系，根据所述位置关系确定当前时间步的奖励值，包括：

3.根据权利要求2所述的方法，其特征在于，根据所述差值确定当前时间步的奖励值，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述差值约束范围对所述差值进行约束，包括：