【技术实现步骤摘要】
本申请涉及人工智能,具体而言,本申请涉及一种基于人工智能的导航方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
技术介绍
1、在数字化时代,人工智能技术在各个领域取得了显著的进展,其中之一是智能体在虚拟和现实环境中的导航。
2、现有的基于深度强化学习的智能体导航学习主要依赖于基于地图资源的寻路算法,例如navmesh寻路算法等。这些算法以每一帧的导航方位引导和导航距离差异作为奖励函数,使得智能体能够在预定的路径上进行学习和导航。
3、然而,这种基于地图资源的方法存在一些显著的局限性。首先,它们对地图的准确性和完整性有很高的依赖性,导致在未知环境或地图更新时性能下降。其次,智能体的行为受到固定路径的引导,缺乏在复杂环境中灵活自主探索的能力。
技术实现思路
1、本申请实施例提供了一种基于人工智能的导航方法、装置、电子设备、计算机可读存储介质及计算机程序产品,可以解决现有技术的上述问题。所述技术方案如下:
2、根据本申请实施例的第一个方面,提供了一种
...【技术保护点】
1.一种模型训练方法,其特征在于,通过以下方式对初始模型进行多轮迭代训练至收敛,将收敛后的初始模型作为回报期望模型,每轮迭代训练对应样本智能体从一次导航的起点到终点的过程,每轮迭代训练包括:
2.根据权利要求1所述的方法,其特征在于,所述获取样本智能体在当前时间步与相应时间周期的开始时间步间的位置关系,根据所述位置关系确定当前时间步的奖励值,包括:
3.根据权利要求2所述的方法,其特征在于,根据所述差值确定当前时间步的奖励值,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述差值约束范围对所述差值进行约束,包括:
...【技术特征摘要】
1.一种模型训练方法,其特征在于,通过以下方式对初始模型进行多轮迭代训练至收敛,将收敛后的初始模型作为回报期望模型,每轮迭代训练对应样本智能体从一次导航的起点到终点的过程,每轮迭代训练包括:
2.根据权利要求1所述的方法,其特征在于,所述获取样本智能体在当前时间步与相应时间周期的开始时间步间的位置关系,根据所述位置关系确定当前时间步的奖励值,包括:
3.根据权利要求2所述的方法,其特征在于,根据所述差值确定当前时间步的奖励值,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述差值约束范围对所述差值进行约束,包括:
5.根据权利要求3所述的方法,其特征在于,
6.根据权利要求1-5任意一项所述的方法,其特征在于,所述环境信息包括以下至少一者:
7.根据权利要求5所述的方法,其特征在于,所述环境的地形信息通过以下方式获取:
8.一种基于人工智能的导航方法,其特征在于,包...
【专利技术属性】
技术研发人员:林上奥,刘一锋,杨阳,文荟俨,徐增壮,邱福浩,付强,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。