基于NeRF和强化学习的路径规划方法、系统及电子设备技术方案

技术编号:42386456 阅读:20 留言:0更新日期:2024-08-16 16:13
本发明专利技术提供一种基于NeRF和强化学习的路径规划方法、系统及电子设备,涉及路径规划技术领域。本发明专利技术通过强化学习方法使得机器人能够通过与环境的交互不断学习,并根据实时反馈优化路径规划策略。相较于基于微分平坦性的方法,强化学习方法具有更强的学习能力和适应性,无需依赖地图的先验条件,能够在复杂和动态的环境中快速调整路径规划策略。

【技术实现步骤摘要】

本专利技术涉及路径规划,具体涉及一种基于nerf和强化学习的路径规划方法、系统及电子设备。


技术介绍

1、神经辐射场(neural radiance fields,简称nerf)是一种计算机视觉技术,用于生成高质量的三维重建模型。在nerf构建环境中实现自主路径规划与导航,是nerf的一个重要的应用前景。

2、现有的基于神经辐射场路径规划的方法如下:首先使用nerf将目标环境进行建模和表示,目标环境的nerf表示已经在离线状态下进行了预训练。使用一个有限点集b来近似表示机器人的身体,在这些点上检查碰撞,使用该点集表示机器人边界框或复杂模型的3d点网格。由于nerf输出为每个三维坐标点的rgb值与该点体素密度,且不知道nerf在某一点的密度与其占用率之间的关系,所以该方法使用体素密度(光线终止概率)代替质点终止概率。基于上述方法建立空间nerf三维表示,在该环境表示基础上引入了一种轨迹优化算法,该算法基于差分平坦性的离散时间版本,可约束机器人的完整姿势和控制输入,通过最小化碰撞概率函数避免与nerf中高密度区域的碰撞,

3、上述方法通本文档来自技高网...

【技术保护点】

1.一种基于NeRF和强化学习的路径规划方法,其特征在于,包括:

2.如权利要求1所述的基于NeRF和强化学习的路径规划方法,其特征在于,所述强化学习DQN模型的奖励函数包括:

3.如权利要求1所述的基于NeRF和强化学习的路径规划方法,其特征在于,所述预先训练的强化学习DQN模型的结构包括:评估网络和目标网络,其中评估网络为用于评估每个状态-动作对会在未来得到的Q值来选择能够使得Q值最大的动作的神经网络;目标网络为用于计算Q值的神经网络。

4.如权利要求1~3任一所述的基于NeRF和强化学习的路径规划方法,其特征在于,所述预先训练的强化学习DQN模型...

【技术特征摘要】

1.一种基于nerf和强化学习的路径规划方法,其特征在于,包括:

2.如权利要求1所述的基于nerf和强化学习的路径规划方法,其特征在于,所述强化学习dqn模型的奖励函数包括:

3.如权利要求1所述的基于nerf和强化学习的路径规划方法,其特征在于,所述预先训练的强化学习dqn模型的结构包括:评估网络和目标网络,其中评估网络为用于评估每个状态-动作对会在未来得到的q值来选择能够使得q值最大的动作的神经网络;目标网络为用于计算q值的神经网络。

4.如权利要求1~3任一所述的基于nerf和强化学习的路径规划方法,其特征在于,所述预先训练的强化学习dqn模型的训练目标为最小化评估网络的输出q值和目标网络q值之间的l2距离,其表述式如下:

5.如权利要求1~3任一所述的基于nerf和强化学习的路径规划方法,其特征在于,将渲染场...

【专利技术属性】
技术研发人员:张书滔赵灿灿欧阳波
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1