【技术实现步骤摘要】
本专利技术涉及路径规划,具体涉及一种基于nerf和强化学习的路径规划方法、系统及电子设备。
技术介绍
1、神经辐射场(neural radiance fields,简称nerf)是一种计算机视觉技术,用于生成高质量的三维重建模型。在nerf构建环境中实现自主路径规划与导航,是nerf的一个重要的应用前景。
2、现有的基于神经辐射场路径规划的方法如下:首先使用nerf将目标环境进行建模和表示,目标环境的nerf表示已经在离线状态下进行了预训练。使用一个有限点集b来近似表示机器人的身体,在这些点上检查碰撞,使用该点集表示机器人边界框或复杂模型的3d点网格。由于nerf输出为每个三维坐标点的rgb值与该点体素密度,且不知道nerf在某一点的密度与其占用率之间的关系,所以该方法使用体素密度(光线终止概率)代替质点终止概率。基于上述方法建立空间nerf三维表示,在该环境表示基础上引入了一种轨迹优化算法,该算法基于差分平坦性的离散时间版本,可约束机器人的完整姿势和控制输入,通过最小化碰撞概率函数避免与nerf中高密度区域的碰撞,
...【技术保护点】
1.一种基于NeRF和强化学习的路径规划方法,其特征在于,包括:
2.如权利要求1所述的基于NeRF和强化学习的路径规划方法,其特征在于,所述强化学习DQN模型的奖励函数包括:
3.如权利要求1所述的基于NeRF和强化学习的路径规划方法,其特征在于,所述预先训练的强化学习DQN模型的结构包括:评估网络和目标网络,其中评估网络为用于评估每个状态-动作对会在未来得到的Q值来选择能够使得Q值最大的动作的神经网络;目标网络为用于计算Q值的神经网络。
4.如权利要求1~3任一所述的基于NeRF和强化学习的路径规划方法,其特征在于,所述预先训练
...【技术特征摘要】
1.一种基于nerf和强化学习的路径规划方法,其特征在于,包括:
2.如权利要求1所述的基于nerf和强化学习的路径规划方法,其特征在于,所述强化学习dqn模型的奖励函数包括:
3.如权利要求1所述的基于nerf和强化学习的路径规划方法,其特征在于,所述预先训练的强化学习dqn模型的结构包括:评估网络和目标网络,其中评估网络为用于评估每个状态-动作对会在未来得到的q值来选择能够使得q值最大的动作的神经网络;目标网络为用于计算q值的神经网络。
4.如权利要求1~3任一所述的基于nerf和强化学习的路径规划方法,其特征在于,所述预先训练的强化学习dqn模型的训练目标为最小化评估网络的输出q值和目标网络q值之间的l2距离,其表述式如下:
5.如权利要求1~3任一所述的基于nerf和强化学习的路径规划方法,其特征在于,将渲染场...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。