System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种机器人动态路径规划方法、设备及介质技术_技高网

一种机器人动态路径规划方法、设备及介质技术

技术编号:41248750 阅读:2 留言:0更新日期:2024-05-09 23:58
本发明专利技术实施例公开了一种机器人动态路径规划方法、设备及介质。属于机器人路径规划技术领域。解决了机器人在复杂环境中进行路径规划效率较低的问题。包括,根据采样点的扩张方向,构建多个采样区域;其中,机器人选择不同的采样区域对应有不同的动作;基于避障能力瞬时奖励函数、目标点可达奖励函数以及最短路径牵引奖励函数,构建采样点瞬时奖励函数;基于机器人对应的状态、机器人对应的执行动作以及权重构建神经网络,并通过采样点瞬时奖励函数与时序差分目标,对神经网络中的权重进行更新,以确定执行动作的Q值函数;根据更新后的权重确定出参考神经网络,通过参考神经网络预测的Q值函数进行动作选取,以实现机器人动态路径规划。

【技术实现步骤摘要】

本专利技术涉及机器人路径规划,尤其涉及一种机器人动态路径规划方法、设备及介质


技术介绍

1、自学习能力是算法自适应能力的重要体现。对于rrt(rapidly-exploring randomtree,快速探索随机树)算法,它的自适应能力来自于其概率完备性,也就是说只要时间足够长,无论环境条件如何,rrt算法总能规划出一条符合要求的路径。但这种自适应能力通常需要较长的时间代价才能满足。

2、现有技术中,根据传统的sarsa(state-action-reward-state-action)算法原理,该算法的q值更新依赖于查表法,这导致算法不适用于状态空间较大的情况。因此,若机器人在复杂环境中进行路径规划,rrt算法对应的采样点状态空间较大,则机器人路径规划时间较长,效率较低。


技术实现思路

1、本专利技术实施例提供了一种机器人动态路径规划方法、设备及介质,用于解决如下技术问题:机器人在复杂环境中进行路径规划,rrt对应的采样点状态空间较大,以致机器人路径规划时间较长。

2、本专利技术实施例采用下述技术方案:

3、本专利技术实施例提供一种机器人动态路径规划方法。包括,根据采样点的扩张方向,构建多个采样区域;其中,机器人选择不同的采样区域对应不同的动作;基于避障能力瞬时奖励函数、目标点可达奖励函数以及最短路径牵引奖励函数,构建采样点瞬时奖励函数;基于机器人对应的状态、机器人对应的执行动作以及权重,构建神经网络,并通过采样点瞬时奖励函数与时序差分目标,对神经网络中的权重进行更新,以确定执行动作的q值函数;根据更新后的权重确定出参考神经网络,通过参考神经网络预测的q值函数进行动作选取,以实现机器人动态路径规划。

4、本专利技术实施例针对工业机器人路径规划,以提高rrt算法的自学习能力和环境适应能力为手段,提出了基于神经网络的sarsa算法的自学习采样策略。通过神经网络进行动作选取,解决复杂环境下,rrt算法存在庞大的采样点的状态空间问题。将基于神经网络算法的自学习采样策略引入到rrt算法中,提高rrt算法的自学习能力和环境适应能力,减小采样数量,提高工业机器人动态路径规划的效率。

5、在本专利技术的一种实现方式中,根据采样点的扩张方向,构建多个采样区域,具体包括:设定采样点位置位于预设立方体的重心,以重心作为动作初始位置;将预设立方体划分为多个区域,多个区域分别对应不同的动作;其中,不同的动作至少包括上左前、上左后、上右前、上右后,下左前,下左后,下右前以及下右后。

6、在本专利技术的一种实现方式中,基于避障能力瞬时奖励函数、目标点可达奖励函数以及最短路径牵引奖励函数,构建采样点瞬时奖励函数之前,方法还包括:基于采样点与障碍物之间的距离,以及第一预设距离阈值,构建避障能力瞬时奖励函数;基于采样点与目标点之间的距离,以及第二预设距离阈值,构建目标点可达奖励函数;确定出采样点与树上的最近节点之间的第一直线,以及确定出起始点与目标点之间的第二直线,基于第一直线与第二直线之间的夹角,以及预设夹角阈值,构建最短路径牵引奖励函数。

7、在本专利技术的一种实现方式中,基于第一直线与第二直线之间的夹角,以及预设夹角阈值,构建最短路径牵引奖励函数,具体包括:

8、基于函数:

9、;

10、构建最短路径牵引奖励函数;其中,为最短路径牵引奖励;为第一直线与第二直线之间的夹角。

11、在本专利技术的一种实现方式中,基于避障能力瞬时奖励函数、目标点可达奖励函数以及最短路径牵引奖励函数,构建采样点瞬时奖励函数,具体包括:

12、基于预设函数:

13、;

14、构建采样点瞬时奖励函数;其中,为避障能力瞬时奖励;为目标点可达奖励;为最短路径牵引奖励;为采样点瞬时奖励。

15、在本专利技术的一种实现方式中,通过采样点瞬时奖励函数与时序差分目标,对神经网络中的权重进行更新之前,方法还包括:基于当前状态选择出当前动作,基于当前状态与当前动作以及神经网络确定出当前价值;执行当前动作,通过采样点瞬时奖励函数获取采样点瞬时奖励与新的状态,抽样产生新的动作;基于神经网络、新的状态以及新的动作,确定出新的价值;通过采样点瞬时奖励与新的价值,确定出时序差分目标。

16、在本专利技术的一种实现方式中,通过采样点瞬时奖励函数与时序差分目标,对神经网络中的权重进行更新,具体包括:确定出当前价值与时序差分目标之间的误差;根据梯度下降法,确定出神经网络的权重参数梯度;基于误差、权重参数梯度,对神经网络中的权重进行更新。

17、在本专利技术的一种实现方式中,确定出当前价值与时序差分目标之间的误差,具体包括:

18、基于函数:

19、;

20、得到新的动作;其中,为新的状态,为新的动作,为神经网络的权重;为新的价值,为输入新的状态、新的动作以及权重后的神经网络;

21、基于函数:

22、;

23、确定出时序差分目标;其中,为采样点瞬时奖励,为新的价值;为时序差分目标;为折扣因子;

24、基于函数:

25、;

26、确定出当前价值与时序差分目标之间的误差;其中,为当前价值;为时序差分目标;为当前价值与时序差分目标之间的误差。

27、本专利技术实施例提供一种机器人动态路径规划设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:根据采样点的扩张方向,构建多个采样区域;其中,机器人选择不同的采样区域对应不同的动作;基于避障能力瞬时奖励函数、目标点可达奖励函数以及最短路径牵引奖励函数,构建采样点瞬时奖励函数;基于机器人对应的状态、机器人对应的执行动作以及权重,构建神经网络,并通过采样点瞬时奖励函数与时序差分目标,对神经网络中的权重进行更新,以确定执行动作的q值函数;根据更新后的权重确定出参考神经网络,通过参考神经网络预测的q值函数进行动作选取,以实现机器人动态路径规划。

28、本专利技术实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,计算机可执行指令设置为:根据采样点的扩张方向,构建多个采样区域;其中,机器人选择不同的采样区域对应有不同的动作;基于避障能力瞬时奖励函数、目标点可达奖励函数以及最短路径牵引奖励函数,构建采样点瞬时奖励函数;基于机器人对应的状态、机器人对应的执行动作以及权重,构建神经网络,并通过采样点瞬时奖励函数与时序差分目标,对神经网络中的权重进行更新,以确定执行动作的q值函数;根据更新后的权重确定出参考神经网络,通过参考神经网络预测的q值函数进行动作选取,以实现机器人动态路径规划。

29、本专利技术实施例采用的上述至少一个技术方案能够达到以下有益效果:本专利技术实施例针对工业机器人路径规划,以提高rrt算法的自学习能力和环境适应能力为手段,提出了基于神经网络的sars本文档来自技高网...

【技术保护点】

1.一种机器人动态路径规划方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种机器人动态路径规划方法,其特征在于,所述根据采样点的扩张方向,构建多个采样区域,具体包括:

3.根据权利要求1所述的一种机器人动态路径规划方法,其特征在于,所述基于避障能力瞬时奖励函数、目标点可达奖励函数以及最短路径牵引奖励函数,构建采样点瞬时奖励函数之前,所述方法还包括:

4.根据权利要求3所述的一种机器人动态路径规划方法,其特征在于,所述基于所述第一直线与所述第二直线之间的夹角,以及预设夹角阈值,构建所述最短路径牵引奖励函数,具体包括:

5.根据权利要求1所述的一种机器人动态路径规划方法,其特征在于,所述基于避障能力瞬时奖励函数、目标点可达奖励函数以及最短路径牵引奖励函数,构建采样点瞬时奖励函数,具体包括:

6.根据权利要求1所述的一种机器人动态路径规划方法,其特征在于,所述通过所述采样点瞬时奖励函数与时序差分目标,对所述神经网络中的权重进行更新之前,所述方法还包括:

7.根据权利要求6所述的一种机器人动态路径规划方法,其特征在于,所述通过所述采样点瞬时奖励函数与时序差分目标,对所述神经网络中的权重进行更新,具体包括:

8.根据权利要求7所述的一种机器人动态路径规划方法,其特征在于,所述确定出当前价值与所述时序差分目标之间的误差,具体包括:

9.一种机器人动态路径规划设备,其特征在于,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备执行权利要求1-8中的任一项所述的方法。

10.一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令能够执行权利要求1-8任一项所述的方法。

...

【技术特征摘要】

1.一种机器人动态路径规划方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种机器人动态路径规划方法,其特征在于,所述根据采样点的扩张方向,构建多个采样区域,具体包括:

3.根据权利要求1所述的一种机器人动态路径规划方法,其特征在于,所述基于避障能力瞬时奖励函数、目标点可达奖励函数以及最短路径牵引奖励函数,构建采样点瞬时奖励函数之前,所述方法还包括:

4.根据权利要求3所述的一种机器人动态路径规划方法,其特征在于,所述基于所述第一直线与所述第二直线之间的夹角,以及预设夹角阈值,构建所述最短路径牵引奖励函数,具体包括:

5.根据权利要求1所述的一种机器人动态路径规划方法,其特征在于,所述基于避障能力瞬时奖励函数、目标点可达奖励函数以及最短路径牵引奖励函数,构建采样点瞬时奖励函数,具体包括:

6.根据权利要求1所述的一种机...

【专利技术属性】
技术研发人员:罗莎庄勇博楚电明张明月李庆党白文娟李振健陈奕帆
申请(专利权)人:青岛科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1