基于人工势场与强化学习的机器人路径规划方法技术

技术编号:28444996 阅读:53 留言:0更新日期:2021-05-15 21:05
本发明专利技术公开了一种基于人工势场与强化学习的机器人路径规划方法,属于路径规划领域。首先,利用使用人工势场法构建地图。其次,在多目标的情况加入小范围强作用力的域势场。最后,利用强化学习与分布课程学习技术,实现多智能体在多目标情况下的路径规划。本发明专利技术结合人工势场法和强化学习法,将多目标环境有效建模,同时减少局部稳定点的出现,使用强化学习对出现的局部稳定点情况也进行学习规避,提高了路径规划的成功率。本发明专利技术对于路径规划具有更高的可靠性。更高的可靠性。更高的可靠性。

【技术实现步骤摘要】
基于人工势场与强化学习的机器人路径规划方法


[0001]本专利技术属于路径规划领域,特别涉及一种基于人工势场的路径规划,利用时序差分学习和强化学习方法。

技术介绍

[0002]随着智能体和人工智能理论的不断发展,自主式移动智能体技术日益成熟,并且在工业、军事、医疗、服务等诸多领域得到广泛应用。与此同时,智能体所面临的任务也愈加复杂,所处环境由原来的单一智能体、确定性环境转变为多智能体、不确定环境。因此,近年来对复杂系统中智能体自主智能控制技术的研究得到了学术界和工业界的广泛关注,而路径规划及导航作为其中的关键性技术成为了目前智能体学的研究热点之一。
[0003]目前路径规划技术包括两大类:基于确定环境的全局规划和基于传感探测信息的局部规划。前者是在静态已知的环境中进行路径规划,又称静态路径规划方法,目前应用比较多的方法有:贪心算法,Dijkstra算法及A*算法;后者针对环境信息未知的情况,需要根据传感器输入的环境信息实时地进行路径规划,主流的方法有人工势场法,神经网络法,模糊逻辑法等。
[0004]人工势场法是一种虚拟力场法,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于人工势场与强化学习的机器人路径规划方法,其特征在于,包括以下步骤:步骤一:构建人工势场,势场由引力势场和斥力势场叠加而成;目标点对智能体提供引力,形成引力势场;障碍物对智能体提供斥力,形成斥力势场;步骤二:强化学习在域-人工势场的预训练,得到用于强化学习的策略,智能体根据策略躲避障碍物,寻找目标点。2.根据权利要求1所述的基于人工势场与强化学习的机器人路径规划方法,其特征在于,所述的人工势场路径规划的方法针对非凸障碍物的智能体算法优化方法为:将所述步骤二中学习到初步策略的智能体针对特定的局部稳定点情况进一步学习,学习处理复杂情况的环境。3.根据权利要求1所述的基于人工势场与强化学习的机器人路径规划方法,其特征在于,所述步骤一中势场的构建过程为:1)根据障碍物与目标点的位置,分别构建障碍物和目标点的引力场,其中引力场如下:其中U
att
(q)为目标点在位置q产生的引力场,k
att
为目标点的引力系数,引力系数越大说明目标点具有更强的吸引力,q为位置坐标,目标点所在坐标为q
g
,所以q
g
处势场为0;2)构建障碍物的斥力场其中U
rep
(q)为障碍物在位置q产生的斥力场,k
rep
为障碍物的斥力系数,斥力系数越大说明障碍物周围具有更强的排斥力,q-q0为当前位置坐标与障碍物距离,障碍物的斥力场范围大小为p0,超过该范围则机器人感受不到该障碍物的排斥力。4.根据权利要求3所述的基于人工势场与强化学习的机器人路径规划方法,其特征在于,还包括:针对局部稳定点情况,构建域势场其中U
str
(q)为域势场,k
str
为强吸引力指数,该指数大于k
att
,q-q
g
为当前位置坐标与目标点距离,同时具有一个范围场p
s
,在该范围内能感受到该目标点的强吸引力。5.根据权利要求1所述的基于人工势场与强化学习的机器人路径规划方法,其特征在于,所述步骤二中强化学习在域-人工势场的预训练,得到用于强化学习的策略,步骤如下:1)建立Q函数来计算奖励值,当智能体躲避障碍物,抵达目标点都可以获得奖励。Q函数预计当前行动和状态下,根据当前策略一直到迭代结束所获得的总奖励值,这过程智能体获得奖励值为:Q
...

【专利技术属性】
技术研发人员:么庆丰郑泽宇赵明潘怡君
申请(专利权)人:中国科学院沈阳自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1