当前位置: 首页 > 专利查询>山东大学专利>正文

基于深度强化学习的服务机器人人群感知导航方法及系统技术方案

技术编号:33459331 阅读:11 留言:0更新日期:2022-05-19 00:40
本发明专利技术公开了基于深度强化学习的服务机器人人群感知导航方法及系统,包括:获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;根据智能体的可观测状态和不可观测状态,找到服务机器人在每个时间步的最优导航策略,以实现机器人在n个行人之间导航,并在没有任何碰撞的情况下到达目标所在地;最优导航策略以满足最大化期望累积奖赏为目标;所述最优导航策略包括服务机器人在每个时间步的动作指令,即在每个时间步服务机器人需实现的速度。本发明专利技术能够有效预测行人的未来运动轨迹,进而提升机器人决策水平,实现机器人在人群环境中的可靠导航。器人在人群环境中的可靠导航。器人在人群环境中的可靠导航。

【技术实现步骤摘要】
基于深度强化学习的服务机器人人群感知导航方法及系统


[0001]本专利技术涉及机器人导航
,特别是涉及基于深度强化学习的服务机器人人群感知导航方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]随着感知和计算技术的迅速发展,机器人的应用场景逐渐从孤立环境扩展到与人共融的社会空间。这要求机器人在人群中安全可靠地导航,具有以下两个方面的挑战:首先,由于智能体之间的通信并非广泛存在,每个智能体的意图对于机器人来说是未知的且难以在线预测;其次,行人通常遵循难以量化的微妙社会规范,这使得机器人更难在人群中导航。尽管存在挑战,但相关机器人导航问题已得到广泛研究,并涌现出许多有价值的成果。相关研究方法可分为基于反应方法、基于轨迹方法和基于学习方法。
[0004]在基于反应方法中,一项开创性工作是社会力模型(SFM),它使用吸引力和排斥力来建模人群中的交互行为。其他方法例如互惠速度障碍(RVO)和最优互惠碰撞避免(ORCA)是将周围智能体视为速度障碍,以在互惠假设下获取最优无碰撞速度。然而,上述算法都存在冻结机器人问题。此外,这些算法仅采用当前状态作为输入,经常导致短视且不自然的行为,因此难以适用于现实世界的人机交互。
[0005]基于轨迹方法采用最大熵学习技术从行人数据中学习潜在的合作特征。该方法允许机器人展望未来并做出有远见的决策。然而,基于轨迹方法具有以下缺点:首先,在线预测周围智能体的运动轨迹并从宽阔的状态空间中搜索可行路径的计算成本高且难以保证实时性;其次,预测的轨迹可能占据大部分状态空间,使得机器人的行为过于保守。
[0006]最近,基于学习方法备受关注。一部分基于学习方法利用模仿学习从所需行为的演示中学习策略。另一部分基于学习方法将机器人人群感知导航视为马尔可夫决策过程,并利用深度强化学习来解决相关问题。给定所有智能体的状态转移,规划器首先从价值网络中计算所有可能的下一个状态值,然后根据价值网络估计的最大状态值选择最优动作。然而,当前基于学习方法并未充分考虑人机交互中行人的安全性和舒适性。

技术实现思路

[0007]为了解决现有技术的不足,本专利技术提供了基于深度强化学习的服务机器人人群感知导航方法及系统;提出了一个新的价值网络用于机器人决策,该网络联合推理了行人的空间关系和他们运动的时间关系。考虑行人实时行为,设计机器人的危险区域,并制定新的奖励函数,以进一步保证行人在人机交互中的安全性和舒适性。
[0008]第一方面,本专利技术提供了基于深度强化学习的服务机器人人群感知导航方法;
[0009]基于深度强化学习的服务机器人人群感知导航方法,包括:
[0010]获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏
好速度和朝向角;
[0011]根据智能体的可观测状态和不可观测状态,找到服务机器人在每个时间步的最优导航策略,以实现机器人在n个行人之间导航,并在没有任何碰撞的情况下到达目标所在地;其中,n为正整数;所述最优导航策略以满足最大化期望累积奖赏为目标;所述最优导航策略包括服务机器人在每个时间步的动作指令,即在每个时间步服务机器人需实现的速度。
[0012]第二方面,本专利技术提供了基于深度强化学习的服务机器人人群感知导航系统;
[0013]基于深度强化学习的服务机器人人群感知导航系统,包括:
[0014]获取模块,其被配置为:获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏好速度和朝向角;
[0015]导航模块,其被配置为:根据智能体的可观测状态和不可观测状态,找到服务机器人在每个时间步的最优导航策略,以实现机器人在n个行人之间导航,并在没有任何碰撞的情况下到达目标所在地;其中,n为正整数;所述最优导航策略以满足最大化期望累积奖赏为目标;所述最优导航策略包括服务机器人在每个时间步的动作指令,即在每个时间步服务机器人需实现的速度。
[0016]第三方面,本专利技术还提供了一种电子设备,包括:
[0017]存储器,用于非暂时性存储计算机可读指令;以及
[0018]处理器,用于运行所述计算机可读指令,
[0019]其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
[0020]第四方面,本专利技术还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
[0021]第五方面,本专利技术还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
[0022]与现有技术相比,本专利技术的有益效果是:
[0023]1、提出一种新的价值网络,该网络通过联合推理行人的空间关系和他们运动的时间关系来对人群交互进行建模,从而能够有效预测行人的未来运动轨迹,进而提升机器人决策水平,实现机器人在人群环境中的可靠导航。
[0024]2、考虑行人实时运动行为,利用行人速度信息和行人可接受的安全距离设计机器人危险区域,并根据惩罚判断条件完成奖励函数设计。机器人在训练阶段将学习躲避危险区域的能力,从而保证行人在人机交互中的安全性和舒适性,实现机器人在现实社会环境中的安全导航。
附图说明
[0025]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0026]图1为实施例一的值网络结构;
[0027]图2为实施例一的空间映射示意图;
[0028]图3为实施例一的危险区域初始几何形状;
[0029]图4为实施例一的危险区域最终几何形状;
[0030]图5为实施例一的判断机器人是否在危险区域示意图。
具体实施方式
[0031]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0032]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0033]在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度强化学习的服务机器人人群感知导航方法,其特征是,包括:获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏好速度和朝向角;根据智能体的可观测状态和不可观测状态,找到服务机器人在每个时间步的最优导航策略,以实现机器人在n个行人之间导航,并在没有任何碰撞的情况下到达目标所在地;其中,n为正整数;所述最优导航策略以满足最大化期望累积奖赏为目标;所述最优导航策略包括服务机器人在每个时间步的动作指令,即在每个时间步服务机器人需实现的速度。2.如权利要求1所述的基于深度强化学习的服务机器人人群感知导航方法,其特征是,获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏好速度和朝向角;其中,可观测状态为当前智能体的位置p=[p
x
,p
y
],速度v=[v
x
,v
y
]和半径r;不可观测状态为目标的位置g=[g
x
,g
y
],偏好速度v
pref
和朝向角θ。3.如权利要求1所述的基于深度强化学习的服务机器人人群感知导航方法,其特征是,所述最优导航策略为:所述最优导航策略为:其中,表示最优导航策略;为t时刻获得的奖赏;A为动作空间,其中包含机器人可达到的速度集合;γ∈(0,1)为折扣因子;偏好速度v
pref
被用作折扣因子中的归一化项;为执行动作a
t
时从到的转移概率;V
*
为最优值函数;表示t+Δt时刻最优联合状态值;表示t时刻最优联合状态值;表示t时刻联合状态;表示t+Δt时刻联合状态。4.如权利要求3所述的基于深度强化学习的服务机器人人群感知导航方法,其特征是,服务机器人每个时间步对应的执行动作a
t
通过值网络结构来预测;所述值网络结构,包括:若干个并联支路;每一个支路,包括:依次连接的空间映射单元和循环神经网络;每一个支路的循环神经网络输出端均分别与第一多层感知器的输入端和第二多层感知器的输入端连接;第一多层感知器的输出端和第二多层感知器的输出端均与注意力模块的输入端连接,注意力模块的输出端与第三多层感知器的输入端连接,第三多层感知器的输出端用于输出服务机器人每个时间步对应的最优状态值估计。5.如权利要求4所述的基于深度强化学习的服务机器人人群感知导航方法,其特征是,每一个支路与一个行人对应;所述空间映射单元的输入值为当前行人的可观测状态;所述空间映射单元的输出值为当前行人当前时间步的空间关系特征的映射张量;所述循环神经网络的输入值为空间映射单元的输出值、当前时间步下行人的可观测状态以及当前时间步下机器人的状态;所述循环神经网络的输出值为当前时间步下当前行人的隐含状态。
6.如权利要求5...

【专利技术属性】
技术研发人员:周风余薛秉鑫冯震夏英翔尹磊
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1