【技术实现步骤摘要】
基于深度强化学习的服务机器人人群感知导航方法及系统
[0001]本专利技术涉及机器人导航
,特别是涉及基于深度强化学习的服务机器人人群感知导航方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]随着感知和计算技术的迅速发展,机器人的应用场景逐渐从孤立环境扩展到与人共融的社会空间。这要求机器人在人群中安全可靠地导航,具有以下两个方面的挑战:首先,由于智能体之间的通信并非广泛存在,每个智能体的意图对于机器人来说是未知的且难以在线预测;其次,行人通常遵循难以量化的微妙社会规范,这使得机器人更难在人群中导航。尽管存在挑战,但相关机器人导航问题已得到广泛研究,并涌现出许多有价值的成果。相关研究方法可分为基于反应方法、基于轨迹方法和基于学习方法。
[0004]在基于反应方法中,一项开创性工作是社会力模型(SFM),它使用吸引力和排斥力来建模人群中的交互行为。其他方法例如互惠速度障碍(RVO)和最优互惠碰撞避免(ORCA)是将周围智能体视为速度障碍,以在互惠假设下获取最优无碰撞速度。然而,上述算法都存在冻结机器人问题。此外,这些算法仅采用当前状态作为输入,经常导致短视且不自然的行为,因此难以适用于现实世界的人机交互。
[0005]基于轨迹方法采用最大熵学习技术从行人数据中学习潜在的合作特征。该方法允许机器人展望未来并做出有远见的决策。然而,基于轨迹方法具有以下缺点:首先,在线预测周围智能体的运动轨迹并从宽阔的状态空间中搜索可行路径 ...
【技术保护点】
【技术特征摘要】
1.基于深度强化学习的服务机器人人群感知导航方法,其特征是,包括:获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏好速度和朝向角;根据智能体的可观测状态和不可观测状态,找到服务机器人在每个时间步的最优导航策略,以实现机器人在n个行人之间导航,并在没有任何碰撞的情况下到达目标所在地;其中,n为正整数;所述最优导航策略以满足最大化期望累积奖赏为目标;所述最优导航策略包括服务机器人在每个时间步的动作指令,即在每个时间步服务机器人需实现的速度。2.如权利要求1所述的基于深度强化学习的服务机器人人群感知导航方法,其特征是,获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏好速度和朝向角;其中,可观测状态为当前智能体的位置p=[p
x
,p
y
],速度v=[v
x
,v
y
]和半径r;不可观测状态为目标的位置g=[g
x
,g
y
],偏好速度v
pref
和朝向角θ。3.如权利要求1所述的基于深度强化学习的服务机器人人群感知导航方法,其特征是,所述最优导航策略为:所述最优导航策略为:其中,表示最优导航策略;为t时刻获得的奖赏;A为动作空间,其中包含机器人可达到的速度集合;γ∈(0,1)为折扣因子;偏好速度v
pref
被用作折扣因子中的归一化项;为执行动作a
t
时从到的转移概率;V
*
为最优值函数;表示t+Δt时刻最优联合状态值;表示t时刻最优联合状态值;表示t时刻联合状态;表示t+Δt时刻联合状态。4.如权利要求3所述的基于深度强化学习的服务机器人人群感知导航方法,其特征是,服务机器人每个时间步对应的执行动作a
t
通过值网络结构来预测;所述值网络结构,包括:若干个并联支路;每一个支路,包括:依次连接的空间映射单元和循环神经网络;每一个支路的循环神经网络输出端均分别与第一多层感知器的输入端和第二多层感知器的输入端连接;第一多层感知器的输出端和第二多层感知器的输出端均与注意力模块的输入端连接,注意力模块的输出端与第三多层感知器的输入端连接,第三多层感知器的输出端用于输出服务机器人每个时间步对应的最优状态值估计。5.如权利要求4所述的基于深度强化学习的服务机器人人群感知导航方法,其特征是,每一个支路与一个行人对应;所述空间映射单元的输入值为当前行人的可观测状态;所述空间映射单元的输出值为当前行人当前时间步的空间关系特征的映射张量;所述循环神经网络的输入值为空间映射单元的输出值、当前时间步下行人的可观测状态以及当前时间步下机器人的状态;所述循环神经网络的输出值为当前时间步下当前行人的隐含状态。
6.如权利要求5...
【专利技术属性】
技术研发人员:周风余,薛秉鑫,冯震,夏英翔,尹磊,
申请(专利权)人:山东大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。