当前位置: 首页 > 专利查询>山东大学专利>正文

一种在移动人群环境中的机器人导航方法及系统技术方案

技术编号:33448236 阅读:15 留言:0更新日期:2022-05-19 00:33
本发明专利技术属于机器人导航技术领域,提供了一种在移动人群环境中的机器人导航方法及系统。其中,该方法包括获取移动人群中各个行人的目标位置、首选速度、航向角、实时位置和实时速度以及机器人的实时位置和实时速度;再基于机器人的风险区域模型,得到移动人群与机器人相邻的行人的风险区域并进行躲避,进而得到机器人的导航路径;其中,所述基于机器人的风险区域模型为:当机器人在限定时间内躲避成功时,通过对应奖励函数得到奖励;当机器人进入风险区域时,通过对应惩罚函数得到惩罚;风险区域的惩罚函数形式和生效范围取决于环境中机器人和行人的实时相对位置和速度。和行人的实时相对位置和速度。和行人的实时相对位置和速度。

【技术实现步骤摘要】
一种在移动人群环境中的机器人导航方法及系统


[0001]本专利技术属于机器人导航
,尤其涉及一种在移动人群环境中的机器人导航方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]随着机器人的应用场景逐渐扩展到人机共存环境,对于社交机器人来说,在拥挤的人群环境中安全且符合社会规范的导航至关重要。近年来深度强化学习技术已经在解决人群环境下的机器人导航问题上取得了很大进展。但是专利技术人发现,目前的人群环境下的机器人导航技术未考虑人群移动速度的影响,从而导致机器人的性能会随着人群移动速度的增长而下降,从而使得机器人无法在快速移动的人群中准确感知环境中的危险。

技术实现思路

[0004]为了解决上述
技术介绍
中存在的技术问题,本专利技术提供一种在移动人群环境中的机器人导航方法及系统,其能够有效地感知环境中的风险,并在快速移动的人群中具有较高的安全性。
[0005]为了实现上述目的,本专利技术采用如下技术方案:
[0006]本专利技术的第一个方面提供一种在移动人群环境中的机器人导航方法,其包括:
[0007]获取移动人群中各个行人的目标位置、首选速度、航向角、实时位置和实时速度以及机器人的实时位置和实时速度;
[0008]再基于机器人的风险区域模型,得到移动人群与机器人相邻的行人的风险区域并进行躲避,进而得到机器人的导航路径;
[0009]其中,所述基于机器人的风险区域模型为:
[0010]当机器人在限定时间内躲避成功时,通过对应奖励函数得到奖励;当机器人进入风险区域时,通过对应惩罚函数得到惩罚;风险区域的惩罚函数形式和生效范围取决于环境中机器人和行人的实时相对位置和速度。
[0011]作为一种实施方式,机器人的导航路径是找到一个使期望收益最大化的最优策略
[0012][0013][0014]式中表示在t时刻获得的奖励,γ∈(0,1)是一个折扣因子,是最优值函数,是从时间t到时间t
Δ
=t+Δt的状态转移概率;是在t时刻整个系
统的联合状态,是在t
Δ
时刻整个系统的联合状态,a
t
表示在t时刻的动作;v
pref
表示首选速度。
[0015]作为一种实施方式,使用时间差分学习方法来训练最优值函数。
[0016]作为一种实施方式,所述风险区域包括位置风险区域和速度风险区域。
[0017]作为一种实施方式,所述惩罚函数为基于速度的惩罚函数和基于位置的惩罚函数的总和。
[0018]本专利技术的第二个方面提供一种在移动人群环境中的机器人导航系统,其包括:
[0019]信息获取模块,其用于获取移动人群中各个行人的目标位置、首选速度、航向角、实时位置和实时速度以及机器人的实时位置和实时速度;
[0020]路径导航模块,其用于再基于机器人的风险区域模型,得到移动人群与机器人相邻的行人的风险区域并进行躲避,进而得到机器人的导航路径;
[0021]其中,所述基于机器人的风险区域模型为:
[0022]当机器人在限定时间内躲避成功时,通过对应奖励函数得到奖励;当机器人进入风险区域时,通过对应惩罚函数得到惩罚;风险区域的惩罚函数形式和生效范围取决于环境中机器人和行人的实时相对位置和速度。
[0023]作为一种实施方式,在所述路径导航模块中,机器人的导航路径是找到一个使期望收益最大化的最优策略
[0024][0025][0026]式中表示在t时刻获得的奖励,γ∈(0,1)是一个折扣因子,是最优值函数,是从时间t到时间t
Δ
=t+Δt的状态转移概率;是在t时刻整个系统的联合状态,是在t
Δ
时刻整个系统的联合状态,a
t
表示在t时刻的动作;v
pref
表示首选速度。
[0027]作为一种实施方式,在所述路径导航模块中,所述风险区域包括位置风险区域和速度风险区域。
[0028]本专利技术的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的在移动人群环境中的机器人导航方法中的步骤。
[0029]本专利技术的第四个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的在移动人群环境中的机器人导航方法中的步骤。
[0030]与现有技术相比,本专利技术的有益效果是:
[0031]本专利技术考虑了不同机器人和人的运动特性,提出了一种新的强化学习奖励函数形式,即机器人的风险区域(Risk

Area,RA)模型,其中,风险区域的惩罚函数形式和生效范围取决于环境中机器人和行人的实时相对位置和速度。该方法对于快速移动的行人更加关注,并鼓励机器人采取有效的回避行为,机器人在深度强化学习框架下经过训练,可以避开
危险区域,实现了安全可靠的导航。
[0032]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0033]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0034]图1是本专利技术实施例的一种在移动人群环境中的机器人导航方法流程图;
[0035]图2(a)是本专利技术实施例的机器人和行人同向行驶;
[0036]图2(b)是本专利技术实施例的机器人和行人相对移动;
[0037]图3(a)是本专利技术实施例的位置风险区域函数图;
[0038]图3(b)是本专利技术实施例的位置风险区域几何形式图;
[0039]图4(a)是本专利技术实施例的速度风险区域函数图;
[0040]图4(b)是本专利技术实施例的速度风险区域几何形式图;
[0041]图5(a)是本专利技术实施例的风险区域函数图;
[0042]图5(b)是本专利技术实施例的风险区域几何形式图;
[0043]图6是本专利技术实施例的不同位置下的机器人惩罚情况;
[0044]图7是本专利技术实施例的机器人在风险区域中的受惩罚情况;
[0045]图8(a)是在SARL奖励函数设置下的SARL算法训练结果;
[0046]图8(b)是在SARL

DZ奖励函数设置下的SARL算法训练结果;
[0047]图8(c)是在SARL

RA奖励函数设置下的SARL算法训练结果;
[0048]图9是机器人在实际环境中的实验示意图;
[0049]图10是本专利技术实施例的一种在移动人群环境中的机器人导航系统结构示意图。
具体实施方式
[0050]下面结合附图与实施例对本专利技术作进一步说明。
[0051]应该指出,以下详细说明都是例示性的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在移动人群环境中的机器人导航方法,其特征在于,包括:获取移动人群中各个行人的目标位置、首选速度、航向角、实时位置和实时速度以及机器人的实时位置和实时速度;再基于机器人的风险区域模型,得到移动人群与机器人相邻的行人的风险区域并进行躲避,进而得到机器人的导航路径;其中,所述基于机器人的风险区域模型为:当机器人在限定时间内躲避成功时,通过对应奖励函数得到奖励;当机器人进入风险区域时,通过对应惩罚函数得到惩罚;风险区域的惩罚函数形式和生效范围取决于环境中机器人和行人的实时相对位置和速度。2.如权利要求1所述的在移动人群环境中的机器人导航方法,其特征在于,机器人的导航路径是找到一个使期望收益最大化的最优策略航路径是找到一个使期望收益最大化的最优策略航路径是找到一个使期望收益最大化的最优策略式中表示在t时刻获得的奖励,γ∈(0,1)是一个折扣因子,是最优值函数,是从时间t到时间t
Δ
=t+Δt的状态转移概率;是在t时刻整个系统的联合状态,是在t
Δ
时刻整个系统的联合状态,a
t
表示在t时刻的动作;v
pref
表示首选速度。3.如权利要求2所述的在移动人群环境中的机器人导航方法,其特征在于,使用时间差分学习方法来训练最优值函数。4.如权利要求1所述的在移动人群环境中的机器人导航方法,其特征在于,所述风险区域包括位置风险区域和速度风险区域。5.如权利要求4所述的在移动人群环境中的机器人导航方法,其特征在于,所述惩罚函数为基于速度的惩罚函数和基于位置的惩罚函数的总和。6.一种在移动人群环境中的机器人导航系统,其特征在于,包括:信息获取模块,其用于获取移动人群中各个行人的目标位置、首选速度、航向角、实时...

【专利技术属性】
技术研发人员:周风余冯震薛秉鑫夏英翔尹磊
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1