基于时空交互图和危险区域的机器人人群导航方法及系统技术方案

技术编号:39803546 阅读:6 留言:0更新日期:2023-12-22 02:34
本发明专利技术公开一种基于时空交互图和危险区域的机器人人群导航方法及系统,所述方法利用时空交互图的注意力机制来捕获机器人与其它代理的协商合作交互,使用注意力机制的图神经网络,进行时空推理理解行人间的隐式交互,创建一个可以在部分可观察的人群中符合社会要求的机器人自主导航;通过考虑行人的运动学模型,构建一个实时的受约束行动空间,即潜在的危险区域,在不确定和动态的拥挤场景中,行人根据其身体状况以不可预测的速度导航,本发明专利技术构造基于行人运动特性的危险区域,显示建模机器人的受约束运动空间,没有任何专家监督的情况下使用无模型深度强化学习来训练网络,使机器人能够在人群导航中执行高效的时空推理

【技术实现步骤摘要】
基于时空交互图和危险区域的机器人人群导航方法及系统


[0001]本专利技术属于智能移动机器人行为规划领域,具体涉及一种基于时空交互图和危险区域的机器人人群导航方法及系统


技术介绍

[0002]随着移动机器人的快速发展,在不确定和动态的拥挤环境中进行高效安全的自主导航是一个重要但具有挑战性的问题

在丰富的行人环境中,静态行人和动态行人存在隐式的合作和协商交互,这导致智能体难以推断行人的策略偏好和预期目标,自主导航过于保守或不符合社会,甚至出现冻结机器人问题

[0003]针对具有挑战性的机器人人群导航问题,多位学者已经做出成功的方法

基于反应的方法,如最优互防碰撞
(ORCA)
和社会力
(SF)
,规定机器

行人和环境之间的交互规则,从而实现避碰

合理协作等行为

基于学习的方法将机器人人群导航建模为马尔可夫决策过程
(MDP)
,并使用神经网络逼近
MDP
的解

但以上方法都基于两个假设,第一个假设是机器人关注拥挤场景中所有行人,第二个假设是在整个导航过程中行人的所有状态特征都是可观察的

这在实际应用中可能是不现实的,第一个假设在行人样本数据不均衡的条件下会导致不完美的交互建模,第二种假设引入了周围冗余信息的聚合,尤其是对于行人密度小于1至2人
/
平方米的人群中,所有邻接行人的联合影响可能会损害机器人的状态特征编码,过度保守的代理行为可能会造成冷冻机器人问题


技术实现思路

[0004]为了处理现实条件,本专利技术提供一种基于时空交互图和危险区域的机器人人群导航方法,使用注意力机制的图神经网络,进行时空推理理解行人间的隐式交互,创建一个可以在部分可观察的人群中符合社会要求的机器人自主导航,提供一种
Danger

Zone
算法,通过考虑行人的运动学模型,以高实时性构建一个受约束行动空间,即潜在的危险区域
(DZ)
,解决机器人冻结的问题

[0005]为了实现上述目的,本专利技术采用的技术方案是:一种基于时空交互图和危险区域的机器人人群导航方法,导航过程为机器人与拥挤环境交互的序贯决策过程,包括以下步骤:
[0006]通过考虑行人的运动学模型,构建一个实时的受约束行动空间,即潜在危险区域;
[0007]在不确定和动态的拥挤场景中,对行人根据自身的身体状况和潜在的危险区域以不可预测的速度导航;
[0008]考虑行人的潜在危险区域,基于
Actor

Critic
框架的无模型深度强化学习方法优化机器人与行人的交互过程,输出动作指令,使机器人远离潜在危险区域到达终点

[0009]进一步的,将机器人与拥挤环境交互的序贯决策过程规范化为一个由
(S,A,R,P,
γ
)
五元组组成的马尔可夫决策过程,其中,
S
为状态空间,
A
为动作空间,
P
为概率转移函数,
R
为奖励函数,
γ
为折扣因子,
t
时刻机器人和传感器范围内行人的状态定义为
由策略
π
(a|s)

P(a
t

a|s
t

s)
根据
s
t
得到动作命令
a
t

π
(s
t
)
,机器人采取
a
t
过渡到
t+1
时刻状态
s
t+1
,同时得到奖励
r
t
,直至到达目标点;机器人调整策略
π
,得到长期的收益
R
t
如下:
[0010][0011]其中,

t:0...T
‑1γ
t
r
t
部分记录机器人在时间窗口
[0,T

1)
内状态轨迹的累积奖励,
γ
T
r
T
代表结束时刻
T
的奖励,其中,
γ
为衰减因子

[0012]进一步的,采用蒙特卡罗算法求解贝尔曼优化方程求得最优策略,贝尔曼优化方程如下:
[0013][0014]其中,为
PPO
算法的最优动作状态值函数,采取大数定理近似等价处理得到
P。
[0015]进一步的,机器人采取
a
t
过渡到
t+1
时刻状态
s
t+1
时,在每个时间步
t
,构造由一组节点
V
t

一组空间边和一组时间边组成的空间图空间边连接相同时间步长下移动机器人和其观测到的行人,以隐式表示在同一时间步长两者的空间交互,时间边连接相邻时间步长的机器人节点;
[0016]构造空间边注意力机制和时间边
GRU
机制,空间边注意力机制将分配每一对人类和机器人之间的空间边权重,使用查询
Q
和键
K
计算注意力得分,并将归一化得分应用于值
V

[0017][0018]将注意力机制输出的隐藏状态和机器人的自身状态连接到多层感知器中,得到机器人和感受野范围内行人之间的特征编码;
[0019]时间边
GRU
输入机器人基于动力学的自身轨迹,将线性化的时间特征变量送入
GRU
模块:
[0020][0021]其中是
GRU
在时间
t
的隐藏状态,最后,将输入到完全连接层,以获得值
V(s
t
)
和策略
π
(a
t
|s
t
)。
[0022]进一步的,构建一个实时的受约束行动空间,即潜在危险区域时,计算机器人视野内的危险区域,潜在危险区域奖励函数基于危险区域重叠面积
A
overleap

行人到机器人之间的三维当前距离
d
c
和未来距离
d
f
,危险区域重叠面积
A
overleap
的优先级高于距离,且行人与机器人的危险重叠区域与潜在危险区域奖励函数呈负线性增加,当两者存在交叠面积时机器人会立刻进入潜在危险区域,容易发生碰撞,当不存在交叠区域时,考虑机器人和行人之间的距离,远离行人时奖励本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于时空交互图和危险区域的机器人人群导航方法,其特征在于,导航过程为机器人与拥挤环境交互的序贯决策过程,包括以下步骤:通过考虑行人的运动学模型,构建一个实时的受约束行动空间,即潜在危险区域;在不确定和动态的拥挤场景中,对行人根据自身的身体状况和潜在的危险区域以不可预测的速度导航;考虑行人的潜在危险区域,基于
Actor

Critic
框架的无模型深度强化学习方法优化机器人与行人的交互过程,输出动作指令,使机器人远离潜在危险区域到达终点
。2.
根据权利要求1所述的基于时空交互图和危险区域的机器人人群导航方法,其特征在于,将机器人与拥挤环境交互的序贯决策过程规范化为一个由
(S,A,R,P,
γ
)
五元组组成的马尔可夫决策过程,其中,
S
为状态空间,
A
为动作空间,
P
为概率转移函数,
R
为奖励函数,
γ
为折扣因子,
t
时刻机器人和传感器范围内行人的状态定义为由策略
π
(a|s)

P(a
t

a|s
t

s)
根据
s
t
得到动作命令
a
t

π
(s
t
)
,机器人采取
a
t
过渡到
t+1
时刻状态
s
t+1
,同时得到奖励
r
t
,直至到达目标点;机器人调整策略
π
,得到长期的收益
R
t
如下:其中,

t:0...T
‑1γ
t
r
t
部分记录机器人在时间窗口
[0,T

1)
内状态轨迹的累积奖励,
γ
T
r
T
代表结束时刻
T
的奖励,其中,
γ
为衰减因子
。3.
根据权利要求2所述的基于时空交互图和危险区域的机器人人群导航方法,其特征在于,采用蒙特卡罗算法求解贝尔曼优化方程求得最优策略,贝尔曼优化方程如下:其中,为
PPO
算法的最优动作状态值函数,采取大数定理近似等价处理得到
P。4.
根据权利要求2所述的基于时空交互图和危险区域的机器人人群导航方法,其特征在于,机器人采取
a
t
过渡到
t+1
时刻状态
s
t+1
时,在每个时间步
t
,构造由一组节点
V
t

一组空间边和一组时间边组成的空间图空间边连接相同时间步长下移动机器人和其观测到的行人,以隐式表示在同一时间步长两者的空间交互,时间边连接相邻时间步长的机器人节点;构造空间边注意力机制和时间边
GRU
机制,空间边注意力机制将分配每一对人类和机器人之间的空间边权重,使用查询
Q
和键
K
计算注意力得分,并将归一化得分应用于值
V
:将注意力机制输出的隐藏状态和机器人的自身状态连接到多层感知器中,得到机器人和感受野范围内行人之间的特征编码;时间边
GRU
输入机器人基于动力学的自身轨迹,将线性化的时间特征变量送入
GRU
模块:
其中是
GRU
在时间
t
的隐藏状态,最后,将输入到完全连接层,以获得值
V(s
t
)
和策略
π
(a
t
|s
t
)。5.
根据权利要求1所述的基于时空交互图和危...

【专利技术属性】
技术研发人员:辛景民史佳敏邱卓陈仕韬郑南宁
申请(专利权)人:宁波市舜安人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1