【技术实现步骤摘要】
基于时空交互图和危险区域的机器人人群导航方法及系统
[0001]本专利技术属于智能移动机器人行为规划领域,具体涉及一种基于时空交互图和危险区域的机器人人群导航方法及系统
。
技术介绍
[0002]随着移动机器人的快速发展,在不确定和动态的拥挤环境中进行高效安全的自主导航是一个重要但具有挑战性的问题
。
在丰富的行人环境中,静态行人和动态行人存在隐式的合作和协商交互,这导致智能体难以推断行人的策略偏好和预期目标,自主导航过于保守或不符合社会,甚至出现冻结机器人问题
。
[0003]针对具有挑战性的机器人人群导航问题,多位学者已经做出成功的方法
。
基于反应的方法,如最优互防碰撞
(ORCA)
和社会力
(SF)
,规定机器
、
行人和环境之间的交互规则,从而实现避碰
、
合理协作等行为
。
基于学习的方法将机器人人群导航建模为马尔可夫决策过程
(MDP)
,并使用神经网络逼近
MDP
的解
。
但以上方法都基于两个假设,第一个假设是机器人关注拥挤场景中所有行人,第二个假设是在整个导航过程中行人的所有状态特征都是可观察的
。
这在实际应用中可能是不现实的,第一个假设在行人样本数据不均衡的条件下会导致不完美的交互建模,第二种假设引入了周围冗余信息的聚合,尤其是对于行人密度小于1至2人
/
平方米的人群中,所有邻 ...
【技术保护点】
【技术特征摘要】
1.
一种基于时空交互图和危险区域的机器人人群导航方法,其特征在于,导航过程为机器人与拥挤环境交互的序贯决策过程,包括以下步骤:通过考虑行人的运动学模型,构建一个实时的受约束行动空间,即潜在危险区域;在不确定和动态的拥挤场景中,对行人根据自身的身体状况和潜在的危险区域以不可预测的速度导航;考虑行人的潜在危险区域,基于
Actor
‑
Critic
框架的无模型深度强化学习方法优化机器人与行人的交互过程,输出动作指令,使机器人远离潜在危险区域到达终点
。2.
根据权利要求1所述的基于时空交互图和危险区域的机器人人群导航方法,其特征在于,将机器人与拥挤环境交互的序贯决策过程规范化为一个由
(S,A,R,P,
γ
)
五元组组成的马尔可夫决策过程,其中,
S
为状态空间,
A
为动作空间,
P
为概率转移函数,
R
为奖励函数,
γ
为折扣因子,
t
时刻机器人和传感器范围内行人的状态定义为由策略
π
(a|s)
=
P(a
t
=
a|s
t
=
s)
根据
s
t
得到动作命令
a
t
=
π
(s
t
)
,机器人采取
a
t
过渡到
t+1
时刻状态
s
t+1
,同时得到奖励
r
t
,直至到达目标点;机器人调整策略
π
,得到长期的收益
R
t
如下:其中,
∑
t:0...T
‑1γ
t
r
t
部分记录机器人在时间窗口
[0,T
‑
1)
内状态轨迹的累积奖励,
γ
T
r
T
代表结束时刻
T
的奖励,其中,
γ
为衰减因子
。3.
根据权利要求2所述的基于时空交互图和危险区域的机器人人群导航方法,其特征在于,采用蒙特卡罗算法求解贝尔曼优化方程求得最优策略,贝尔曼优化方程如下:其中,为
PPO
算法的最优动作状态值函数,采取大数定理近似等价处理得到
P。4.
根据权利要求2所述的基于时空交互图和危险区域的机器人人群导航方法,其特征在于,机器人采取
a
t
过渡到
t+1
时刻状态
s
t+1
时,在每个时间步
t
,构造由一组节点
V
t
、
一组空间边和一组时间边组成的空间图空间边连接相同时间步长下移动机器人和其观测到的行人,以隐式表示在同一时间步长两者的空间交互,时间边连接相邻时间步长的机器人节点;构造空间边注意力机制和时间边
GRU
机制,空间边注意力机制将分配每一对人类和机器人之间的空间边权重,使用查询
Q
和键
K
计算注意力得分,并将归一化得分应用于值
V
:将注意力机制输出的隐藏状态和机器人的自身状态连接到多层感知器中,得到机器人和感受野范围内行人之间的特征编码;时间边
GRU
输入机器人基于动力学的自身轨迹,将线性化的时间特征变量送入
GRU
模块:
其中是
GRU
在时间
t
的隐藏状态,最后,将输入到完全连接层,以获得值
V(s
t
)
和策略
π
(a
t
|s
t
)。5.
根据权利要求1所述的基于时空交互图和危...
【专利技术属性】
技术研发人员:辛景民,史佳敏,邱卓,陈仕韬,郑南宁,
申请(专利权)人:宁波市舜安人工智能研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。