一种融合运动目标分析的行人轨迹预测方法技术

技术编号:35458266 阅读:18 留言:0更新日期:2022-11-03 12:20
本发明专利技术提供了一种融合运动目标分析的行人轨迹预测方法,属于行人轨迹预测领域。本发明专利技术方法设计了一种多精度的行人特征表示方法,利用门控循环神经网络GRU编码行人历史位置信息,构建了主网络

【技术实现步骤摘要】
一种融合运动目标分析的行人轨迹预测方法


[0001]本专利技术属于行人轨迹预测领域,涉及行人运动特征获取、行人运动意图分析以及动态场 景信息的建模,具体涉及一种融合运动目标分析的行人轨迹预测方法。

技术介绍

[0002]轨迹预测是指根据目标行人、车辆、机器人等智能体的历史运动状态,预测智能体在未 来一段时间内可能的运动轨迹。轨迹预测算法是无人驾驶、机器人导航技术中的重要一环, 也是当前的热点研究方向之一。伴随着5G网络商用和城市现代化的发展,国家高度重视智 慧城市、公共交通、智能机器人等重点方向的建设,工业和信息化部在2021年指出要加强核 心技术攻关,突破机器人信息感知与导航等共性技术。行人轨迹预测算法作为关键的基础性 研究技术,在机器人导航、行人意图分析等现实场景中起到关键作用。为了使机器人在复杂 场景中的移动更接近人类,避免与行人发生碰撞,机器人需要根据行人的位置、运动方向、 速度、加速度等信息,对附近行人进行高效的运动意图预测,再进行有效的避障操作。用于 城市公共安全的监视系统和智能跟踪模块同样需要对人群的运动和行为进行分析来理解人群 相互作用模式,对行人可能进入的禁止区域或发生的违规行为进行预警,从而更好地管理基 础设施,以优化资源配置。因此,人群轨迹预测问题具有现实意义,且比较复杂,具有比较 高的研究价值。
[0003]轨迹预测是一项基础性的研究内容,也是路径规划中的一个重要环节,其中一个关键需 求是对行人的意图目标进行分析,如周围车辆是否要需变更车道,前方行人是否要横穿马路 等。行人的终点目标作为运动意图的一种体现,也是影响未来轨迹的重要因素。但是预测行 人的终点目标是一项很有挑战的任务,由于行人所处的场景信息是动态变化的,模型不仅需 要考虑行人自身的历史运动状态,还需要结合不断变化的场景信息对行人可能的未来运动状 态进行动态建模,进而规划行人大致的终点意图目标。
[0004]目前,现有轨迹预测方法的流程一般可以分为三个阶段:(1)根据行人的历史位置坐标 对行人运动状态信息编码;(2)根据对第一阶段编码的行人运动状态分析行人的意图目标位 置;(3)根据第一、第二阶段的建模数据进行解码,预测未来轨迹。近几年有许多基于深度 学习的方法被提出用于改进上述流程,其中与本专利技术相关的技术主要为PECNet模型和SGNet 模型。两种模型可分别参考如下文献1和2。
[0005]PECNet(Predicted Endpoint Conditioned Network)为预测终点条件网络模型,将轨迹预 测问题分解为预测行人意图终点与拟合未来完整轨迹两个子问题。首先PECNet利用多层感 知机(MLP)对行人的历史运动状态进行编码,然后利用端点VAE(变分自编码)模块预测 行人终点的潜在分布,模型对可能的终点潜在分布进行采样,得到行人的终点位置。在轨迹 生成阶段,模型同时结合周围的行人交互信息、行人的历史运动信息以及第一阶段预测的行 人意图目标坐标三种特征信息,直接采用MLP模型进行未来轨迹预测。但是,PECNet存在 这样的缺点:该方法有一个简单的假设,即行人的意图目标是确定的,不会随着运动时刻的 变化发生改变,PECNet也只预测了一个固定的目标,并且在测试阶段无法采
样最优的候选终点。但是在现实生活中,行人的运动意图并不是一个固定的二维坐标,相反,行人的运动意图会随着行人的运动发生动态地改变。随着运动时刻的变化,行人周围的场景布局信息也会发生变化,行人会动态地关注不同区域的场景信息变化可能会对自己未来运动产生的影响,进而不断调节自己的终点意图目标。
[0006]SGNet(Stepwisegoal

drivennetworks)认为运动过程中行人的意图目标可能会随着时间的变化而变化,对目标进行建模可以为未来的轨迹估计提供更准确和详细的信息。因此与以往只对单一长期目标进行建模的工作不同,SGNet强调了一个新的预测方向,提出了一种逐步预测目标进而驱动轨迹预测的方法,在多个时间尺度上评估和使用目标。SGNet由三部分组成,包含了一个能捕获历史信息的编码模块,一个能预测未来连续目标的步进目标估计器,以及一个能预测未来轨迹的解码器模块,并通过注意力机制有效地将这些目标整合到编码器和解码器中。SGNet虽然提出动态地预测行人的意图目标,进而拟合完整轨迹。但是这种方法在利用终点目标信息时仅仅利用了二维的空间物理坐标,但本专利技术认为这种方式无法准确地分析行人的运动意图。因为在现实生活中,行人的真实意图并不是一个固定的二维坐标,而是二维坐标所在的局部区域,可观测的终点二维坐标不能完整描述行人的意图。尤其是在现有的轨迹预测研究中,模型预测的轨迹信息一般是行人完整轨迹的一个轨迹片段,行人的完整轨迹可能会有一个明确的终点目标位置,但是行人的轨迹片段并没有一个明确的二维坐标意图指引自身前进。因此需要对仅利用二维终点坐标分析行人意图的方式进行改进,从终点的二维坐标所在的局部区域中挖掘出更多的信息特征,帮助模型正确预测行人的目标区域。
[0007]参考文献1:MangalamK,GiraseH,AgarwalS,etal.Itisnotthejourneybutthedestination:Endpointconditionedtrajectoryprediction[C]//EuropeanConferenceonComputerVision.Springer,Cham,2020:759

776.
[0008]参考文献2:WangC,WangY,XuM,etal.Stepwisegoal

drivennetworksfortrajectoryprediction[J].IEEERoboticsandAutomationLetters,2022.

技术实现思路

[0009]当行人目标意图预测精度要求较高时,而现有方法存在忽略行人意图的动态变化且仅利用二维空间坐标分析行人意图、特征不充分的问题,本专利技术采用深度学习的技术手段提出一种融合运动目标分析的行人轨迹预测方法,通过主网络运动模式建模与子网络行人意图动态分析两个模块,使行人的意图分析更加准确合理,达到提升行人轨迹预测精度的效果,具有能够从多个维度分析行人意图、保证行人意图坐标预测准确的优势。
[0010]本专利技术提供的一种融合运动目标分析的行人轨迹预测方法,包括如下步骤:
[0011]步骤一:从行人历史轨迹视频中提取多精度数据,包括行人的粗精度坐标信息、细精度坐标信息和动态场景信息;
[0012]其中,粗精度坐标是将场景区域划分后确定的行人所在的子区域坐标,细精度坐标是指行人在场景中的坐标;粗精度坐标信息和细精度坐标信息均包括行人坐标位置、速度和加速度。
[0013]步骤二:构建主网络

子网络联合的行人轨迹预测模型;
[0014]所述行人轨迹预测模型的子网络,对输入的行人粗精度坐标信息、行人细精度坐
标信息 和动态场景信息三种数据进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合运动目标分析的行人轨迹预测方法,其特征在于,包括如下步骤:步骤一:从行人历史轨迹视频中提取多精度数据,包括行人的粗精度坐标信息、细精度坐标信息和动态场景信息;所述粗精度坐标是将场景区域划分后确定的行人所在的子区域坐标,细精度坐标是指行人在场景中的坐标;所述粗精度坐标信息和细精度坐标信息均包括行人坐标位置、速度和加速度;步骤二:构建主网络

子网络联合的行人轨迹预测模型;所述行人轨迹预测模型的子网络,对输入的行人粗精度坐标信息、行人细精度坐标信息和动态场景信息三种数据进行编码,再利用门控循环神经网络模型GRU
sub
进行序列建模,预测输出当前时刻的行人运动意图向量,然后将行人运动意图向量输入三个子任务模型;第一个子任务模型利用多层感知机f
fine
对行人运动意图向量进行映射,得到行人终点的细精度坐标;第二个子任务模型利用多层感知机f
coarse
对行人运动意图向量进行映射,得到行人终点的粗精度坐标;第三个子任务模型先利用矩阵W
score
对行人运动意图向量进行映射,再接ReLU激活函数,然后使用Softmax函数对场景内各子区域进行重要性评分;所述行人轨迹预测模型的主网络,利用多层感知机f
e
对输入的行人细精度坐标信息编码后,再与当前时刻行人的目标意图向量一起输入门控循环神经网络模型GRU中,GRU输出行人在当前时刻的行人运动状态向量,再利用多层感知机f
goal
对GRU的输出进行映射,预测行人终点坐标;所述行人的目标意图向量由子网络的GRU
sub
输出和主网络的GRU输出利用注意力机制融合计算获得;步骤三:在轨迹解码阶段,利用条件变分自动编码器CVAE生成多模态轨迹。2.根据权利要求1所述的方法,其特征在于,所述的步骤1中,行人的粗精度坐标信息生成方式是:将场景区域按照m
×
n的粗精度进行划分,根据粗精度和细精度坐标计算每个行人的粗精度坐标;对每位行人,以每个观察时刻最后一帧图像中的坐标位置为原点,将观察时刻中抽取的各帧图像中行人坐标位置转换为相对坐标位置;然后以相对坐标位置计算行人在各时刻的速度和加速度;m和n均为正整数。3.根据权利要求1所述的方法,其特征在于,所述的步骤2中,将行人在t时刻的粗精度坐标信息和细精度坐标信息,分别利用多层感知机进行编码,对动态场景信息利用卷积神经网络进行编码。4.根据权利要求1所述的方法,其特征在于,所述的步骤2中,行人的目标意图向量通过如下方式获得:首先,通过子网络对场景中各子区域的重要性评分,选取分数最高的Top K个子区域作为重点区域,并利用卷积神经网络对K个子区域编码;设对t时刻多精度数据处理,选取的第i个子区域的动态场景信息的编码向量为子区域重要性分数为score
i
,i=1,2,

K,则根据重要性分数对K个子区域编码进行加权平均,得到行人的重要区域信息然后,利用多头注意力机制和残差连接将子网络和主网络的输出进行融合,得到行人在t时刻的目标意图向量g
t
,如下:
其中,<.,.>是内积操作,W
Q
、W
K
和W
V
是可训练的参数矩阵,h
t
为主网络GRU的输出向量,D为h
t
的维度数,p为多头注意力机制的表头数量,s
r
为注意力分数;是将进行多头注意力机制映射得到的第r个映射向量,是将h
t
进行多头注意力机制映射得到的第r个映射向量。5.根据权利要求1所述的方法,其特征在于,所述的步骤2中,行人的目标意图向量通过如下方式获得:设行人轨迹预测模型对t时刻多精度数据处理,获得子网络的GRU
sub
的输出与主网络GRU的输出h
t
,利用多头注意力机制和残差连接将子网络和主网络的输出进行融合,得到当前t时刻的目标意图向量g
t
,如下:如下:其中,<.,.>是内积操作,W
Q
、W
K
和W
V

【专利技术属性】
技术研发人员:刘绍华孙靖凯
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1