行人轨迹预测方法、装置、电子设备及计算机程序产品制造方法及图纸

技术编号:33712347 阅读:25 留言:0更新日期:2022-06-06 08:48
本公开提供一种行人轨迹预测方法,包括:获取场景的至少一个行人的观测轨迹信息,将各个行人的观测轨迹信息转换为各个行人的自我视角下的自我视角轨迹信息;基于各个行人的自我视角轨迹信息获取各个行人的运动趋势特征,并获取各个行人与其他行人的交互特征;至少基于各个行人的运动趋势特征以及各个行人与其他行人的交互特征,生成各个行人的自我视角下的未来位置信息;以及至少基于各个行人的自我视角下的未来位置信息生成各个行人的至少一条自我视角下的未来轨迹,并将自我视角下的未来轨迹转换为世界坐标系下的未来轨迹。本公开还提供了一种行人轨迹预测装置、电子设备、可读存储介质及计算机程序产品。读存储介质及计算机程序产品。读存储介质及计算机程序产品。

【技术实现步骤摘要】
行人轨迹预测方法、装置、电子设备及计算机程序产品


[0001]本公开涉及计算机视觉
及自动驾驶领域。本公开尤其涉及一种基于多视角变换的行人轨迹预测方法、装置、电子设备、存储介质及计算机程序产品。

技术介绍

[0002]轨迹预测任务目前主要应用于自动驾驶任务中,在自动驾驶场景中对其他交通参与者进行轨迹预测,对于实现更高级别的无人驾驶具有重要意义。自动驾驶感知系统性能的提升,以及深度学习在时间序列模型上的进一步发展,都为轨迹预测任务的研究奠定了基础。感知系统通过各种传感器获得目标历史位置信息并送入预测模型,模型在各种交通场景中预测其他目标的未来轨迹。完成更精准的预测,就能利用其预测结果服务于自动驾驶的控制和决策系统,从而更好的保证车辆和行人安全,提高道路交通的效率。
[0003]目前,行人轨迹预测方法主要还是通过深度学习方法,如循环神经网络(RNN)、长短时记忆网络(LSTM)、门控循环单元(GRU)等网络模型进行序列特征的提取,以上方法作为组件,嵌入到编码器

解码器的网络结构中,实现未来的轨迹预测。至今行人轨迹预测的研究还有许多难点亟待解决,模型方法的学习能力和预测精度还有待进一步提升。
[0004]现有技术中有以下典型的轨迹预测方法。
[0005]方案一:2016年发表于CVPR会议的论文“Social lstm:Human trajectory prediction in crowded spaces”是一篇使用LSTM进行轨迹预测的经典方法,其构建的基于数据驱动的模型,每个行人的历史轨迹序列作为LSTM的输入,在LSTM的每次迭代输出过程中都经过其设计的“社交(Social)池化层”,用于去表征和整合与周围其他行人的交互,输出的特征矢量作为下一时刻隐状态输入。此方案非常经典,但是LSTM模型参数较多,且在每次迭代中又加入了处理效率更差的池化层,导致在简单的轨迹信息作为输入的情况下,池化层难以学习到有用的交互特征,也导致模型在训练、参数更新时代价很高。其对于轨迹的表示方法也较为单一,只有轨迹序列的简单输入。
[0006]方案二:2018年发表于CVPR会议的论文“Social gan:Socially acceptable trajectories with generative adversarial networks”采用对抗生成网络的方法来实现轨迹预测,并且采用了序列模型中常用的编码器

解码器(Encoder

Decoder)架构,以LSTM作为时间序列特征提取的组件,嵌入在生成器和判别器的编码部分,每个场景中的轨迹序列送入编码器中,提取的轨迹序列特征作为后续特征叠加的一部分。同时通过设计好的社交池化层对不同行人轨迹之间的交互信息进行表征,这作为特征叠加的另一部分。以上两部分特征送入解码器中进行轨迹预测,此方案采取的方法结构清晰明确,但是在提取轨迹特征方面形式较为单一,在加入交互的池化后预测精度反而有所下降,说明其设计的表征方法捕捉到的行人交互特征不够突出。且解码器在多轨迹生成时由于噪声的参与,生成的多轨迹可能无法保证稳定性。
[0007]方案三:2019年发表于CVPR会议的论文:“SR

LSTM:State Refinement for LSTM towards Pedestrian Trajectory Prediction”采用基于LSTM的状态更新模块,其中轨迹
序列的特征提取和未来轨迹生成还是使用LSTM模块来实现,在序列特征提取之后,方案设计了一个状态更新模型,它通过对预测目标周围相邻行人的意图估计,并以此为依据共同迭代的更新了相邻行人的设定状态,通过设计的消息传递机制和社会意识选择机制来提取行人之间的交互影响。整个方案采取的消息传递和状态更新机制非常新颖,但是状态更新模块设计的比较复杂,造成模型参数多更新效率较低,可能导致交互的泛化能力不佳。
[0008]方案四:专利文献CN112766561A提出了一种基于注意力机制和生成对抗网络的轨迹预测方法,序列特征提取的主要部件使用LSTM,其在编码器和解码器中添加了注意力池化模块,为了刻画行人之间的运动影响,其将行人运动的速度矢量、距离矢量,以及运动矢量的夹角也纳入考虑,并将以上矢量合并为特征矢量送入注意力模块进行权重分配。该方案使用注意力机制来获取行人轨迹交互特征是可取的,但是其特征的设计方案,即多个手工设计的矢量特征,其不同特征之间可能存在信息冗余,模型泛化能力下降。且使用参数较多的LSTM作为解码器,当存在特征维度过大时,可能会导致计算代价较高。
[0009]方案一和方案三分别利用设计好的池化层和状态更新模块进行不同行人之间的交互表征,这样设计的交互表征模块比较巧妙,但是在每个迭代过程中的特征矢量都需要参与更新,导致模型的时间和空间复杂度较高,同时轨迹仅以简单的坐标序列作为单一输入,模型泛化表征能力很难提高。方案二在方案一的基础上,使用对抗生成网络来进行轨迹的生成,提高轨迹生成的多样性,简化了社交池化层,并去除了迭代过程中的池化层,提高了模型的速度和精度。但是该表征交互的方式比较简单,当场景中行人数量过多时,不可避免的将忽略一部分行人对目标的交互影响。方案四在方案二的基础上,通过手工设计的不同行人的运动矢量以及矢量夹角来表征行人交互,进一步细化了交互特征,但是由于其多个特征之间其实存在大量的信息冗余,模型的泛化表征能力难以保证。且方案二和方案四在多轨迹生成时,无法保证多轨迹生成的稳定性。
[0010]综上,目前的行人轨迹预测方法主要存在以下问题:
[0011](1)泛化能力有待提高,在自动驾驶领域,需要更精确的预测能力、场景理解能力以及更快的处理速度,现在的主要方法在场景的理解方面较为单一,都是以世界坐标系下统一的标准来考量轨迹坐标序列,并以一致的视角来考量轨迹序列信息。提高模型预测能力,需要更大程度的挖掘历史轨迹信息带来的隐含特征。(2)同时编码器解码器的设计也需要在维持精度的情况下,尽可能减少参数,从而减少模型的训练开销和推断时间。(3)模型在多轨迹生成时,由于噪声的参与无法保证轨迹生成的稳定性。

技术实现思路

[0012]为了解决上述技术问题中的至少一个,本公开提供一种基于多视角变换的行人轨迹预测方法、装置、电子设备、存储介质及计算机程序产品。
[0013]本公开旨在设计一种通用的、泛化能力较强的行人轨迹预测方法,能够在复杂的行人交互场景中完成多轨迹的预测生成。首先针对上述(1)模型的场景理解和泛化能力有待提高的问题,本公开提出多视角坐标系变换的方法,对于场景中多个行人各自的运动特征,逐个建立自我视角坐标系,每个行人在其独特的自我视角坐标系下去观测其他行人的轨迹,能够更大程度挖掘轨迹信息所隐含的特征。针对上述(2)模型复杂度和参数过多的问题,本公开提出使用多头注意力机制来提取轨迹序列特征,通过多个注意力头来挖掘轨迹
序列在不同隐变量空间下的表征,在保证网络性能的同时大大减少网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种行人轨迹预测方法,其特征在于,包括:获取场景的至少一个行人的观测轨迹信息,将各个行人的所述观测轨迹信息转换为各个行人的自我视角下的自我视角轨迹信息;基于各个行人的所述自我视角轨迹信息获取各个行人的运动趋势特征,并获取各个行人与其他行人的交互特征;至少基于各个行人的运动趋势特征以及各个行人与其他行人的交互特征,生成各个行人的自我视角下的未来位置信息;以及至少基于各个行人的自我视角下的未来位置信息生成各个行人的至少一条自我视角下的未来轨迹,并将所述自我视角下的未来轨迹转换为世界坐标系下的未来轨迹;其中,将各个行人的所述观测轨迹信息转换为各个行人的自我视角下的自我视角轨迹信息,包括:基于所述场景中大于或者大于等于预设长度的行人的观测轨迹信息,为相应的行人生成坐标系变换矩阵,以及基于坐标变换矩阵,将行人的观测轨迹信息转换为自我视角下的自我视角观测轨迹信息。2.根据权利要求1所述的行人轨迹预测方法,其特征在于,还包括:将各个行人的运动趋势特征、与其他行人的交互特征以及高斯噪声进行融合处理,生成融合特征矢量。3.根据权利要求2所述的行人轨迹预测方法,其特征在于,获取各个行人与其他行人的交互特征,包括:分别在各个行人的自我视角坐标系下,获取其他各个行人的最后观测位置信息,以获得与其他各个行人的交互特征。4.根据权利要求3所述的行人轨迹预测方法,其特征在于,分别在各个行人的自我视角坐标系下,获取其他各个行人的最后观测位置信息,以获得与其他各个行人的交互特征,包括:分别在各个行人的自我视角坐标系下,将其他各个行人的最后观测位置信息进行升维处理,使得其他各个行人的最后观测位置信息的位置表达由二维升至预设维度,得到各个行人的与其他各个行人的交互特征向量。5.根据权利要求2所述的行人轨迹预测方法,其特征在于,将各个行人的运动趋势特征、与其他行人的交互特征以及高斯噪声进行融合处理,生成融合特征矢量,包括:将所述运动趋势特征、交互特征以及高斯噪声进行Concat操作,得到编...

【专利技术属性】
技术研发人员:李雪
申请(专利权)人:北京易航远智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1