一种基于语义环境建模的多模态轨迹预测方法技术

技术编号:33834073 阅读:111 留言:0更新日期:2022-06-16 11:23
本发明专利技术涉及一种基于语义环境建模的多模态行人轨迹预测方法,属于自动驾驶和人工智能领域。在本发明专利技术模型框架中,针对现有语义物理环境限制下行人动态交互场景中的多模态轨迹预测的问题与不足,对于原始输出图像使用栅格化语义地图的方式进行高效环境建模,使用条件场景下的变分生成对抗网络架构输出多模态下的行人轨迹,使用判别器对模态匹配轨迹和真值轨迹的距离进行度量,同时设计多元化损失函数,以解决模态坍缩、单一拟合等问题,使得本发明专利技术模型能够预测出在该场景语义地图中行人合理的未来轨迹,对于及时、快速预测行人合理轨迹有积极和深刻的意义,对无人驾驶、智能交通等领域的进一步发展有重要的帮助。等领域的进一步发展有重要的帮助。等领域的进一步发展有重要的帮助。

【技术实现步骤摘要】
ComputerVision and Pattern Recognition(CVPR).IEEE,2020.)提出一种混合密度网络(MDNs),该网络在传统神经网络的基础上通过学习高斯混合模型的参数来解决多模态轨迹预测问题,起到了一定程度的性能提升。然而,由于MDNs在高维空间中操作时的数值不稳定性,在实际中常常难以训练;文献(TPNet:Trajectory Proposal Network for MotionPrediction)提出了基于TPNet框架的多模态轨迹预测方法,该方法设计分为两个阶段,分别针对不同的意图进行终点回归,并基于终点生成对应轨迹簇,较好地实现了多模态轨迹预测;但其基于意图和终点的模态捕捉方式决定了其预测结果很大程度上依赖于回归终点的正确程度,进而对最终的预测质量产生较大的影响,使得轨迹预测输出结果不够稳定。

技术实现思路

[0006]专利技术目的:本专利技术的目的在于提供基于语义环境建模的多模态轨迹预测方法,能够预测出在该场景语义地图中行人合理的未来轨迹,从而实现对行人未来轨迹分布的更准确预测,对于及时、快速预测行人合理轨迹有积极和深刻的意义。
[0007]技术方案:本专利技术的一种基于语义环境建模的多模态轨迹预测方法,包括如下步骤:
[0008](1)利用语义建模编码环境信息,生成与预测相关的空间特征和物理环境信息的语义地图,同时去除预测无关的细粒度纹理像素特征;
[0009](2)建立多模态轨迹预测模型架构,针对条件场景下的多模态轨迹预测任务的重难点设计条件变分生成模型Context

CVGN直接生成预测M个可能的未来轨迹序列及每个未来轨迹序列的概率,同时提供给后续部分模态匹配作为输入;
[0010](3)使用判别器对轨迹预测结果进行度量,使用判别器D输入预测轨迹特征,通过各类指标判断其与真值的误差;
[0011](4)构建并计算多模态预测的损失函数,对框架中相应每个部分的损失函数进行分别设计和计算,最终得到多部分损失函数的输出加总进行训练。
[0012]进一步地,步骤(1)中,所述与预测相关的空间特征和物理环境信息的语义地图包含所有行人位置、障碍物和负空间。
[0013]进一步地,步骤(1)具体为:引入场景空间建模对输入数据进行预处理,利用语义地图将当前行人所处场景进行环境结构化建模,突出场景障碍物、其他行人交互等空间特征要素,丢弃对轨迹推理无用的细粒度纹理特征,完成高效栅格化语义建模。
[0014]进一步地,步骤(2)中,建立多模态轨迹预测模型架构使用条件场景变分生成对抗网络架构在考虑栅格化语义地图输入的环境建模信息的情况下将行人历史轨迹序列信息变换为多模态下的行人轨迹预测输出。
[0015]进一步地,步骤(3)中,将预测轨迹特征输入判别器D,经过LSTM层进行解码得到可视化的预测轨迹,并通过各类指标判断其与真值的误差,优化得到其最佳性能。
[0016]进一步地,步骤(4)具体为:使用WTA(winner take all)损失函数、所有轨迹负对数似然、对抗损失及隐空间分布拟合KL散度损失的多元化损失函数结合的设计进行模态匹配损失函数计算,以解决发生模态坍缩、单一拟合等问题;
[0017]对于模态匹配中的损失函数,WTA损失函数为匹配模态轨迹X
matched
与真值轨迹 X
ground_truth
的平均L2范数,即:
[0018]L
WTA
=||X
matched

X
ground_truth
||2[0019]负对数似然损失函数基于多维独立正态分布假设同时评估所有模态轨迹及其置信度,表达式如下所示:
[0020][0021]其中,M为预测轨迹模态数,c为对应预测模态轨迹的置信度;
[0022]对抗损失函数是在生成网络的场景下的一种判别预测值与实际值距离的损失函数,表达式如下所示:
[0023][0024]对于条件场景下的变分自编码器网络Context

CVAE,损失函数表达式如下式所示:
[0025]L
Context

CVAE
=α
·
L
WTA

·
L
NLL
+L
KL
[0026]对于条件场景下的生成对抗网络Context

CGAN和Context

CVGN,损失函数表达式为:
[0027]L=α
·
L
WTA

·
L
NLL

·
L
GAN_d
+L
KL
[0028]以上损失函数中α、β、χ等超参数为各项损失函数的权重系数;
[0029]在给出损失函数表达式的定义后,可以通过反向传播计算参数梯度的方式对参数进行更新训练来最小化损失函数,进而得出多模态轨迹预测场景下的最优网络架构参数。
[0030]有益效果:与现有技术相比,本专利技术具有如下显著优点:本专利技术中的行人轨迹预测方法在考虑语义物理环境限制下行人动态交互场景中的多模态轨迹预测,在输入的先验信息中使用栅格化语义地图的方式进行高效环境建模,使用条件场景下的变分生成对抗网络实现多模态轨迹预测,应用模态匹配的方法,从多条预测轨迹中按模态匹配选择一条轨迹,使用判别器对该模态轨迹和真值轨迹进行度量,同时使用多元化损失函数结合的设计,以解决发生模态坍缩、单一拟合等问题,使得本专利技术模型能够预测出在该场景语义地图中行人合理的未来轨迹,从而实现对行人未来轨迹分布的更准确预测,对于及时、快速预测行人合理轨迹有积极和深刻的意义,对无人驾驶、智能交通等领域的进一步发展有重要的帮助。
附图说明
[0031]图1为本专利技术具体实施方式中语义环境建模的多模态轨迹预测方法框架的整体示意图;
[0032]图2为本专利技术中利用语义建模编码环境信息进行场景建模的示意图;
[0033]图3为本专利技术具体实施方式中两种条件场景下多模态轨迹预测架构Context
‑ꢀ
CVAE、Context

CGAN以及融合架构Context

CVGN的流程以及损失函数对比示意图。
具体实施方式
[0034]下面结合附图对本专利技术的技术方案作进一步说明。
[0035]本专利技术涉及语义环境场景建模条件下的高效多模态行人轨迹预测输出,具体实施
方式主要包括以下几个步骤:
[0036]对于输入的观测视频帧图像,其时间刻度t∈{1,2,
……
,T
obs
},观测到一组特定语义环境场景下的行人轨迹序列其中为第n个行人在第t帧的物理环境特征向量,特征向量可能仅包括输入坐标系下的2D坐标也可能包含行人身体姿态等细粒度信息,第T...

【技术保护点】

【技术特征摘要】
1.一种基于语义环境建模的多模态轨迹预测方法,其特征在于,包括如下步骤:(1)利用语义建模编码环境信息,生成与预测相关的空间特征和物理环境信息的语义地图,同时去除预测无关的细粒度纹理像素特征;(2)建立多模态轨迹预测模型架构,针对条件场景下的多模态轨迹预测任务的重难点设计条件变分生成模型Context

CVGN直接生成预测M个可能的未来轨迹序列及每个未来轨迹序列的概率,同时提供给后续部分模态匹配作为输入;(3)使用判别器对轨迹预测结果进行度量,使用判别器D输入预测轨迹特征,通过各类指标判断其与真值的误差;(4)构建并计算多模态预测的损失函数,对框架中相应每个部分的损失函数进行分别设计和计算,最终得到多部分损失函数的输出加总进行训练。2.根据权利要求1所述的基于语义环境建模的多模态轨迹预测方法,其特征在于,步骤(1)中,所述与预测相关的空间特征和物理环境信息的语义地图包含所有行人位置、障碍物和负空间。3.根据权利要求1所述的基于语义环境建模的多模态轨迹预测方法,其特征在于,步骤(1)具体为:引入场景空间建模对输入数据进行预处理,利用语义地图将当前行人所处场景进行环境结构化建模,突出场景障碍物、其他行人交互的空间特征要素,丢弃对轨迹推理无用的细粒度纹理特征,完成高效栅格化语义建模。4.根据权利要求1所述的基于语义环境建模的多模态轨迹预测方法,其特征在于,步骤(2)中,建立多模态轨迹预测模型架构具体为使用条件场景变分生成对抗网络架构在考虑栅格化语义地图输入的环境建模信息的情况下将行人历史轨迹序列信息变换为多模态下的行人轨迹预测输出。5.根据权利要求1所述的基于语义环境建模的多模态轨迹预测方法,其特征在于,步骤(3)中,将预测轨迹特征输入判别器D,经过LSTM层进行解码得到可视化的预测轨迹,并通过各类指标判断其与真值的误差,优化得到其最佳性能。6.根据权利要求1所述的基于语义环境建模的多模态轨迹预测方法,其特征在于,步骤(4)具体为:使用WTA损...

【专利技术属性】
技术研发人员:曾繁虎杨欣朱义天李恒锐樊江锋周大可
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1