【技术实现步骤摘要】
一种基于多不相连模式学习的行人轨迹预测方法
[0001]本专利技术涉及行人轨迹预测领域,尤其是涉及一种基于多不相连模式学习的行人轨迹预测方法。
技术介绍
[0002]在预测学习中,预测人类的未来行为在人工智能系统中是非常重要的。真实场景的轨迹预测是一个具有挑战性的复杂问题。轨迹预测问题中的运动体往往具有复杂的交互关系。对于某个交通场景中的行人来说,他们的行进并不是相互独立的。他们根据自己的策略做出反应和并调整自己的策略。例如,行人在遇到障碍物或其他行人时会调整自己未来行径等。前者一般来源于视觉背景中的信息,后者则指行人之间的社会性交互。行人未来轨迹的分布是复杂多样的,行人可能会走出多个可能且合理的未来轨迹。想象一个行人到达一个十字路口,他很可能会直行、左转或右转。而且无论行人走哪条路,如果其中任何两条路相连,就意味着行人可能通往实际上并不存在的轨迹,即真实分布以外(Out
‑
of
‑
Distribution,OOD)轨迹。换句话说,行人轨迹数据落在多个不相交模式的并集上。图1显示了上述提到的涉及复杂交互和多种模式的行人轨迹预测场景,图例中上方和中间轨迹间的区域是不能通行的障碍物,倘若轨迹分布是全局连接的单一模式,那么模型很容易预测出横穿障碍物这种真实分布以外轨迹。
[0003]例如中国专利申请CN114580715A以及CN114580715A,先前很多工作使用生成对抗网络来生成多样的轨迹,其中有工作使用多生成器的架构,每个生成器专门学习多个不相连模式中的其中一种,来对多模 ...
【技术保护点】
【技术特征摘要】
1.一种基于多不相连模式学习的行人轨迹预测方法,其特征在于,所述方法通过基于社交不相连模式生成对抗网络模型生成预测轨迹,其中模型的输入包括观测到的场景中行人i轨迹坐标数据以及包含视觉信息的场景图像I,所述模型生成预测轨迹的具体步骤包括:使用物理场景编码器提取视觉特征,使用社会编码器提取观测行人轨迹特征;基于物理场景编码器与社会编码器的输出通过物理场景注意力和社会注意力分别获取物理场景注意力特征和社会注意力特征;利用社交注意力特征建立基于注意力标注的结构化图序列,对所述结构化图序列采用时空编码器编码提取物理背景和行人移动的瞬态变化;将物理场景注意力、社会注意力以及时空编码器输出特征的拼接输入多生成器架构,输出预测行人的未来轨迹;所述多生成器架构中每个生成器接收拼接输入并单独学习轨迹分布多个不相连模式的其中一种;采用生成器选择器对多个生成器的先验进行学习,选择先验取值较大的生成器来生成未来轨迹,在先验学习的过程中采用谱轨迹聚类模块更新生成器数量上限。2.根据权利要求1所述的一种基于多不相连模式学习的行人轨迹预测方法,其特征在于,所述物理场景编码器提取视觉特征,具体步骤包括:从场景图像I中提取视觉特征V
p
;对原始数据进行增强,根据绝对坐标计算速度并表示出加速度;获得行人i在时间步t的行人轨迹关于绝对坐标、速度与加速度的表示。3.根据权利要求2所述的一种基于多不相连模式学习的行人轨迹预测方法,其特征在于,所述社会编码器将行人轨迹的序列作为输入学习得到观测轨迹的特征表示V
s
(i),具体步骤包括:将行人轨迹的序列经过多层感知机得到高维嵌入;将嵌入序列输入通过LSTM得到行人i在时间步t的行人轨迹特征4.根据权利要求3所述的一种基于多不相连模式学习的行人轨迹预测方法,其特征在于,所述物理场景注意力输入为从场景图像中提取的视觉特征V
p
和社交编码器LSTM最后观测时间步t
obs
下的轨迹编码隐藏状态所述物理场景注意力应用软注意力获取上下文向量C
ph
(i);所述社交注意力基于行人之间的距离和方位角计算任意两个相邻行人之间的注意力分数;使用注意力分数对社交编码器LSTM嵌入得到的行人轨迹特征V
en
(i)进行加权以获得社交特征V
so
(i);将社交特征V
so
(i)以及t
obs
时刻根据生成器先验加权后获得的LSTM解码器行人i的平均隐藏状态作为输入送到社交注意力网络ATT
s
中,输出社交注意力向量C
so
(i)。5.根据权利要求4所述的一种基于多不相连模式学习的行人轨迹预测方法,其特征在于,构建所述结构化时空图,具体步骤包括:从全局场景图像I中裁剪一个以目标行人为中心的局部图像;构建与裁剪后的图像长宽相同的图,所构建的图具有额外通道维度,并将额外通道维
度分成切分为二维网格,图中行人在时间步t时所处的位置用距离每个真实轨迹坐标X
t
最近的网格单元表示;将行人轨迹特征V
en
(i)和社交注意力向量C
so
(i)拼接,获得行人i在时间步t的标注向量;在所有包含行人...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。