当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于多不相连模式学习的行人轨迹预测方法技术

技术编号:38994993 阅读:11 留言:0更新日期:2023-10-07 10:26
本发明专利技术涉及一种基于多不相连模式学习的行人轨迹预测方法,基于社交不相连模式生成对抗网络模型生成预测轨迹,使用编码器提取视觉特征与观测行人轨迹特征,基于注意力模块获取物理场景和社会注意力特征;采用社会注意力建立基于注意力标注的结构化图序列,并对结构化图序列通过时空编码器编码提取物理背景和行人移动的瞬态变化;将物理场景注意力、社会注意力以及时空编码器输出特征拼接输入多生成器架构,输出预测行人的未来轨迹;利用生成器选择器对多生成器进行先验学习,在先验学习的过程中采用谱轨迹聚类模块更新生成器数量上限。本发明专利技术相较现有技术能够捕捉时空信息的瞬态变化、减少模型冗余,并能灵活适应于多个预测场景。测场景。测场景。

【技术实现步骤摘要】
一种基于多不相连模式学习的行人轨迹预测方法


[0001]本专利技术涉及行人轨迹预测领域,尤其是涉及一种基于多不相连模式学习的行人轨迹预测方法。

技术介绍

[0002]在预测学习中,预测人类的未来行为在人工智能系统中是非常重要的。真实场景的轨迹预测是一个具有挑战性的复杂问题。轨迹预测问题中的运动体往往具有复杂的交互关系。对于某个交通场景中的行人来说,他们的行进并不是相互独立的。他们根据自己的策略做出反应和并调整自己的策略。例如,行人在遇到障碍物或其他行人时会调整自己未来行径等。前者一般来源于视觉背景中的信息,后者则指行人之间的社会性交互。行人未来轨迹的分布是复杂多样的,行人可能会走出多个可能且合理的未来轨迹。想象一个行人到达一个十字路口,他很可能会直行、左转或右转。而且无论行人走哪条路,如果其中任何两条路相连,就意味着行人可能通往实际上并不存在的轨迹,即真实分布以外(Out

of

Distribution,OOD)轨迹。换句话说,行人轨迹数据落在多个不相交模式的并集上。图1显示了上述提到的涉及复杂交互和多种模式的行人轨迹预测场景,图例中上方和中间轨迹间的区域是不能通行的障碍物,倘若轨迹分布是全局连接的单一模式,那么模型很容易预测出横穿障碍物这种真实分布以外轨迹。
[0003]例如中国专利申请CN114580715A以及CN114580715A,先前很多工作使用生成对抗网络来生成多样的轨迹,其中有工作使用多生成器的架构,每个生成器专门学习多个不相连模式中的其中一种,来对多模式混合的真实轨迹进行建模。然而这一方法存在的问题是,盲目选取一个固定数量的生成器,由于生成器数量过多可能会造成模式丢失以及模型的冗余上的问题,生成器数量过少则无法对真实轨迹分布全面覆盖将产生大量的OOD样本进而对生成样本的质量造成不良影响,难以灵活适应各种预测场景。

技术实现思路

[0004]本专利技术的目的就是为了提供一种基于多不相连模式学习的行人轨迹预测方法。
[0005]本专利技术的目的可以通过以下技术方案来实现:
[0006]一种基于多不相连模式学习的行人轨迹预测方法,所述方法通过基于社交不相连模式生成对抗网络模型生成预测轨迹,其中模型的输入包括观测到的场景中行人i轨迹坐标数据以及包含视觉信息的场景图像I,所述模型生成预测轨迹的具体步骤包括:
[0007]使用物理场景编码器提取视觉特征,使用社会编码器提取观测行人轨迹特征;基于物理场景编码器与社会编码器的输出通过物理场景注意力和社会注意力分别获取物理场景注意力特征和社会注意力特征;
[0008]利用社交注意力特征建立基于注意力标注的结构化图序列,对所述结构化图序列采用时空编码器编码提取物理背景和行人移动的瞬态变化;
[0009]将物理场景注意力、社会注意力以及时空编码器输出特征的拼接输入多生成器架
构,输出预测行人的未来轨迹;所述多生成器架构中每个生成器接收拼接输入并单独学习轨迹分布多个不相连模式的其中一种;
[0010]采用生成器选择器对多个生成器的先验进行学习,选择先验取值较大的生成器来生成未来轨迹,在先验学习的过程中采用谱轨迹聚类模块更新生成器数量上限。
[0011]进一步的,所述物理场景编码器提取视觉特征,具体步骤包括:
[0012]从场景图像I中提取视觉特征V
p

[0013]对原始数据进行增强,根据绝对坐标计算速度并表示出加速度;
[0014]获得行人i在时间步t的行人轨迹关于绝对坐标、速度与加速度的表示。
[0015]进一步的,所述社会编码器将行人轨迹的序列作为输入学习得到观测轨迹的特征表示V
s
(i),具体步骤包括:
[0016]将行人轨迹的序列经过多层感知机得到高维嵌入;
[0017]将嵌入序列输入通过LSTM得到行人i在时间步t的行人轨迹特征
[0018]进一步的,所述物理场景注意力输入为从场景图像中提取的视觉特征V
p
和社交编码器LSTM最后观测时间步t
obs
下的轨迹编码隐藏状态所述物理场景注意力应用软注意力获取上下文向量C
ph
(i);
[0019]所述社交注意力基于行人之间的距离和方位角计算任意两个相邻行人之间的注意力分数;使用注意力分数对社交编码器LSTM嵌入得到的行人轨迹特征V
en
(i)进行加权以获得社交特征V
so
(i);将社交特征V
so
(i)以及t
obs
时刻根据生成器先验加权后获得的LSTM解码器行人i的平均隐藏状态作为输入送到社交注意力网络ATT
s
中,输出社交注意力向量C
so
(i)。
[0020]进一步的,构建所述结构化时空图,具体步骤包括:
[0021]从全局场景图像I中裁剪一个以目标行人为中心的局部图像;
[0022]构建与裁剪后的图像长宽相同的图,所构建的图具有额外通道维度,并将额外通道维度分成切分为二维网格,图中行人在时间步t时所处的位置用距离每个真实轨迹坐标X
t
最近的网格单元表示;
[0023]将行人轨迹特征V
en
(i)和社交注意力向量C
so
(i)拼接,获得行人i在时间步t的标注向量;
[0024]在所有包含行人的网格单元中,将目标行人和局部区域内其他行人的标注向量都填充在额外通道维度中。
[0025]进一步的,所述多生成器架构包括:
[0026]n
G
个生成器,所有生成器共享相同的网络结构但采用不同权重;每个生成器包括一个LSTM解码器,生成器接受行人轨迹特征V
en
(i)、物理场景注意力特征C
ph
(i)、社交注意力特征C
so
(i)、时空编码C
st
(i)和随机噪声向量z并拼接接受特征得到生成器输入C
gen
(i),生成器生成行人i的未来轨迹
[0027]判别器,由包含观测序列和预测序列的完整序列编码获得行人轨迹特征、物理场景注意力特征、社交注意力特征和时空编码拼接得到判别器输入的C
dis
(i),其中预测序列可以是真实轨迹Y或生成未来时间段轨迹使用多层感知机计算判别器得分所述判
别器得分为二类分类得分,用于表示样本是否是真实;
[0028]分类器,接收与判别器相同的输入C
dis
(i),使用多层感知机计算分类分数所述是一个n
G
个类别的分类分数,用于表示生成轨迹属于每个生成器的概率。
[0029]进一步的,所述模型采用EM算法来学习先验,具体训练步骤包括:
[0030]E步:生成器选择器训练,学习每个生成器的先验概率s(g;ζ)来近似最优先验p(g);
[0031]M步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多不相连模式学习的行人轨迹预测方法,其特征在于,所述方法通过基于社交不相连模式生成对抗网络模型生成预测轨迹,其中模型的输入包括观测到的场景中行人i轨迹坐标数据以及包含视觉信息的场景图像I,所述模型生成预测轨迹的具体步骤包括:使用物理场景编码器提取视觉特征,使用社会编码器提取观测行人轨迹特征;基于物理场景编码器与社会编码器的输出通过物理场景注意力和社会注意力分别获取物理场景注意力特征和社会注意力特征;利用社交注意力特征建立基于注意力标注的结构化图序列,对所述结构化图序列采用时空编码器编码提取物理背景和行人移动的瞬态变化;将物理场景注意力、社会注意力以及时空编码器输出特征的拼接输入多生成器架构,输出预测行人的未来轨迹;所述多生成器架构中每个生成器接收拼接输入并单独学习轨迹分布多个不相连模式的其中一种;采用生成器选择器对多个生成器的先验进行学习,选择先验取值较大的生成器来生成未来轨迹,在先验学习的过程中采用谱轨迹聚类模块更新生成器数量上限。2.根据权利要求1所述的一种基于多不相连模式学习的行人轨迹预测方法,其特征在于,所述物理场景编码器提取视觉特征,具体步骤包括:从场景图像I中提取视觉特征V
p
;对原始数据进行增强,根据绝对坐标计算速度并表示出加速度;获得行人i在时间步t的行人轨迹关于绝对坐标、速度与加速度的表示。3.根据权利要求2所述的一种基于多不相连模式学习的行人轨迹预测方法,其特征在于,所述社会编码器将行人轨迹的序列作为输入学习得到观测轨迹的特征表示V
s
(i),具体步骤包括:将行人轨迹的序列经过多层感知机得到高维嵌入;将嵌入序列输入通过LSTM得到行人i在时间步t的行人轨迹特征4.根据权利要求3所述的一种基于多不相连模式学习的行人轨迹预测方法,其特征在于,所述物理场景注意力输入为从场景图像中提取的视觉特征V
p
和社交编码器LSTM最后观测时间步t
obs
下的轨迹编码隐藏状态所述物理场景注意力应用软注意力获取上下文向量C
ph
(i);所述社交注意力基于行人之间的距离和方位角计算任意两个相邻行人之间的注意力分数;使用注意力分数对社交编码器LSTM嵌入得到的行人轨迹特征V
en
(i)进行加权以获得社交特征V
so
(i);将社交特征V
so
(i)以及t
obs
时刻根据生成器先验加权后获得的LSTM解码器行人i的平均隐藏状态作为输入送到社交注意力网络ATT
s
中,输出社交注意力向量C
so
(i)。5.根据权利要求4所述的一种基于多不相连模式学习的行人轨迹预测方法,其特征在于,构建所述结构化时空图,具体步骤包括:从全局场景图像I中裁剪一个以目标行人为中心的局部图像;构建与裁剪后的图像长宽相同的图,所构建的图具有额外通道维度,并将额外通道维
度分成切分为二维网格,图中行人在时间步t时所处的位置用距离每个真实轨迹坐标X
t
最近的网格单元表示;将行人轨迹特征V
en
(i)和社交注意力向量C
so
(i)拼接,获得行人i在时间步t的标注向量;在所有包含行人...

【专利技术属性】
技术研发人员:赵生捷朱培源梁爽
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1