基于多帧交互与多层融合的视频行人重识别方法及系统技术方案

技术编号:38902319 阅读:16 留言:0更新日期:2023-09-22 14:20
本发明专利技术涉及一种基于多帧交互与多层融合的视频行人重识别方法及系统,该方法包括以下步骤:1)从数据集中抽取多个行人的视频序列,形成由视频序列组成的训练数据集;2)构建基于多帧交互与多层融合的视频行人重识别网络模型,所述视频行人重识别网络模型主要包括帧内空间交互模块、多帧时序交互模块、多级别局部增强模块、分割策略模块和多帧分类头结合模块;通过使用训练数据集对视频行人重识别网络模型进行训练,得到网络模型参数;3)将训练好的视频行人重识别网络模型用于检索测试视频中含有该行人的视频,实现视频行人重识别。该方法及系统有利于获得更加稳定、鲁棒、准确的视频行人重识别结果。视频行人重识别结果。视频行人重识别结果。

【技术实现步骤摘要】
基于多帧交互与多层融合的视频行人重识别方法及系统


[0001]本专利技术属于计算机视觉
,具体涉及一种基于多帧交互与多层融合的视频行人重识别方法及系统。

技术介绍

[0002]行人重识别任务其目的是在不同摄像头之间寻找同一行人的图片或视频序列。行人中识别的应用场景较为广泛,包括嫌疑人追踪、安全监控等。行人重识别方法可以分为基于图片和基于视频的两种行人重识别方法。基于图片的行人重识别方法由于仅使用单张图片去搜寻目标行人,因此这些方法对于图片内存在的质量问题较为敏感,包括遮挡、背景复杂和拍摄视角变化等问题。然而,基于视频行人重识别方法能够从多张帧图片当中获取到行人的时空信息,使得行人的特征表示更加丰富,并且能够减轻单张图片质量问题带来的影响。
[0003]视频行人重识别方法可分为两类:基于序列的方法和基于帧的方法。对于基于序列的方法而言,旨在通过3D卷积或者循环神经网络直接学习时空特征表示。对于基于帧的方法而言,其特点在于首先提取单帧特征表示,然后结合同一视频内多个单帧特征;目前,有一些方法在单帧特征提取部分仅探索帧内特征,忽视了帧间的时序交互;最近,有部分方法通过引入帧间时序交互去探索上下文信息,获得了较好的表现;然而,这些方法主要以卷积神经网络作为骨干网络,虽然可以从局部视角获取到行人的细节特征,但是由于卷积神经网络其感知范围有限,缺乏获取全局范围依赖关系的能力。
[0004]通过利用自注意力机制的优点,Transformer方法能够从全局范围内探索空间内部特征之间的关系,该方法被引入到了视频行人重识别领域。如J.Wu等人(J.Wu,L.He,W.Liu,Y.Yang,Z.Lei,T.Mei,and S.Z.Li,CAViT:Contextual alignment vision Transformer for video object re

identification,in Proceedings of the European Conference on Computer Vision,2022,549

566.)提出CAViT模型其采用时空转移注意模块进行相邻帧之间的信息交互,但是采用相邻帧时序交互的方法没有建立当前处理帧与非相邻帧之间的上下文关系,忽略了非相邻帧也包含丰富的时序特征,T.He等人(T.He,X.Jin,X.Shen,J.Huang,Z.Chen,and X.S.Hua,Dense interaction learning for video

based person re

identification,inProceedings ofthe IEEE International Conference on ComputerVision,2021,1490

1501.)将经过池化和压缩后所有帧的特征进行时空交互,但是该方法会忽略行人的细节信息。T.Zhang等人(T.Zhang,L.Wei,L.Xie,Z.Zhuang,Y.Zhang,B.Li,and Q.Tian,Spatiotemporal Transformer for video

based person reidentification,arXiv preprint arXiv:2103.16469(2021).)在进行时空交互时选择一次性建立视频内所有帧之间的关系,但是该方法容易忽略成对的帧与帧之间的关系。
[0005]目前,一些基于Transformer的方法使用多个Transformer层提取高层语义特征,但是忽略了行人的局部细节特征的发掘。一些视频行人重识别工作尝试将Transformer和
CNN进行结合,如T.He等人(T.He,X.Jin,X.Shen,J.Huang,Z.Chen,and X.S.Hua,Dense interaction learning for video

based person re

identification,in Proceedings of the IEEE International Conference on Computer Vision,2021,1490

1501.)提出Dense Attention融合底中层中所有的CNN模块特征和高层的自注意力模块特征去生成不同粒度的时空特征,但是用于发掘行人身体部位信息的细粒度特征和底层的空间特征没有被充分的利用。

技术实现思路

[0006]本专利技术的目的在于提供一种基于多帧交互与多层融合的视频行人重识别方法及系统,该方法及系统有利于获得更加稳定、鲁棒、准确的视频行人重识别结果。
[0007]为了实现上述目的,本专利技术采用的技术方案是:一种基于多帧交互与多层融合的视频行人重识别方法,包括以下步骤:
[0008]1)从数据集中抽取多个行人的视频序列,形成由视频序列组成的训练数据集;
[0009]2)构建基于多帧交互与多层融合的视频行人重识别网络模型,所述视频行人重识别网络模型主要包括帧内空间交互模块、多帧时序交互模块、多级别局部增强模块、分割策略模块和多帧分类头结合模块;通过使用训练数据集对视频行人重识别网络模型进行训练,得到网络模型参数;
[0010]3)将训练好的视频行人重识别网络模型用于检索测试视频中含有该行人的视频,实现视频行人重识别。
[0011]进一步地,步骤1)中,所述数据集为MARS视频行人重识别数据集,从MARS视频行人重识别数据集中抽取K个行人的多个视频序列,每个行人包含J个视频序列,每个视频序列包含F张帧图片。
[0012]进一步地,步骤2)中,所述视频行人重识别网络模型包含单帧特征提取部分和多帧结合部分,所述单帧特征提取部分包含帧内空间交互模块、多帧时序交互模块、多级别局部增强模块和分割策略模块,所述多帧结合部分包含多帧分类头结合模块、分类损失和三元组损失;所述单帧特征提取部分以帧内空间交互模块作为骨干网络,并在网络模型的浅层、中层、高层中设置多帧时序交互模块和多级别局部增强模块,用于发掘各层中帧间长范围交互信息和帧内不同层全局和局部信息,在网络模型的高层中设置分割策略模块用于发掘行人身体部位特征;所述视频行人重识别网络模型的工作过程为:
[0013]A)首先对视频内每张单帧图片进行处理,通过对单帧图片进行切割获取一个固定大小块的序列,再通过卷积操作和展平操作生成2D维度的块特征嵌入,加入分类头信息、摄像头信息嵌入和位置信息嵌入生成帧内空间交互模块的输入,然后通过帧内空间交互模块对输入的视频内多张单帧图片的特征嵌入分别基于视觉Transformer进行帧内特征提取,经过若干帧内空间交互模块后,在浅层、中层、高层网络,将输出的视频内多张单帧特征输入多帧时序交互模块;
[0014]B)各层多帧时序交互模块分别对每个单帧特征进行同一视频剩余帧共性特征的获取,然后将视频本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多帧交互与多层融合的视频行人重识别方法,其特征在于,包括以下步骤:1)从数据集中抽取多个行人的视频序列,形成由视频序列组成的训练数据集;2)构建基于多帧交互与多层融合的视频行人重识别网络模型,所述视频行人重识别网络模型主要包括帧内空间交互模块、多帧时序交互模块、多级别局部增强模块、分割策略模块和多帧分类头结合模块;通过使用训练数据集对视频行人重识别网络模型进行训练,得到网络模型参数;3)将训练好的视频行人重识别网络模型用于检索测试视频中含有该行人的视频,实现视频行人重识别。2.根据权利要求1所述的基于多帧交互与多层融合的视频行人重识别方法,其特征在于,步骤1)中,所述数据集为MARS视频行人重识别数据集,从MARS视频行人重识别数据集中抽取K个行人的多个视频序列,每个行人包含J个视频序列,每个视频序列包含F张帧图片。3.根据权利要求1所述的基于多帧交互与多层融合的视频行人重识别方法,其特征在于,步骤2)中,所述视频行人重识别网络模型包含单帧特征提取部分和多帧结合部分,所述单帧特征提取部分包含帧内空间交互模块、多帧时序交互模块、多级别局部增强模块和分割策略模块,所述多帧结合部分包含多帧分类头结合模块、分类损失和三元组损失;所述单帧特征提取部分以帧内空间交互模块作为骨干网络,并在网络模型的浅层、中层、高层中设置多帧时序交互模块和多级别局部增强模块,用于发掘各层中帧间长范围交互信息和帧内不同层全局和局部信息,在网络模型的高层中设置分割策略模块用于发掘行人身体部位特征;所述视频行人重识别网络模型的工作过程为:A)首先对视频内每张单帧图片进行处理,通过对单帧图片进行切割获取一个固定大小块的序列,再通过卷积操作和展平操作生成2D维度的块特征嵌入,加入分类头信息、摄像头信息嵌入和位置信息嵌入生成帧内空间交互模块的输入,然后通过帧内空间交互模块对输入的视频内多张单帧图片的特征嵌入分别基于视觉Transformer进行帧内特征提取,经过若干帧内空间交互模块后,在浅层、中层、高层网络,将输出的视频内多张单帧特征输入多帧时序交互模块;B)各层多帧时序交互模块分别对每个单帧特征进行同一视频剩余帧共性特征的获取,然后将视频内多个单帧特征分别输入多级别局部增强模块;C)各层多级别局部增强模块在低、中、高层网络对每个单帧特征进行多级别特征融合和行人特征的局部增强,然后将每个单帧特征输入帧内空间交互模块;D)将最后的帧内空间交互模块输出的高层特征通过分割策略模块对单帧特征进行包括无分割、水平分割、竖直分割和块分割的四种分割方式的分割,将分割的每个部分输入帧内空间交互模块;E)通过多帧分类头结合模块将视频内每张单帧图片特征进行结合,生成视频序列级别特征,用于视频行人重识别检索任务;将经过多帧分类头结合模块输出的各分割策略特征分别进行三元组损失和分类损失计算,通过优化器减小正样本之间的距离,增大负样本之间的距离,并且减少模型分类行人的误差。4.根据权利要求3所述的基于多帧交互与多层融合的视频行人重识别方法,其特征在于,步骤B)中,利用F

1个多头帧间对齐注意力操作和多层感知机操作进行当前处理帧与视频内剩余所有帧的时序交互;
以当前处理帧的后一帧作为第一个交互帧进行多头帧间对齐注意力操作和多层感知机操作,将交互后的输出特征继续按顺序与接下来的帧进行多头帧间对齐注意力操作和多层感知机操作,直到与当前处理帧的前一帧交互完成,输出特征表示为S
r
;首先获取输入特征,包括当前处理帧和待交互的视频剩余帧其中n表示视频内某一帧,r表示第r个多帧时序交互模块,F表示视频内帧的数量;利用线性映射对每个帧生成Q,K,V特征;帧索引序列表示为p
n
=[n,n+1,n+2,
…<...

【专利技术属性】
技术研发人员:陈思达慧王大寒朱顺痣吴芸庄蔚蔚
申请(专利权)人:厦门理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1