【技术实现步骤摘要】
一种全监督视频行人重识别方法、系统、设备及介质
[0001]本专利技术属于计算机视觉
,涉及行人重识别领域,特别涉及一种全监督视频行人重识别方法、系统、设备及介质。
技术介绍
[0002]视频行人重识别任务的目标是通过一段目标人的视频,从大量视频片段中检索出有目标人出现的视频片段,该任务有许多具有现实意义的应用场景,比如:智能视频监控系统、智能安防、跨摄像头目标追踪等。
[0003]目前阶段,现有的视频行人重识别方法中尚存在以下技术缺陷,包括:
[0004](1)在密集人员场景下会出现人与人之间的遮挡,在目标人被严重遮挡情况下模型难以准确学习到目标人的特征,造成检索错误;尤其是在遮挡人与目标人有相似表观特征时,会使模型关注到错误的部分从而造成检索失败;
[0005](2)由于目标检测结果的不足,同一个行人的视频片段会出现定位不准的问题,造成连续帧的相同空间位置上具有不同的语义;在对视频片段特征融合时,错位的部分会破坏最后的视频特征,造成检索准确率下降。
技术实现思路
[0006]本专利技术的目的在于提供一种全监督视频行人重识别方法、系统、设备及介质,以解决上述存在的一个或多个技术问题。本专利技术公开的全监督视频行人重识别方法,具体是一种基于时序相关性分解的视频行人重识别方法,其通过目标人与遮挡人不同的相对状态来去除非目标人的特征,可消除在遮挡情况下遮挡人对模型特征学习的影响;另外,通过相关滤波算法将错位的视频帧重新对齐来恢复视频片段的语义一致性,可提高检索准确率。 >[0007]为达到上述目的,本专利技术采用以下技术方案:
[0008]本专利技术第一方面提供的一种全监督视频行人重识别方法,包括以下步骤:
[0009]获取包含目标人的视频片段以及待行人重识别的视频片段;
[0010]基于获取的所述包含目标人的视频片段以及待行人重识别的视频片段,利用预先训练好的行人重识别模型进行行人重识别处理,输出行人重识别结果;其中,
[0011]所述行人重识别结果至少包括所述待行人重识别的视频片段是否包含目标人;
[0012]所述行人重识别模型包括:
[0013]编码器模块,用于输入原始视频帧进行特征提取,输出帧级别特征图;其中,所述编码器模块基于经典Vision Transformer架构;
[0014]特征对齐模块,用于采用核相关滤波算法,对输入的原始视频帧进行偏差计算处理,输出目标人的跨帧位置偏差;
[0015]解码器模块,用于输入所述帧级别特征图以及所述目标人的跨帧位置偏差,进行特征对齐处理,获得对齐后的帧级别特征图;利用目标人与遮挡人不同的相对状态,对所述对齐后的帧级别特征图进行遮挡人局部特征去除处理,获得去除遮挡人局部特征的帧级别
特征图;基于多头自注意力机制,对所述去除遮挡人局部特征的帧级别特征图进行特征交互以及融合处理,输出视频级别特征;其中,所述解码器模块为基于多头自注意力机制的解码器。
[0016]本专利技术方法的进一步改进在于,所述预先训练好的行人重识别模型的训练步骤包括:
[0017]获取训练样本集合;其中,所述训练样本集合中的每个训练样本均包括采样后的包含行人的视频片段,视频片段所包含行人的ID编号;
[0018]训练时,对于选定的训练样本,将训练样本中的采样后的包含行人的视频片段输入行人重识别模型,预测获得视频片段中行人的ID编号并作为预测结果;将预测结果与训练样本中视频片段所包含行人的ID编号比较,采用交叉熵、三元组以及互信息损失函数进行监督训练并更新参数,达到预设收敛条件后获得所述预先训练好的行人重识别模型。
[0019]本专利技术方法的进一步改进在于,所述特征对齐模块中,采用核相关滤波算法,对输入的原始视频帧进行偏差计算处理,输出目标人的跨帧位置偏差的步骤包括:
[0020]使用相关滤波算法计算每个视频片段中目标人的跨帧位置偏差;其中,对视频片段中每一帧X
t
沿着通道维度取平均,转化为
[0021]初始化相关滤波器,包括:使用第一帧X'1初始化相关滤波器,表达式为,
[0022][0023][0024]式中,DFT(
·
)表示离散傅里叶变化,IDFT(
·
)表示离散傅里叶反变换,y是高斯型回归目标,λ是正则化系数,DFT(X'1)
*
是DFT(X'1)的复共轭,
⊙
表示矩阵元素相乘操作;α1是在第一帧上计算出的相关滤波器;
[0025]计算在下一帧上的跨帧位置偏差,之后更新滤波器参数;其中,利用相关滤波器计算第2帧上的跨帧位置偏差,并用指数移动平均更新滤波器参数,表达式为,
[0026][0027]M2=IDFT(DFT(k
1,2
)
⊙
α
t
);
[0028]式中,是第2帧在相关滤波器上的响应图,通过计算M2的最大响应点距离中心的距离可以得到目标人在第2帧上的跨帧位置偏差;
[0029]根据目标人的跨帧位置偏差对第2帧像素滚动对齐,利用对齐后的第2帧更新滤波器参数,表达式为,
[0030][0031][0032]α2=βα1+(1
‑
β)α2;
[0033]式中,β是指数移动平均步长,通过指数移动平均更新滤波器参数;
[0034]重复以上步骤直到算出所有帧上目标人的跨帧位置偏差;其中,使用在第2帧上更新后的滤波器α2来计算在第3帧上的目标人跨帧位置偏差,并使用像素滚动对齐后的第3帧来更新滤波器α2的参数;重复逐帧计算目标人跨帧位置偏差和更新滤波器参数,直到计算出目标人在所有帧上的跨帧位置偏差。
[0035]本专利技术方法的进一步改进在于,所述解码器模块中,输入所述帧级别特征图以及所述目标人的跨帧位置偏差,进行特征对齐处理,获得对齐后的帧级别特征图;利用目标人与遮挡人不同的相对状态,对所述对齐后的帧级别特征图进行遮挡人局部特征去除处理,获得去除遮挡人局部特征的帧级别特征图;基于多头自注意力机制,对所述去除遮挡人局部特征的帧级别特征图进行特征交互以及融合处理,输出视频级别特征的步骤包括:
[0036]基于获得的相邻帧中目标人的跨帧位置偏差,令响应图M
t
的最大响应点距离中心的水平和竖直偏差为和根据偏差滚动特征图Z
t
来对特征图对齐,获得对齐后的特征图Z'
t
;
[0037]将对齐后的特征图Z'
t
沿着时间维度取均值来关注序列中相对静止的部分,得到特征图表达式为,
[0038]计算帧级别特征图Z'
t
与的余弦相似度,计算表达式为,
[0039][0040]式中,取值在0到1之间,表示Z'
t
中每一个像素块与取均值后的特征图的余弦相似度;<
·
,
·
>表示向量内积操作;
[0041]根据余本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种全监督视频行人重识别方法,其特征在于,包括以下步骤:获取包含目标人的视频片段以及待行人重识别的视频片段;基于获取的所述包含目标人的视频片段以及待行人重识别的视频片段,利用预先训练好的行人重识别模型进行行人重识别处理,输出行人重识别结果;其中,所述行人重识别结果至少包括所述待行人重识别的视频片段是否包含目标人;所述行人重识别模型包括:编码器模块,用于输入原始视频帧进行特征提取,输出帧级别特征图;其中,所述编码器模块基于经典Vision Transformer架构;特征对齐模块,用于采用核相关滤波算法,对输入的原始视频帧进行偏差计算处理,输出目标人的跨帧位置偏差;解码器模块,用于输入所述帧级别特征图以及所述目标人的跨帧位置偏差,进行特征对齐处理,获得对齐后的帧级别特征图;利用目标人与遮挡人不同的相对状态,对所述对齐后的帧级别特征图进行遮挡人局部特征去除处理,获得去除遮挡人局部特征的帧级别特征图;基于多头自注意力机制,对所述去除遮挡人局部特征的帧级别特征图进行特征交互以及融合处理,输出视频级别特征;其中,所述解码器模块为基于多头自注意力机制的解码器。2.根据权利要求1所述的一种全监督视频行人重识别方法,其特征在于,所述预先训练好的行人重识别模型的训练步骤包括:获取训练样本集合;其中,所述训练样本集合中的每个训练样本均包括采样后的包含行人的视频片段,视频片段所包含行人的ID编号;训练时,对于选定的训练样本,将训练样本中的采样后的包含行人的视频片段输入行人重识别模型,预测获得视频片段中行人的ID编号并作为预测结果;将预测结果与训练样本中视频片段所包含行人的ID编号比较,采用交叉熵、三元组以及互信息损失函数进行监督训练并更新参数,达到预设收敛条件后获得所述预先训练好的行人重识别模型。3.根据权利要求1所述的一种全监督视频行人重识别方法,其特征在于,所述特征对齐模块中,采用核相关滤波算法,对输入的原始视频帧进行偏差计算处理,输出目标人的跨帧位置偏差的步骤包括:使用相关滤波算法计算每个视频片段中目标人的跨帧位置偏差;其中,对视频片段中每一帧X
t
沿着通道维度取平均,转化为初始化相关滤波器,包括:使用第一帧X'1初始化相关滤波器,表达式为,初始化相关滤波器,表达式为,式中,DFT(
·
)表示离散傅里叶变化,IDFT(
·
)表示离散傅里叶反变换,y是高斯型回归目标,λ是正则化系数,DFT(X'1)
*
是DFT(X'1)的复共轭,
⊙
表示矩阵元素相乘操作;α1是在第一帧上计算出的相关滤波器;计算在下一帧上的跨帧位置偏差,之后更新滤波器参数;其中,利用相关滤波器计算第
2帧上的跨帧位置偏差,并用指数移动平均更新滤波器参数,表达式为,M2=IDFT(DFT(k
1,2
)
⊙
α
t
);式中,是第2帧在相关滤波器上的响应图,通过计算M2的最大响应点距离中心的距离可以得到目标人在第2帧上的跨帧位置偏差;根据目标人的跨帧位置偏差对第2帧像素滚动对齐,利用对齐后的第2帧更新滤波器参数,表达式为,数,表达式为,α2=βα1+(1
‑
β)α2;式中,β是指数移动平均步长,通过指数移动平均更新滤波器参数;重复以上步骤直到算出所有帧上目标人的跨帧位置偏差;其中,使用在第2帧上更新后的滤波器α2来计算在第3帧上的目标人跨帧位置偏差,并使用像素滚动对齐后的第3帧来更新滤波器α2的参数;重复逐帧计算目标人跨帧位置偏差和更新滤波器参数,直到计算出目标人在所有帧上的跨帧位置偏差。4.根据权利要求1所述的一种全监督视频行人重识别方法,其特征在于,所述解码器模块中,输入所述帧级别特征图以及所述目标人的跨帧位置偏差,进行特征对齐处理,获得对齐后的帧级别特征图;利用目标人与遮挡人不同的相对状态,对所述对齐后的帧级别特征图进行遮挡人局部特征去除处理,获得去除遮挡人局部特征的帧级别特征图;基于多头自注意力机制,对所述去除遮挡人局部特征的帧级别特征图进行特征交互以及融合处理,输出视频级别特征的步骤包括:基于获得的相...
【专利技术属性】
技术研发人员:王乐,仵鹏飞,周三平,陈仕韬,辛景民,郑南宁,
申请(专利权)人:宁波市舜安人工智能研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。