当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于自适应行人对齐的跨模态行人重识别方法技术

技术编号:28049453 阅读:18 留言:0更新日期:2021-04-14 13:05
本发明专利技术公开了一种基于自适应行人对齐的跨模态行人重识别方法。首先,利用基于残差网络预训练模型ResNet50的多路径网络分别提取红外图像和可见光图像的特征;然后,利用可见光图像的高层特征,线性地回归一组仿射变换参数,用于对可见光图像进行自适应地仿射变换;生成对齐矫正后的图像后,提取其特征并与原可见光图像提取的特征融合,作为可见光图像的最终特征;最后,将红外图像和可见光图像的特征映射到同一个特征空间中,结合身份损失函数和最难批次采样损失函数进行训练,最终达到相较于一般的跨模态行人重识别方法更高的识别精度。本发明专利技术主要应用于视频监控智能分析应用系统中,在图像检索,智能安防等领域具有开阔的应用前景。应用前景。应用前景。

【技术实现步骤摘要】
一种基于自适应行人对齐的跨模态行人重识别方法


[0001]本专利技术涉及一种基于自适应行人对齐的跨模态行人重识别方法,以及一种新的网络模型MAPAN(Multipath Adaptive Pedestrian Alignment Network),涉及视频智能监控领域中的跨模态行人重识别问题,属于计算机视觉与智能信息处理领域。

技术介绍

[0002]行人重识别(Re-Identification)是计算机视觉领域中的一种技术,旨在匹配不同摄像机监控视频中具有相同身份(通常使用数字代替)的特定行人,通常被认为是图像检索的一个子问题。不同摄像机拍摄的行人图像,由于视角、行人姿态变化、光照变化等原因,可能会造成行人外观上的差异,也可能存在摄像机分辨率低、遮挡等多种挑战。行人重识别在视频监控,智能安防等领域开阔的应用前景,引起了工业界和学术界的广泛关注,使其成为计算机视觉领域一个既很有研究价值又极具挑战性的研究热点。
[0003]近年来,传统的行人重识别研究已经取得了巨大的进步,然而,传统的行人重识别都是利用可见光图像来匹配可见光图像,但是,在实际的应用场景中,可见光摄像机在夜晚是完全无法捕捉到清晰的图像的,难以满足视频智能监控系统的全天候视频分析的要求。随着社会和技术的发展,如今大部分的摄像机都配备了红外摄像功能,可以捕获行人夜晚或者白天的红外热像信息,为可见光图像以及红外图像的跨模态行人重识别VT-REID(Visible Thermal Cross-modality Person Re-identification)提供了有利条件。与传统的行人重识别不同,可见光图像及红外图像跨模态行人重识别VT-REID主要解决跨模态图像的匹配,比如,使用红外行人图像搜索跨摄像机设备的可见光图像。
[0004]近年来,深度学习方法,尤其是卷积神经网络CNN(Convolutional Neural Network)在计算机视觉等领域取得了巨大成功。传统的特征工程方法经常难以取得同深度学习相当的识别精度,比如局部最大出现特征LOMO(Local Maximal Occurrence Representation)应用于跨模态的行人重识别,就表现出很差的适应性以及识别精度。由于红外图像和可见光图像本身存在的巨大异构数据差异,很多现有的工作几乎都使用深度学习来构建跨模态识别模型,同时均试图通过尽可能地减少异构数据的跨模态差异来提高行人匹配精度。比如,有的工作通过共同优化特定模态和共享模态信息来得到跨模态分层匹配网络模型,或通过结合身份损失和排序损失来提高跨模态行人匹配准确率,或通过生成式对抗网络(GAN,Generative Adversarial Network)来生成一些匹配认证信息从而提高识别精度,或通过同时施加特征层和图像层的限制来提高识别精度等。但是,在图像数据采集过程中,由于摄像机拍摄角度不理想以及图像后处理误差等原因,单模态内的图像间就可能存在着大量的图像错位及不对齐现象,从而造成在单模态的可见光图像内部就可能存在着巨大的差异。因此,在针对跨模态的行人重识别,不仅需要减少异构数据的跨模态差异,同时还应尽可能减小单模态内的图像间由于图像不对齐带来的图像差异,从而提高跨模态行人重识别的精度。

技术实现思路

[0005]本专利技术提出了一种基于自适应行人对齐的跨模态行人重识别方法,设计了一种多路径输入的网络结构MAPAN(Multipath Adaptive Pedestrian Alignment Network),分别采用一个批次数量的可见光图像和一个批次的红外图像作为输入。在标签信息的监督下,利用神经网络的自我学习能力,对错位严重的可见光图像进行自适应的对齐矫正,从而达到提高跨模态行人重识别精度的目的。
[0006]本专利技术通过以下技术方案来实现上述目的:
[0007](1)多路径输入的网络结构MAPAN包含红外图像路径,可见光基础分支以及可见光仿射变换分支,利用红外图像分支,可见光基础分支分别提取红外图像Z的特征φ(Z)和可见光图像X的特征φ(X);
[0008](2)利用可见光路径提取的高层特征线性回归一组仿射变换参数A
θ
,并生成图像变换网格,再通过双线性采样生成对齐矫正后的图像X


[0009](3)通过仿射变换路径中的残差网络对矫正图像X

提取特征后φ

(X

),将其与原可见光路径提取的特征融合,作为可见光图像的最终特征通过仿射变换分支中的残差网络对矫正图像X

提取特征φ

(X

)后,将其与原可见光分支提取的特征φ(X)通过加权相加的方式融合,即将λφ(X)+(1-λ)φ

(X

)整体作为可见光图像的最终特征,再与红外图像Z的特征φ(Z)进行度量学习;
[0010](4)将红外图像的特征φ(Z)和可见光图像的特征λφ(X)+(1-λ)φ

(X

)映射到同一个特征空间中,结合身份损失和最难批次采样损失进行训练,最终提高跨模态行人重识别精度。
附图说明
[0011]图1一种基于自适应行人对齐的跨模态行人重识别方法;
具体实施方式
[0012]下面结合附图对本专利技术作进一步说明:
[0013]MAPAN模型网络结构和原理具体如下:
[0014]该网络模型框架以端到端的方式学习特征表示和距离度量,同时保持较高的可分辨性。它主要由两部分组成:用于特征提取的多径网络和用于特征嵌入的全连接层。具体来说,多径网络由三个分支组成:可见光仿射变换分支、可见光基础分支和红外图像分支,它们都不共享权值。可见光基础分支与红外图像分支结构相同,均使用残差网络ResNet50作为预训练模型,其包括5个下采样块和1个平均池化层。可见光仿射变换分支由网格网络、双线性采样器和残差网络ResNet50组成。所有输出特征向量的长度为2048。可见光仿射变换分支由双线性采样器、网格网络和具有与可见光基础分支相同结构的残差网络组成。网格网络包含一个平均池化层和两个全连接层。可见光仿射变换分支有两个输入张量,它们都来自可见光基础分支,一个是输入的可见光图像,另一个是从可见光基础分支中提取的第五残差块特征,形状为2048
×9×
5。
[0015]红外图像分支和可见光基础分支输入分别是三通道红外图像和可见光图像,高度和宽度分别为288和144。假设使用X(Z)表示可见光图像(红外图像)。在红外图像分支中,为
红外图像Z提取的特征用φ(Z)表示,由可见光基础分支和可见光仿射变换分支提取的特征分别用φ(X)和φ

(X

)表示,其中X

表示可见光仿射变换分支中对X仿射变换获得的矫正图像。
[0016]高级特征图包含原始图像的低级特征图,并反映局部模式信息,从而可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自适应行人对齐的跨模态行人重识别方法,其特征在于以下步骤:(1)分别使用红外图像分支,可见光基础分支中的残差网络模型提取红外图像Z的特征φ(Z)和可见光图像X的特征φ(X);(2)利用可见光分支中提取的第五残差块特征,在网格网络中线性回归一组仿射变换参数A
θ
,并生成图像变换网格,再通过双线性采样生成对齐矫正后的图像X

;(3)通过仿射变换分支中的残差网络对矫正图像X

提取特征φ

(X

)后,将其与原可见光分支提取的特征φ(X)通过加权相加的方式融合,即将λφ(X)+(1-λ)φ

(X

)整体作为可见光图像的最终特征,再与红外图像Z的特征φ(Z)进行度量学习;(4)将红外图像的特征φ(Z)和可见光图像的特征λφ(X)+(1-λ)φ

(X

)映射到同一个特征空间中,结合身份损失函数和最难批次采样损失函数进行训练,最终提高跨模态行人重识别精度。2.根据权利要求1所述的方法,其特征在于步骤(1)中多路径网络对输入图片每个批次的采样策略是,在每个批次中,对于包含N个身份(ID)的数据集,首先随机选择P个身份,对于每个行人身份,随机获取K张可见光行人图像和K张红外行人图像,从而将2
×
P
×
K张行人图像送进网络中训练;多路径网络各分支分别提取红外图像Z和可见光图像X的深层次特征,分别使用φ(Z)和φ(X)表示;所有输出特征向量的长度为2048。3.根据权利要求1所述的方法,其特征在于步骤(2)中本发明利用可见光基础分支提取的高层特征(第五残差块特征)线性回归出一组仿射变换参数A
θ
,然后通过下式建立仿射变换前后图像的坐标对应关系:其中,是目标图像的规则网格中的第k个目标坐标,是输入图像中采样点的源坐标,A
θ
是仿射变换矩阵,其中θ
11
,θ
12
,θ
21
和θ
22
主要控制转换图像的大小和旋转变化,而θ
13
和θ
23
控制转换图像的偏移;仿射变换时使用双线性采样对图像网格进行采样,因此双线性采样器的输入图像X和输出图像X

之间的对应关系为:其中,X

表示目标图像中每个通道中坐标(i,j)位置的像素值,X
nm
表示源图像中每个通道中(n,m)坐标处的像素值,H和W表示目标图像(或源图像)的高度和宽度;双线性采样是连续可导的,因此上述方程式是连续可导并允许梯度反向传播,从而实现自适应行人对齐;关于X
nm
和的偏导数分别为:
显然,X

ij
对的偏导数完全类似于X

i,j
对的偏导数4.根据权利要求1所述的方法,其特征在于步骤(3)中通过三个残差网络分支,可以得到特征φ(Z),φ(X),φ

(X

);本发明选择通过加权相加的方式融合φ(X)和...

【专利技术属性】
技术研发人员:何小海李波吴晓红刘强陈洪刚卿粼波滕奇志
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1