语义指导的行人重识别方法技术

技术编号:23099790 阅读:18 留言:0更新日期:2020-01-14 20:43
本发明专利技术公开了一种语义指导的行人重识别方法,该方法采用条件生成式对抗网络,并结合行人部件语义分割技术,实现行人重识别功能,方法中的深度学习架构包括:编码子网络、分类子网络、解码子网络及判别子网络,利用编码子网络提取语义与类别特征,并构建了分类子网络,实现类别特征的准确判别,进一步地,在解码子网络中,结合编码特征生成语义和类别一致性的行人图像,引入判别子网络,给出了类别与语义损失函数,以确保模型训练过程中的质量和性能,在行人姿势和视角多变的情况下,该方法能够准确进行识别,提高行人重识别的准确性。

【技术实现步骤摘要】
语义指导的行人重识别方法
本专利技术涉及行人重识别
,具体涉及一种语义指导的行人重识别方法,该方法采用条件生成式对抗网络,并结合行人部件语义分割技术,实现行人重识别功能,在行人姿势和视角多变的情况下,该方法能够准确进行识别,提高行人重识别的准确性。
技术介绍
在智能安防领域中,视频监控系统的大量普及给社会公共安全工作提供了保障,行人重识别技术致力于解决非重叠摄像机下行人是否匹配的问题,由于非重叠摄像机下拍摄的同一行人视域不同,进而导致行人图像在外观上出现姿势以及视角多变等情形,这给研究行人重识别技术带来了困难,传统方法通过手工提取行人特征,但是手工特征难以减轻视角差异大的影响,此外,传统的行人重识别技术仅仅考虑行人的颜色、纹理等底层特征,没有考虑更加抽象的人体语义特征,无法保证提取的行人特征具有高辨别性,现有的行人重识别方法很少利用人体部件语义分割技术来提升重识别的性能,如何建立有效的深度学习模型实现行人重识别是一个亟待解决的实际问题。
技术实现思路
本专利技术的目的是针对现有技术的不足,并针对行人重识别中出现的行人姿态多变、角度不一致等实际问题,利用深度学习策略,构建生成式对抗网络,提供一种高效的行人重识别方法;实现本专利技术目的的具体技术方案是:步骤1:行人数据集构建从网站http://blog.fangchengjin.cn/reid-market-1501.html下载行人数据集Market1501,Market1501包含单行人图像,从Market1501中选取M幅图像,构建数据集R={hη|0≤η≤M-1},20000≤M≤40000,将R中每幅行人图像赋予一个类别标签sl,一共创建K个类别,1≤l≤K,500≤K≤2000;按照如下方法构建行人重识别数据集F:从网站https://github.com/minar09/LIP-JPPNet-TensorFlow下载训练的网络模型ε,将R中每幅图像输入到ε中,输出与hk对应的人体语义分割图像πk,将hk和πk的分辨率缩放为H×W,并将hk和πk中每个像素三个通道RGB的颜色采用归一化方法表示,归一化后的像素值为ρ,-1<ρ<1,归一化后的结果分别记为Ik和Jk,由Ik和Jk组合构建行人重识别数据集F;步骤2:构建神经网络神经网络为六个子网络:类别编码子网络EP-Net,语义编码子网络ES-Net、分类子网络C-Net、解码子网络DE-Net、类别判别子网络DI-Net和语义判别子网络DP-Net;对于EP-Net,输入为Ik,输入张量形状为H×W×3,输出为表示行人的类别特征Ak,尺度为2048×1;对于ES-Net,输入为Jj,j≠k,输入张量形状为H×W×3,输出为表示人体语义的特征Bj,尺度为a×1,a为128、256或者512;对于C-Net,Ak作为输入,输出Ik的类别D,0<D<K-1;对于DE-Net,Ak、Bj和C作为输入,C表示高斯噪声,其张量形状为b×1,b为64,128或者256,输出为合成的行人图像S和人体部件语义分割图像Q,尺度均为H×W×3;对于DI-Net,输入为S或者Ij,输出为1个神经元;对于DP-Net,输入为Q或者Jj,输出为1个神经元;对于EP-Net,采用ResNet50结构,并在基本的ResNet50结构的基础上,将最后的全连接层去除;对于ES-Net,网络结构设置为以下6层:第一层为卷积操作,卷积核设置为64,核形状为4×4,输出结果为特征图,即为Z1,后5层均为卷积层,其中每个卷积层由卷积运算、批归一化、LeakyReLU激活操作组成,卷积核分别设置为128,256,512,512,a,前4层卷积运算核形状均为4×4,最后1层卷积运算核形状设置为8×4,输出结果为不同尺度的特征图,分别表示为Z2、Z3、Z4、Z5、Z6;对于C-Net,网络结构设置为以下2层:批归一化层和全连接层,全连接层的神经元个数为P,0<P<K-1;对于DE-Net,网络结构设置为以下6层:6个上采样层,第一个上采样层由上采样、批归一化以及LeakyReLU激活操作组成,其采样核大小为8×4,采样输出通道为512,中间4个采样层由上采样、批归一化以及LeakyReLU激活操作组成,采样输出通道分别为512、256、128、64,其采样核大小均为4×4,每层的输入由上个采样层输出的结果分别和Z5、Z4、Z3、Z2串接而成,最后一个采样层包含2个输出,1个输出包含上采样、批归一化、ReLU激活、卷积运算以及Tanh激活组成,上采样的核为3×3,步长为2,输出通道为64,卷积运算的核为3×3,步长为1,输出通道为3,另一个输出由上采样及Tanh激活操作组成,其采样核大小为4×4,步长为2,采样输出通道为3,并接收Z1和第五个上采样层的输出作为输入;对于DI-Net,采用与EP-Net类似的网络,将ResNet50结构的最后一层全连接去除,加入1个全连接层,全连接层的神经元个数为1;对于DP-Net,网络结构设置为以下7层:5层卷积层、1个全局平均池化层和1个全连接层,卷积层由卷积运算、批归一化和LeakyReLU激活操作组成,卷积核分别设置为64,128,256,512,1024,全连接层的神经元个数为1;步骤3:神经网络的训练将数据集F中样本图像按照4:1:4的比例划分为训练数据集α,样例数据集β和测试数据集γ,利用α训练网络模型,利用β数据集用于取出要识别的行人对象样本,β和γ用于评估及测试行人重识别的性能;对EP-Net和C-Net同时进行训练,训练轮次为50次,固定EP-Net和C-Net,对ES-Net、DE-Net、DI-Net和DP-Net同时进行训练,训练轮次为100次,对EP-Net、C-Net、ES-Net、DE-Net、DI-Net和DP-Net同时训练,训练轮次为100次;对C-Net的损失定义为:其中pd表示Ik属于d类别的概率,qd表示Ik属于d类别的标签,其中xi表示类别为i的行人样例图像在训练时,经过EP-Net得到的特征,ci表示同一个批次中,类别为i的所有行人样例图像训练时,经过EP-Net得到的特征的平均值,m表示批次的大小;对DI-Net的损失定义为:其中U和V分别代表真实图像和生成图像的数据分布,T表示类别判别子网络DI-Net的输出映射,E代表数学期望;对DP-Net的损失定义为:其中u和v分别代表真实语义图像和生成语义图像的数据分布G表示语义判别子网络DP-Net的输出映射,E代表数学期望;对DE-Net的损失定义为:其中θ表示Ik的像素点个数,Ye为Ik中每个像素点值,ye为S中每个像素点值,Oe为Jj中每个像素点值,oe为Q中每个像素点值;所以,训练模型的总损失定义如下:L=λ1Lg+λ2Ld+λ3L本文档来自技高网...

【技术保护点】
1.一种语义指导的行人重识别方法,其特征在于,该方法输入包含行人图像和行人语义分割图像,输入图像的分辨率均为H×W,H为128、256或者384,W为H/2,具体包括以下步骤:/n步骤1:行人数据集构建/n从网站http://blog.fangchengjin.cn/reid-market-1501.html下载行人数据集Market1501,Market1501包含单行人图像,从Market1501中选取M幅图像,构建数据集R={h

【技术特征摘要】
1.一种语义指导的行人重识别方法,其特征在于,该方法输入包含行人图像和行人语义分割图像,输入图像的分辨率均为H×W,H为128、256或者384,W为H/2,具体包括以下步骤:
步骤1:行人数据集构建
从网站http://blog.fangchengjin.cn/reid-market-1501.html下载行人数据集Market1501,Market1501包含单行人图像,从Market1501中选取M幅图像,构建数据集R={hη|0≤η≤M-1},20000≤M≤40000,将R中每幅行人图像赋予一个类别标签sl,一共创建K个类别,1≤l≤K,500≤K≤2000;
按照如下方法构建行人重识别数据集F:从网站https://github.com/minar09/LIP-JPPNet-TensorFlow下载训练的网络模型ε,将R中每幅图像输入到ε中,输出与hk对应的人体语义分割图像πk,将hk和πk的分辨率缩放为H×W,并将hk和πk中每个像素三个通道RGB的颜色采用归一化方法表示,归一化后的像素值为ρ,-1<ρ<1,归一化后的结果分别记为Ik和Jk,由Ik和Jk组合构建行人重识别数据集F;
步骤2:构建神经网络
神经网络为六个子网络:类别编码子网络EP-Net,语义编码子网络ES-Net、分类子网络C-Net、解码子网络DE-Net、类别判别子网络DI-Net和语义判别子网络DP-Net;
对于EP-Net,输入为Ik,输入张量形状为H×W×3,输出为表示行人的类别特征Ak,尺度为2048×1;
对于ES-Net,输入为Jj,j≠k,输入张量形状为H×W×3,输出为表示人体语义的特征Bj,尺度为a×1,a为128、256或者512;
对于C-Net,Ak作为输入,输出Ik的类别D,0<D<K-1;
对于DE-Net,Ak、Bj和C作为输入,C表示高斯噪声,其张量形状为b×1,b为64,128或者256,输出为合成的行人图像S和人体部件语义分割图像Q,尺度均为H×W×3;
对于DI-Net,输入为S或者Ij,输出为1个神经元;
对于DP-Net,输入为Q或者Jj,输出为1个神经元;
对于EP-Net,采用ResNet50结构,并在基本的ResNet50结构的基础上,将最后的全连接层去除;
对于ES-Net,网络结构设置为以下6层:第一层为卷积操作,卷积核设置为64,核形状为4×4,输出结果为特征图,即为Z1,后5层均为卷积层,其中每个卷积层由卷积运算、批归一化、LeakyReLU激活操作组成,卷积核分别设置为128,256,512,512,a,前4层卷积运算核形状均为4×4,最后1层卷积运算核形状设置为8×4,输出结果为不同尺度的特征图,分别表示为Z2、Z3、Z4、Z5、Z6;
对于C-Net,网络结构设置为以下2层:批归一化层和全连接层,全连接层的神经元个数为P,0<P<K-1;
对于DE-Net,网络结构设置为以下6层:6个上采样层,第一个上采样层由上采样、批归一化以及LeakyReLU激活操作组成,其采样核大小为8×4,采样输出通道为512,中间4个采样层由上采样、批归一化以及LeakyReLU激活操作组成,采样输出通道分别为512、256、...

【专利技术属性】
技术研发人员:全红艳刘超
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1