当前位置: 首页 > 专利查询>南京大学专利>正文

一种解决部件不对齐的行人再识别方法技术

技术编号:23315713 阅读:20 留言:0更新日期:2020-02-11 18:01
本发明专利技术公开了一种解决部件不对齐的行人再识别方法,包括:对行人图像进行数据预处理,调整行人图像的大小并进行数据增强,再进行数据标准化处理;构造行人再识别的网络模型,即构造行人图像的深度表征,通过骨干网络模型提取多层特征,使用子模块增强并融合多层特征,形成多分支的结构,提取各个分支的部件特征与全局特征;训练所构造的网络模型,定义实验相关配置,对网络模型的模型参数进行优化;行人再识别,通过训练好的网络模型提取查询图像的深度表征,使用二范式范化后根据每个查询图像与被查询集的相似度,返回每个查询图像的识别结果。通过基于融合多尺度特征解决部件不对齐的行人再识别方法,实现了现阶段最佳的行人再识别性能。

A pedestrian recognition method for solving component misalignment

【技术实现步骤摘要】
一种解决部件不对齐的行人再识别方法
本专利技术涉及机器学习和计算机视觉领域,尤其涉及一种解决部件不对齐问题的方法。
技术介绍
随着现代社会的发展,公共安全逐步受到人们的关注。商场、公寓、学校、医院、办公楼、大型广场等人群密集并且容易发生公共安全事件的场所都安装了大量的监控摄像系统,对监控视频的研究集中体现在对其中可视对象进行识别,尤其是行人识别。这是因为行人一般是监控系统的目标。更确切地讲,监控系统的任务是在监控视频数据中搜索到某个特定的行人,即行人再识别的任务。然而,一方面由于监控视频的数据量往往十分庞大,另一方面,受到行人所处环境的光线、遮挡物、行人本身的穿着、拍摄角度及摄像头等因素的影响,在海量的监控视频数据中发现特定的行人非常有挑战性。然而通过人工识别进行监控不仅成本高昂,且效率不高,稳定性较差,长远来看仅仅依靠人工识别进行行人再识别是不现实的。因此,通过快速分析公共安全场所的监控视频数据,自动发现特定行人,可以显著提高监控质量,对城市建设以及保障社会安全有着相当重要的意义。现有的行人再识别方法中,基于部件的深度模型的行人再识别方法拥有最先进的性能,然而由于现阶段基于部件的深度模型往往只切分骨干网络中的高层特征,导致其性能高度依赖于行人部件特征的对齐程度。由于拍摄角度的变化以及现实场景的复杂性,现阶段的行人检测算法有时会输出不够精准的边界框,因此部件不对齐现象在行人再识别任务中是普遍存在的,使得通过部件的深度模型进行行人再识别时的性能不稳定。
技术实现思路
本专利技术提供一种解决部件不对齐的行人再识别方法,以解决现阶段基于部件的深度模型的行人再识别方法技术中存在的部件不对齐问题。一种解决部件不对齐的行人再识别方法,包括:步骤1,对行人数据集中的行人图像进行数据预处理,包括:调整所述行人图像的大小并进行数据增强,对数据增强后的行人图像进行数据标准化处理,所述行人数据集包括训练集、查询集和被查询集,所述数据增强包括随机水平翻转和随机擦除;步骤2,构造行人再识别的网络模型,即构造所述行人图像的深度表征,包括:通过骨干网络模型提取多层特征,使用子模块增强并融合所述多层特征,形成多分支的结构,提取各个分支的部件特征与全局特征,所述子模块包括侧向连接模块,上洗模块,融合模块,平滑模块以及缩减模块共五类;步骤3,训练步骤2所构造的网络模型,包括:定义实验相关配置,对所述网络模型的模型参数进行优化,具体的,通过结合身份分类的交叉熵损失函数以及用于特征度量的改进三元损失函数对模型参数进行优化;步骤4,行人再识别,包括:通过所述步骤3训练好的网络模型提取查询图像的深度表征,使用二范式范化所述查询图像的深度表征,并根据每个查询图像与被查询集基于余弦距离的相似度,返回所述每个查询图像的识别结果。进一步地,在一种实现方式中,所述步骤1包括:步骤1-1,使用双线性插值法调整输入的行人图像的大小,对不同尺寸的行人图像的任一通道,将所述行人图像的尺寸调整为3K×K,所述双线性插值法为以下插值函数:其中,(x1,y1)为行人图像中第一任意点相对于图像宽高的相对坐标,第一任意点坐标(x1,y1)的四个顶点的相对坐标分别记为(0,0),(0,1),(1,0),(1,1);步骤1-2,通过随机水平翻转所述行人图像进行数据增强,包括:对尺寸为3K×K的行人图像的任一通道,以概率P1随机水平翻转,0<P1<1,所述行人图像上的第二任意点(x2,y2)关于水平方向的翻转后的对称点的坐标为:(xf,yf)=(x2,3K-y2-1)其中,(x2,y2)为行人图像中第二任意点坐标,0≤x2≤3K,0≤y2≤K;步骤1-3,通过随机擦除所述行人图像进行数据增强,包括:对尺寸为3K×K的行人图像的任一通道,以概率P2,0<P2<1,根据以下随机擦出函数,随机擦除一块尺寸为h×w的随机区域,并将所述随机区域内的每个通道的像素值置为该通道的像素值均值:f(x3:x3+h,y3:y3+w)=m其中,(x3,y3)为行人图像中第三任意点坐标,0≤x3≤3K,0≤y3≤K,m为行人图像中各个通道的像素值均值;步骤1-4,将所述行人图像的各个通道的数据进行数据标准化处理,包括:根据以下标准化函数,对尺寸为3K×K的行人图像的任一通道,进行数据标准化处理:其中,x为步骤1-3得到的行人图像,0≤x≤255,μ为公开数据集ImageNet的均值,δ为公开数据集ImageNet的标准差。进一步地,在一种实现方式中,所述步骤2包括:步骤2-1,通过所述骨干网络模型提取多层特征,即提取不同深度的特征,所述不同深度的特征包括:第一层深度特征l1、第二层深度特征l2、第三层深度特征l3和第四层深度特征l4,所述子模块包括侧向连接模块、上洗模块、融合模块、平滑模块和缩减模块;通过侧向连接模块增强所述第一层深度特征l1与第二层深度特征l2的表征能力;通过两个上洗模块将所述第三层深度特征l3的尺寸分别增大到与第一层深度特征l1和第二层深度特征l2的尺寸一致;当所述第一层深度特征l1的尺寸为C×H×W时,根据所述骨干网络模型,获得所述第二层深度特征l2的尺寸为2C×H/2×W/2,所述第三层深度特征l3的尺寸为4C×H/4×W/4,其中,C为通道数,H为第一层深度特征l1的高,W为第一层深度特征l1的宽;通过所述两个上洗模块后,所述第三层深度特征l3的尺寸分别被放大至与第一层深度特征l1的尺寸一致,即C×H×W,以及被放大至与所述第二层深度特征l2的尺寸一致,即2C×H/2×W/2;将所述第一层深度特征l1与第三层深度特征l3按通道维度进行拼接,得到尺寸为2C×H×W的深度特征;将所述第二层深度特征l2与第三层深度特征l3按通道维度进行拼接,得到尺寸为4C×H/2×W/2的深度特征;步骤2-2,通过融合模块消除所述第三层深度特征l3与第一层深度特征l1之间的偏差项,以及消除所述第三层深度特征l3与第二层深度特征l2之间的偏差项,获得融合特征;步骤2-3,通过平滑模块将所述融合特征的尺寸变换至与第三层深度特征l3的尺寸一致,获得平滑后的融合特征,包括:通过卷积核大小为5×5,步长为4的降采样卷积层,将所述第一层深度特征l1与第三层深度特征l3融合获得的第一融合特征l13的通道数降低至C,尺寸降低至C×H×W,与所述骨干网络的第三层深度特征l3的尺寸保持一致;通过卷积核大小为3×3,步长为2的降采样卷积层,将所述第二层深度特征l2与第三层深度特征l3融合获得的第二融合特征l23的通道数降低至C,尺寸降低至C×H×W,同样与所述骨干网络的第三层深度特征l3的尺寸保持一致;步骤2-4,将所述步骤2-3获得的平滑后的融合特征以及骨干网络中的第三层深度特征l3分别接入骨干网络中的第四层深度特征l4对应的网络层,得到全局特征,即形成所述多分支结构,所述全局特征包括:第一全局特征l4-1,本文档来自技高网...

【技术保护点】
1.一种解决部件不对齐的行人再识别方法,其特征在于,包括:/n步骤1,对行人数据集中的行人图像进行数据预处理,包括:调整所述行人图像的大小并进行数据增强,对数据增强后的行人图像进行数据标准化处理,所述行人数据集包括训练集、查询集和被查询集;/n步骤2,构造行人再识别的网络模型,即构造所述行人图像的深度表征,包括:通过骨干网络模型提取多层特征,使用子模块增强并融合所述多层特征,形成多分支的结构,提取各个分支的部件特征与全局特征;/n步骤3,训练步骤2所构造的网络模型,包括:定义实验相关配置,对所述网络模型的模型参数进行优化;/n步骤4,行人再识别,包括:通过所述步骤3训练好的网络模型提取查询图像的深度表征,使用二范式范化所述查询图像的深度表征,并根据每个查询图像与被查询集基于余弦距离的相似度,返回所述每个查询图像的识别结果。/n

【技术特征摘要】
1.一种解决部件不对齐的行人再识别方法,其特征在于,包括:
步骤1,对行人数据集中的行人图像进行数据预处理,包括:调整所述行人图像的大小并进行数据增强,对数据增强后的行人图像进行数据标准化处理,所述行人数据集包括训练集、查询集和被查询集;
步骤2,构造行人再识别的网络模型,即构造所述行人图像的深度表征,包括:通过骨干网络模型提取多层特征,使用子模块增强并融合所述多层特征,形成多分支的结构,提取各个分支的部件特征与全局特征;
步骤3,训练步骤2所构造的网络模型,包括:定义实验相关配置,对所述网络模型的模型参数进行优化;
步骤4,行人再识别,包括:通过所述步骤3训练好的网络模型提取查询图像的深度表征,使用二范式范化所述查询图像的深度表征,并根据每个查询图像与被查询集基于余弦距离的相似度,返回所述每个查询图像的识别结果。


2.根据权利要求1所述的一种解决部件不对齐的行人再识别方法,其特征在于,所述步骤1包括:
步骤1-1,使用双线性插值法调整输入的行人图像的大小,对不同尺寸的行人图像的任一通道,将所述行人图像的尺寸调整为3K×K,所述双线性插值法为以下插值函数:



其中,(x1,y1)为行人图像中第一任意点相对于图像宽高的相对坐标,第一任意点坐标(x1,y1)的四个顶点的相对坐标分别记为(0,0),(0,1),(1,0),(1,1);
步骤1-2,通过随机水平翻转所述行人图像进行数据增强,包括:对尺寸为3K×K的行人图像的任一通道,以概率P1随机水平翻转,0<P1<1,所述行人图像上的第二任意点(x2,y2)关于水平方向的翻转后的对称点的坐标为:
(xf,yf)=(x2,3K-y2-1)
其中,(x2,y2)为行人图像中第二任意点坐标,0≤x2≤3K,0≤y2≤K;
步骤1-3,通过随机擦除所述行人图像进行数据增强,包括:对尺寸为3K×K的行人图像的任一通道,以概率P2,0<P2<1,根据以下随机擦出函数,随机擦除一块尺寸为h×w的随机区域,并将所述随机区域内的每个通道所有像素值置为该通道的像素值均值:
f(x3:x3+h,y3:y3+w)=m
其中,(x3,y3)为行人图像中第三任意点坐标,0≤x3≤3K,0≤y3≤K,m为行人图像中各个通道的像素值均值;
步骤1-4,将所述行人图像的各个通道的数据进行数据标准化处理,包括:根据以下标准化函数,对尺寸为3K×K的行人图像的任一通道,进行数据标准化处理:



其中,x为步骤1-3得到的行人图像,0≤x≤255,μ为公开数据集ImageNet的均值,δ为公开数据集ImageNet的标准差。


3.根据权利要求2所述的一种解决部件不对齐的行人再识别方法,其特征在于,所述步骤2包括:
步骤2-1,通过骨干网络模型提取多层特征,即提取不同深度的特征,所述不同深度的特征包括:第一层深度特征l1、第二层深度特征l2、第三层深度特征l3和第四层深度特征l4,所述子模块包括侧向连接模块、上洗模块、融合模块、平滑模块和缩减模块;
通过侧向连接模块增强所述第一层深度特征l1与第二层深度特征l2的表征能力;
通过两个上洗模块将所述第三层深度特征l3的尺寸分别增大到与第一层深度特征l1和第二层深度特征l2的尺寸一致;
当所述第一层深度特征l1的尺寸为C×H×W时,根据所述骨干网络模型,获得所述第二层深度特征l2的尺寸为2C×H/2×W/2,所述第三层深度特征l3的尺寸为4C×H/4×W/4,其中,C为通道数,H为第一层深度特征l1的高,W为第一层深度特征l1的宽;
通过所述两个上洗模块后,所述第三层深度特征l3的尺寸分别被放大至与第一层深度特征l1的尺寸一致,即C×H×W,以及被放大至与所述第二层深度特征l2的尺寸一致,即2C×H/2×W/2;
将所述第一层深度特征l1与第三层深度特征l3按通道维度进行拼接,得到尺寸为2C×H×W的深度特征;
将所述第二层深度特征l2与第三层深度特征l3按通道维度进行拼接,得到尺寸为4C×H/2×W/2的深度特征;
步骤2-2,通过融合模块消除所述第三层深度特征l3与第一层深度特征l1之间的偏差项,以及消除所述第三层深度特征l3与第二层深度特征l2之间的偏差项,获得融合特征;
步骤2-3,通过平滑模块将所述融合特征的尺寸变换至与第三层深度特征l3的尺寸一致,获得平滑后的融合特征,包括:
通过卷积核大小为5×5,步长为4的降采样卷积层,将所述第一层深度特征l1与第三层深度特征l3融合获得的第一融合特征l13的通道数降低至C,尺寸降低至C×H×W,与所述骨干网络的第三层深度特征l3的尺寸保持一致;
通过卷积核大小为3×3,步长为2的降采样卷积层,将所述...

【专利技术属性】
技术研发人员:杨育彬林喜鹏
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1