当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于深度网络模型的行人图像识别方法技术

技术编号:24206722 阅读:51 留言:0更新日期:2020-05-20 14:58
本发明专利技术提供了一种基于深度网络模型的行人图像识别方法,包括:对行人图像进行数据预处理;对预处理后的数据执行自适应的采样算法以获得具备更难样本的批量;通过骨干网络模型提取多层特征,使用子模块增强低层特征再进行降尺度并与高层特征拼接得到多层特征,以不同粒度切分多层特征形成多分支的结构,提取各个分支的部件特征与全局特征,并将所提取的全部特征进行拼接得到行人图像的深度表征;训练所构造的网络模型;通过训练好的网络模型提取查询图像的深度表征,根据每个查询图像与被查询集的余弦距离相似度,返回每个查询图像的识别结果。通过以上所述的多层次多粒度的行人再识别深度模型,本发明专利技术实现了现阶段最佳的行人再识别性能。

A pedestrian image recognition method based on depth network model

【技术实现步骤摘要】
一种基于深度网络模型的行人图像识别方法
本专利技术涉及机器学习和计算机视觉领域,尤其涉及一种基于深度网络模型的行人图像识别方法。
技术介绍
随着现代社会的发展,公共安全逐步受到人们的关注。商场、公寓、学校、医院、办公楼、大型广场等人群密集并且容易发生公共安全事件的场所都安装了大量的监控摄像系统,对监控视频的研究集中体现在对其中可视对象进行识别,尤其是行人识别。这是因为行人一般是监控系统的目标。更确切地讲,监控系统的任务是在监控视频数据中搜索到某个特定的行人,即行人再识别的任务。然而,一方面由于监控视频的数据量往往十分庞大,另一方面,受到行人所处环境的光线、遮挡物、行人本身的穿着、拍摄角度及摄像头等因素的影响,在海量的监控视频数据中发现特定的行人非常有挑战性。然而通过人工识别进行监控不仅成本高昂,且效率不高,稳定性较差,长远来看仅仅依靠人工识别进行行人再识别是不现实的。因此,通过快速分析公共安全场所的监控视频数据,自动发现特定行人,可以显著提高监控质量,对城市建设以及保障社会安全有着相当重要的意义。现有的行人再识别方法中,基于部件的深度模型的行人再识别方法拥有最先进的性能,然而由于现阶段基于部件的深度模型往往都是切分骨干网络中的高层特征得到部件特征,而一方面深度模型的高层特征具有高耦合性,简单地切分高层特征会导致其语义信息的丢失,从而使得模型性能受限。另一方面,深度模型的低层特征虽然语义信息较弱,但是往往是弱耦合的,对切分具有更好的鲁棒性,结合高层特征和低层特征可以缓解由于切分而导致的语义信息丢失问题。
技术实现思路
专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于深度网络模型的行人图像识别方法,以解决现阶段基于部件的深度模型的行人再识别方法技术中存在的语义信息丢失问题。本专利技术包括如下步骤:步骤1,对行人图像数据集中的行人图像进行数据预处理,所述行人图像数据集包括训练集和测试集,测试集包括查询集和被查询集,测试集和训练集中的行人身份不重复,查询集和被查询集则有相同的行人身份;步骤2,对预处理后的训练集进行动态采样;步骤3,构造行人再识别的网络模型;步骤4,训练步骤3所构造的网络模型;步骤5,进行行人再识别。步骤1包括:步骤1-1,使用双立方插值法调整输入的行人图像的大小,对不同尺寸的行人图像的任一通道,将所述行人图像的尺寸调整为3K×K,K一般取128或者192,对于图像中任意一点P(0,0),定义其周围包括其自身合计16个点的相对坐标为P(r,c),-1≤r≤2,-1≤c≤2;这里的r,c分别表示横坐标的偏移量和纵坐标的偏移量,负值表示向左或向上偏移,正值表示向右或向下偏移,如P(0,1)为P(0,0)右边的邻接点;其中,P(0,0)表示目标插值图中的一个像素点(x1,y1)在原图像中最接近的映射点,(x1,y1)和P(0,0)的坐标偏移记为(u,v),P(0,0)在原图像中的绝对坐标记为(i,j),则所述双立方插值法为以上16个点的卷积插值之和,即为如下插值函数F(i+u,j+v):其中,x1=i+u,y1=j+v,f(i+r,j+c)表示原图像中所述16个点任意一点在原图像中的像素值,S(x)为采样公式,具体为:其中,a为公式系数,常用值可取-0.5;步骤1-2,通过随机水平翻转所述行人图像:对尺寸为3K×K的行人图像的任一通道,以概率P1随机水平翻转,0<P1<1,所述行人图像上的第二任意点(x2,y2)关于水平方向的翻转后的对称点的坐标(xf,yf)为:(xf,yf)=(x2,3K-y2-1)其中,(x2,y2)为行人图像中第二任意点坐标,0≤x2≤3K,0≤y2≤K;步骤1-3,通过随机擦除所述行人图像:对尺寸为3K×K的行人图像的任一通道,以概率P2,0<P2<1,根据以下随机擦出函数f(),随机擦除一块尺寸为h×w的随机区域,并将所述随机区域内的每个通道所有像素值置为所述通道的像素值均值:f(x3:x3+h,y3:y3+w)=m,其中,(x3,y3)为行人图像中第三任意点坐标,0≤x3≤3K,0≤y3≤K,m为行人图像中各个通道的像素值均值;步骤1-4,将所述行人图像的各个通道的数据进行数据标准化处理:根据以下标准化函数f(x),对尺寸为3K×K的行人图像的任一通道,进行数据归一化和标准化处理:其中,x为步骤1-3得到的行人图像各个通道下任一点的像素值,0≤x≤255,μ为公开数据集ImageNet的均值,δ为公开数据集ImageNet的标准差。步骤2包括:步骤2-1,统计训练集中每个身份的行人图像对应的索引列表,训练集中的行人图像即为训练样本,定义未被采样的样本索引列表字典集合为US,模型正确分类的集合为TS,模型错误分类的集合为FS,初始化TS、FS为空、US为当前全部训练样本构成的字典集;步骤2-2,进行动态采样,在当前迭代轮次下,需要从训练集中获取由P个行人以及P个行人对应的Q个图像构成的一个批量,因此先从训练集的标签列表中随机采样P个行人身份;步骤2-3,对于步骤2-2中采得的每个行人身份,优先从US集合采样获取Q个图像,如果US集合为空或剩余对应身份的行人图像数不足Q个,再从FS集合中进行采样补足,如果仍不足再从TS集合中采样补足,如果仍不足,则循环此步骤2-3,进行重复采样直到获得Q个图像;步骤2-4,每次迭代采样后,将当前迭代轮次下采样的样本从US集合转移到FS集合,同时将模型正确分类的样本从FS集合转移到TS集合,将模型错误分类的样本从TS集合转移到FS集合;步骤2-5,循环步骤2-3和步骤2-4直到采样得到一个大小为P×Q的批量;步骤3包括:步骤3-1,构造行人再识别的网络模型,所述网络模型包括骨干网络模型和子模块;通过骨干网络模型提取多层特征,即提取不同深度的特征,所述不同深度的特征包括:第一层深度特征l1、第二层深度特征l2、第三层深度特征l3和第四层深度特征l4;骨干网络模型本专利技术选取ImageNet数据集经典的分类网络ResNet;所述子模块包括增强模块、降尺度模块、缩减模块和最大池化层模块;定义第一层深度特征l1和第二层深度特征l2为低层特征,第三层深度特征l3和第四层深度特征l4则为高层特征;当所述第一层深度特征l1的尺寸为C×H×W时,根据所述骨干网络模型,获得所述第二层深度特征l2的尺寸为2C×H/2×W/2,所述第三层深度特征l3的尺寸为4C×H/4×W/4,其中,C为第一层深度特征l1的通道数,H为第一层深度特征l1的高,W为第一层深度特征l1的宽;步骤3-2,通过两个所述增强模块,分别增强第一层深度特征l1和第二层深度特征l2的语义性,其尺寸保持不变,再通过两个所述降尺度模块后,所述第一层深度特征l1和第二层深度特征l2的尺寸分别被降至2C×H/4×W/4;步骤3-3,通过所述缩减模块,缩减本文档来自技高网
...

【技术保护点】
1.一种基于深度网络模型的行人图像识别方法,其特征在于,包括如下步骤:/n步骤1,对行人图像数据集中的行人图像进行数据预处理,所述行人图像数据集包括训练集和测试集,测试集包括查询集和被查询集,测试集和训练集中的行人身份不重复,查询集和被查询集则有相同的行人身份;/n步骤2,对预处理后的训练集进行动态采样;/n步骤3,构造行人再识别的网络模型;/n步骤4,训练步骤3所构造的网络模型;/n步骤5,进行行人再识别。/n

【技术特征摘要】
1.一种基于深度网络模型的行人图像识别方法,其特征在于,包括如下步骤:
步骤1,对行人图像数据集中的行人图像进行数据预处理,所述行人图像数据集包括训练集和测试集,测试集包括查询集和被查询集,测试集和训练集中的行人身份不重复,查询集和被查询集则有相同的行人身份;
步骤2,对预处理后的训练集进行动态采样;
步骤3,构造行人再识别的网络模型;
步骤4,训练步骤3所构造的网络模型;
步骤5,进行行人再识别。


2.根据权利要求1所述的方法,其特征在于,步骤1包括:
步骤1-1,使用双立方插值法调整输入的行人图像的大小,对不同尺寸的行人图像的任一通道,将所述行人图像的尺寸调整为3K×K,对于图像中任意一点P(0,0),定义其周围包括其自身合计16个点的相对坐标为P(r,c),-1≤r≤2,-1≤c≤2;r,c分别表示横坐标的偏移量和纵坐标的偏移量,负值表示向左或向上偏移,正值表示向右或向下偏移;
其中,P(0,0)表示目标插值图中的一个像素点(x1,y1)在原图像中最接近的映射点,(x1,y1)和P(0,0)的坐标偏移记为(u,v),P(0,0)在原图像中的绝对坐标记为(i,j),则所述双立方插值法为以上16个点的卷积插值之和,即为如下插值函数F(i+u,j+v):



其中,x1=i+u,y1=j+v,f(i+r,j+c)表示原图像中所述16个点任意一点在原图像中的像素值,S(x)为采样公式,具体为:



其中,a为公式系数;
步骤1-2,通过随机水平翻转所述行人图像:对尺寸为3K×K的行人图像的任一通道,以概率P1随机水平翻转,0<P1<1,所述行人图像上的第二任意点(x2,y2)关于水平方向的翻转后的对称点的坐标(xf,yf)为:
(xf,yf)=(x2,3K-y2-1)
其中,(x2,y2)为行人图像中第二任意点坐标,0≤x2≤3K,0≤y2≤K;
步骤1-3,通过随机擦除所述行人图像:对尺寸为3K×K的行人图像的任一通道,以概率P2,0<P2<1,根据以下随机擦出函数f(),随机擦除一块尺寸为h×w的随机区域,并将所述随机区域内的每个通道所有像素值置为所述通道的像素值均值:
f(x3:x3+h,y3:y3+w)=m,
其中,(x3,y3)为行人图像中第三任意点坐标,0≤x3≤3K,0≤y3≤K,m为行人图像中各个通道的像素值均值;
步骤1-4,将所述行人图像的各个通道的数据进行数据标准化处理:根据以下标准化函数f(x),对尺寸为3K×K的行人图像的任一通道,进行数据归一化和标准化处理:



其中,x为步骤1-3得到的行人图像各个通道下任一点的像素值,0≤x≤255,μ为公开数据集ImageNet的均值,δ为公开数据集ImageNet的标准差。


3.根据权利要求2所述的方法,其特征在于,步骤2包括:
步骤2-1,统计训练集中每个身份的行人图像对应的索引列表,训练集中的行人图像即为训练样本,定义未被采样的样本索引列表字典集合为US,模型正确分类的集合为TS,模型错误分类的集合为FS,初始化TS、FS为空、US为当前全部训练样本构成的字典集;
步骤2-2,进行动态采样,在当前迭代轮次下,需要从训练集中获取由P个行人以及P个行人对应的Q个图像构成的一个批量,因此先从训练集的标签列表中随机采样P个行人身份;
步骤2-3,对于步骤2-2中采得的每个行人身份,优先从US集合采样获取Q个图像,如果US集合为空或剩余对应身份的行人图像数不足Q个,再从FS集合中进行采样补足,如果仍不足再从TS集合中采样补足,如果仍不足,则循环此步骤2-3,进行重复采样直到获得Q个图像;
步骤2-4,每次迭代采样后,将当前迭代轮次下采样的样本从US集合转移到FS集合,同时将模型正确分类的样本从FS集合转移到TS集合,将模型错误分类的样本从TS集合转移到FS集合;
步骤2-5,循环步骤2-3和步骤2-4直到采样得到一个大小为P×Q的批量。


4.根据权利要求3所述的方法,其特征在于,步骤3包括:
步骤3-1,构造行人再识别的网络模型,所述网络模型包括骨干网络模型和子模块;
通过骨干网络模型提取多层特征,即提取不同深度的特征,所述不同深度的特征包括:第一层深度特征l1、第二层深度特征l2、第三层深度特征l3和第四层深度特征l4;骨干网络模型本发明选取ImageNet数据集经典的分类网络ResNet;
所述子模块包括增强模块、降尺度模块、缩减模块和最大池化层模块;定义第一层深度特征l1和第二层深度特征l2为低层特征,第三层深度特征l3和第四层深度特征l4则为高层特征;
当所述第一层深度特征l1的尺寸为C×H×W时,根据所述骨干网络模型,获得所述第二层深度特征l2的尺寸为2C×H/2×W/2,所述第三层深度特征l3的尺寸为4C×H/4×W/4,其中,C为第一层深度特征l1的通道数,H为第一层深度特征l1的高,W为第一层深度特征l1的宽;
步骤3-2,通过两个所述增强模块,分别增强第一层深度特征l1和第二层深度特征l2的语义性,其尺寸保持不变,再通过两个所述降尺度模块后,所述第一层深度特征l1和第二层深度特征l2的尺寸分别被降至2C×H/4×W/4;
步骤3-3,通过所述缩减模块,缩减第三层深度特征l3的通道数为原来的一半,即尺寸降为2C×H/4×W/4;
将所述降尺度后的第一层深度特征l1与缩减后的第三层深度特征l3按通道维度进行拼接,得到尺寸为2C×H/4×W/4的第一多层深度特征l13;
将所述降尺度后的第二层深度特征l2与缩减后的第三层深度特征l3按通道维度进行拼接,得到尺寸为2C×H/4×W/4的第二多层深度特征l23;
步骤3-4,将步骤3-3获得的多层深度特...

【专利技术属性】
技术研发人员:杨育彬林喜鹏
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1