监控场景下基于ResNet-50的行人属性识别方法技术

技术编号:22565483 阅读:45 留言:0更新日期:2019-11-16 12:11
本发明专利技术公开了监控场景下基于ResNet‑50的行人属性识别方法,包括以下步骤:1)选用公开数据集和监控视频,构建行人数据集;2)选用ResNet‑50卷积神经网络模型作为实验模型;3)对loss损失函数进行改进,并提出N+1类预测方法进行N/A标签的预测;4)把训练集输入改进loss损失函数后的ResNet‑50卷积神经网络,得出行人属性识别模型;5)将测试集输入到行人属性识别模型中进行识别,对行人属性识别模型的实验结果进行评估;采用ResNet‑50网络结构,可以分析更深层次的行人属性,更好的挖掘属性之间的关系,在挖掘属性之间的关系时,提出了统一的多属性联合学习框架来同时识别多属性。

Pedestrian attribute recognition method based on resnet-50 in monitoring scene

The invention discloses a pedestrian attribute recognition method based on RESNET \u2011 50 in a monitoring scenario, which includes the following steps: 1) selecting the public data set and monitoring video to build the pedestrian data set; 2) selecting the RESNET \u2011 50 convolutional neural network model as the experimental model; 3) improving the loss function, and proposing the N + 1 prediction method to predict the N / a tag; 4) inputting the training set After improving the loss function of RESNET \u2011 50 convolutional neural network, the pedestrian attribute recognition model is obtained; 5) the test set is input into the pedestrian attribute recognition model for recognition, and the experimental results of the pedestrian attribute recognition model are evaluated; using the RESNET \u2011 50 network structure, the deeper pedestrian attributes can be analyzed, the relationship between attributes can be better mined, and the attributes can be mined A unified multi-attribute joint learning framework is proposed to identify multi-attribute at the same time.

【技术实现步骤摘要】
监控场景下基于ResNet-50的行人属性识别方法
本专利技术涉及模式识别技术、计算机视觉技术等领域,具体的说,是监控场景下基于ResNet-50的行人属性识别方法。
技术介绍
近年来,随着模式识别和计算机视觉的发展,目标识别技术得到了很大的发展,并且在安防领域实现了大量的应用。安防人员通过分布在城市各个角落的监控摄像头,维护着城市安全。如果发生了突发事故,要从海量的监控图像中寻找到需要的信息,必然会损耗大量的人力物力。摄像头监控的主要目标是行人,如果可以实现对行人属性有效的识别,会给监控视频检索工作带来很大的便利。由于这种需求,越来越多的研究人员开始研究行人属性识别。行人属性识别的一种传统识别算法为人工神经网络,它从信息处理角度对人脑神经元网络进行抽象,建立某种简单模型。基于人工神经网络的训练算法为反向传播算法,它使得网络模型经过对大量训练样本进行学习的过程能够获得统计规律,从而对未知事件做出预测。人工神经网络优点在于具有较强的非线性映射能力、自学习和自适应能力、泛化能力和一定的容错能力,但是存在以下缺点,在行人识别样本训练时收敛速度慢,且其训练过程为监督过程,而对训练样本的标注即费时又费力,并且视频行人识别涉及到大量数据的计算和分析,外加一些环境因素的干扰,传统行人属性识别算法无法提取到图像的优越特征,导致识别率有限。在监控场景下,摄像头远距离拍摄行人,造成图片的分辨率较低,大部分图片很模糊,再加上光照变化(白天和夜晚),监控摄像头不同拍摄角度行人姿态的不同变化,现实生活中物体的遮挡等,造成行人是否佩戴眼镜等细粒度的属性很难识别出来,给研究工作带来了极大的挑战性。国内外对监控场景下的行人属性识别的研究工作还是比较少的。Layne是第一个通过支持向量机(SVM)去识别行人属性的。为了解决混合场景下的属性识别问题,Zhu等人引入了行人数据库,并利用增强算法对属性进行识别。Deng等人建了当时最大的行人属性数据库(PETA),利用支持向量机和马尔科夫随机场去进行属性识别。但是这些方法全部是采用人工提取行人特征,这往往需要根据人的经验,经验决定着识别的准确率,除此之外,这些方法把属性之间的联系完全切断开,没有考虑属性之间的相互作用,例如长头发的行人是女性的概率大于是男性的概率。随着计算机视觉的飞快发展,研究人员开始使用卷积神经网络的方法进行特征提取作为行人外观属性特征,取得了很好的成果。公开号为CN107862300A的专利公开了“一种基于卷积神经网络的监控场景下行人属性识别方法”和公开号为CN108460407A的专利公开了“一种基于深度学习的行人属性精细化识别”,但是他们使用的数据集没有N/A标签,属性识别准确度有一定的误差;除此之外,他们使用的卷积神经网络比较简单。目前,行人属性识别主要研究于自然场景和监控场景。自然场景下的研究已经在人脸识别和属性识别取得了很大的成果,然而在自然场景下,由于图像模糊、分辨率差、姿态差异大、光照变化大,研究起来更加具有挑战性。
技术实现思路
本专利技术的目的在于提供监控场景下基于ResNet-50的行人属性识别方法,采用ResNet-50网络结构,可以分析更深层次的行人属性,更好的挖掘属性之间的关系,在挖掘属性之间的关系时,提出了统一的多属性联合学习框架来同时识别多属性。本专利技术通过下述技术方案实现:监控场景下基于ResNet-50的行人属性识别方法,包括以下步骤:1)选用公开数据集和监控视频,将两者混合在一起构建行人数据集;2)选用ResNet-50卷积神经网络模型作为实验模型;3)对loss损失函数进行改进,并提出N+1类预测方法进行N/A标签的预测;4)把训练集输入改进loss损失函数后的ResNet-50卷积神经网络,得出行人属性识别模型;5)将测试集输入到行人属性识别模型中进行识别,对行人属性识别模型的实验结果进行评估。进一步的为更好地实现本专利技术,特别采用下述设置方式:所述步骤1)包括以下具体步骤:1.1)选用公开数据集,并将公开数据集的标签格式在原数据集的基础上增加一个N/A标签;1.2)获取监控视频下的行人视频,将截取的视频帧按照规定的图片命名方式进行命名,并把全部的图片缩放到统一的大小,保存图片文件到指定的文件夹;1.3)利用三个不同的标签值对所有的图片进行标注;1.4)按照广泛采取的实验数据集划分原则,随机的把行人数据集的图片文件分为两部分:分别为训练集和验证集,且训练集和验证集的划分比例为8~9:2~1。进一步的为更好地实现本专利技术,特别采用下述设置方式:所述步骤1.3)采用如下方式对所有的图片进行标注:每一张图片上如果存在行人属性则标签值为1;每一张图片上如果不存在行人属性则标签值为0;每一张图片上如果不能确定是否含有行人属性则标签值为N/A。进一步的为更好地实现本专利技术,特别采用下述设置方式:所述ResNet-50卷积神经网络模型包括1个卷积层、16个buildingblock结构及1个全连接层;所述卷积层和buildingblock结构用来自动提取行人属性特征;全连接层用于组合属性特征,并将输出值输入给softmax分类,且全连接层输出的节点数对应行人属性的类别。进一步的为更好地实现本专利技术,特别采用下述设置方式:所述步骤3)中改进后的loss损失函数为其中N表示行人数据集中图片的数量,L为图片文件中的行人属性的数量,每张图片表示为xi,i∈[1,2,...N],xi对应的行人属性标签向量为yi,yi对应的属性值为yil,yil∈[0,1,N/A],如果yil=1表明这个训练样本xi有这个属性;如果yil=0表明这个训练样本xi没有这个属性;pil1表示xi有第l个属性的概率,pil0表示xi没有第l个属性的概率;yil1是真实属性标签,表示行人样本xi有第l个属性;yil0是真实属性标签,表示行人样本xi没有第l个属性。进一步的为更好地实现本专利技术,特别采用下述设置方式:所述N+1类预测方法采用下述任一种或多种:(1)定义一个区域阈值δ,观察激活函数的输出范围[0,1],当预测为0.5-δ到0.1+δ,将该类归为N/A标签,使用这种方法,任何一个二分类模型都可以扩展为N+1分类器。(2)使用一个标准的softmax损失函数进行训练,输出为N+1类。即我们只需为N/A目标添加一个输出。(3)使用分层softmax的方法,设置两个随机变量A,B,并采用关节的因数分解为:P(A,B)=P(B|A)*P(A),其中,P(A)表示属性是否可决定,P(B)表示属性为真的概率。进一步的为更好地实现本专利技术,特别采用下述设置方式:所述步骤4)包括以下具体步骤:4.1)训练之前,准备大于6G显存的GPU和linux系统环境,搭建pytorch环境;4.2)采用动量梯度下降法作为行人外观属性识别模型训练的优化方式;4.3)设置行人外观属性识别模型训练的图片预处理方式;...

【技术保护点】
1.监控场景下基于ResNet-50的行人属性识别方法,其特征在于:包括以下步骤:/n1)选用公开数据集和监控视频,将两者混合在一起构建行人数据集;/n2)选用ResNet-50卷积神经网络模型作为实验模型;/n3)对loss损失函数进行改进,并提出N+1类预测方法进行N/A标签的预测;/n4)把训练集输入改进loss损失函数后的ResNet-50卷积神经网络,得出行人属性识别模型;/n5)将测试集输入到行人属性识别模型中进行识别,对行人属性识别模型的实验结果进行评估。/n

【技术特征摘要】
1.监控场景下基于ResNet-50的行人属性识别方法,其特征在于:包括以下步骤:
1)选用公开数据集和监控视频,将两者混合在一起构建行人数据集;
2)选用ResNet-50卷积神经网络模型作为实验模型;
3)对loss损失函数进行改进,并提出N+1类预测方法进行N/A标签的预测;
4)把训练集输入改进loss损失函数后的ResNet-50卷积神经网络,得出行人属性识别模型;
5)将测试集输入到行人属性识别模型中进行识别,对行人属性识别模型的实验结果进行评估。


2.根据权利要求1所述的监控场景下基于ResNet-50的行人属性识别方法,其特征在于:所述步骤1)包括以下具体步骤:
1.1)选用公开数据集,并将公开数据集的标签格式在原数据集的基础上增加一个N/A标签;
1.2)获取监控视频下的行人视频,将截取的视频帧按照规定的图片命名方式进行命名,并把全部的图片缩放到统一的大小,保存图片文件到指定的文件夹;
1.3)利用三个不同的标签值对所有的图片进行标注;
1.4)按照广泛采取的实验数据集划分原则,随机的把行人数据集的图片文件分为两部分:分别为训练集和验证集,且训练集和验证集的划分比例为8~9:2~1。


3.根据权利要求2所述的监控场景下基于ResNet-50的行人属性识别方法,其特征在于:所述步骤1.3)采用如下方式对所有的图片进行标注:
每一张图片上如果存在行人属性则标签值为1;
每一张图片上如果不存在行人属性则标签值为0;
每一张图片上如果不能确定是否含有行人属性则标签值为N/A。


4.根据权利要求1所述的监控场景下基于ResNet-50的行人属性识别方法,其特征在于:所述ResNet-50卷积神经网络模型包括1个卷积层、16个buildingblock结构及1个全连接层;所述卷积层和buildingblock结构用来自动提取行人属性特征;全连接层用于组合属性特征,并将输出值输入给softmax分类,且全连接层输出的节点数对应行人属性的类别。


5.根据权利要求1所述的监控场景下基于ResNet-50的行人属性识别方法,其特征在于:所述步骤3)中改进后的loss损失函数为其中N表示行人数据集中图片的数量,L为图片文件中的行人属性的数量,每张图片表示为xi,i∈[1,2,...N],xi对应的行人属性标签向量为yi,yi对应的属性值为yil,yil∈[0,1,N/A]...

【专利技术属性】
技术研发人员:杨晓宇殷光强张裕星向凯殷雪朦
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1