一种面向监控场景的行人人脸超分辨率重建方法技术

技术编号:19345502 阅读:36 留言:0更新日期:2018-11-07 15:08
本发明专利技术提出一种面向监控场景的行人人脸超分辨率重建方法,将行人人脸检测和人脸超分辨率重建统一到一个网络中,实现以端到端的方式输出人脸超分辨率图像,并给出针对行人人脸不可避免的不对齐、含有噪声等问题的解决方法。本发明专利技术分为行人人脸检测部分和人脸超分辨重建部分。给定一张行人的图像,首先利用人脸检测网络生成候选人脸的包围盒,然后将得到的包围盒输入人脸超分辨网络中,生成高分辨率的人脸图像。在联合优化的过程中,人脸检测网络和人脸超分辨网络相互适应。本发明专利技术能够为视频监控的行人再识别技术提供有效的信息,帮助完成寻找特定行人的任务,突破现有再识别中依靠行人外表等属性来区分不同的行人,有效利用关键的人脸信息。

A pedestrian face super resolution reconstruction method for surveillance scenes

The invention provides a pedestrian face super-resolution reconstruction method for monitoring scenes, unifies pedestrian face detection and face super-resolution reconstruction into a network, realizes end-to-end output of face super-resolution images, and provides solutions to the unavoidable misalignment and noise of pedestrian faces. By the way. The invention is divided into a pedestrian face detection part and a face super resolution reconstruction part. Given a pedestrian image, a candidate face bounding box is generated by face detection network, and then the bounding box is input into the face super-resolution network to generate a high-resolution face image. In the process of joint optimization, face detection network and face super resolution network adapt each other. The invention can provide effective information for the pedestrian recognition technology of video surveillance, help to complete the task of finding specific pedestrians, break through the existing re-recognition relying on pedestrian appearance and other attributes to distinguish different pedestrians, and effectively utilize key face information.

【技术实现步骤摘要】
一种面向监控场景的行人人脸超分辨率重建方法
本专利技术涉及视频监控分析
和人脸超分辨重建领域,特别是涉及一种行人人脸检测和人脸超分辨重建领域,具体涉及一种面向监控场景的行人人脸超分辨率重建方法
技术介绍
在大型商场、游乐园等人口密集的公共场所,经常需要从视频监控得到的图像中来查找一些特殊身份的人,而由于行人与摄像头之间的距离较远以及摄像头分辨率有限等原因往往无法识别图像中的行人。人脸作为图像中经常被关注的敏感区域,对特定身份的人的识别起到至关重要的作用,但是从视频监控中获取的低分辨率人脸图像包含信息量比较少,同时伴随着姿态、表情、光照等因素使得提取有效的人脸特征较为困难,增加了人脸识别的难度。因此,如何通过低分辨率的行人图像重建高分辨的行人人脸图像,从而进一步进行识别和应用,一直以来都是监控分析领域和人脸超分辨重建领域中所致力解决的关键问题之一。现有的研究通常把上述问题分为两个独立的子问题:人脸检测和人脸超分辨重建。在视频监控中的人脸检测技术,与传统的对静态图像的人脸检测技术不同,不是人脸迎合摄像头,而是要由摄像头来捕捉人脸,因此,具有更大的挑战。人脸超分辨率重建是一种从低分辨率人脸图像重建出其相应的高分辨率人脸图像的技术。现有的人脸超分辨率方法常假设输入的人脸图像足够大并且是对齐的、无噪声的。而从视频监控中获得的人脸图像常常是含有噪声的、非对齐的、低分辨率图像,导致现有方法的性能会产生较大幅度的下降。2016年,Dong等率先将卷积神经网络引入到图像超分辨率复原的问题中,设计了基于深度卷积神经网络的图像超分辨率复原方法。该方法的主要思想是:以深度学习与传统稀疏编码之间的关系作为依据,将网络分为图像块提取、非线性映射和图像重建三个阶段,再将这三个阶段统一到一个深度卷积神经网络框架中,实现由低分辨率图像到高分辨率图像之间的端到端学习。该方法的重建结果比SCSR(Sparsecodingbasedsuperresolution)方法的结果有较大提高。但是该方法的输入为对齐的、无噪声的低分辨率人脸图像,所以,在实际应用场景中的性能会有大幅度下降。为了弥补从低分辨率的行人图像到高分辨率的人脸图像的差距,同时也为了解决实际中的人脸图像的不对齐、含有噪声的现象所导致重建重影问题,本专利技术提出一种面向视频监控的人脸检测与人脸超分辨重建方法,该网络使用一个端到端网络实现了人脸检测和将非对齐的、含有噪声的人脸的超分辨重建。参考文献:[1]YuX,PorikliF.Hallucinatingverylow-resolutionunalignedandnoisyfaceimagesbytransformativediscriminativeautoencoders[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2017:3760-3768.[2]DongC,LoyCC,HeKM,TangXO.Imagesuperresolutionusingdeepconvolutionalnetworks.IEEETransactionsonPatternAnalysisandMachineIntelligence,2016,38(2):295-307
技术实现思路
针对真实场景视频监控中的人脸识别问题,本专利技术提出一种面向视频监控场景的行人人脸检测和人脸超分辨重建方法,将行人人脸检测和人脸超分辨率重建统一到一个网络中,实现以端到端的方式输出人脸超分辨率图像,并给出针对行人人脸不可避免的不对齐、含有噪声等问题的的解决方法。本专利技术分为两个主要部分:行人人脸检测部分和人脸超分辨重建部分。给定一张行人的图像,首先利用人脸检测网络生成候选人脸的包围盒(boundingboxes),然后将得到的包围盒输入人脸超分辨网络中,生成高分辨率的人脸图像。在联合优化的过程中,人脸检测网络和人脸超分辨网络相互适应。本专利技术能够为视频监控的行人再识别技术提供有效的信息,帮助完成寻找特定行人的任务,突破现有再识别中依靠行人外表等属性来区分不同的行人,有效利用关键的人脸信息。本专利技术是采用以下技术手段实现的:步骤1:数据预处理;视频监控中的静态图像作为输入图像,对输入图像进行预处理,即将输入图像依次进行随机裁剪、尺度变换和水平翻转,得到预处理过的图像样本。步骤2:使用快速消化卷积层得到特征图。步骤2.1:构建包含2个卷积层、2个池化层和含有2个C.ReLU激活函数的快速消化卷积层。步骤2.2:将由步骤1获得的图像样本通过快速消化卷积层,通过卷积层提取特征,再通过C.ReLU,再通过池化层映射特征,获得特征图。步骤3:使用多尺度卷积层获得不同尺度的人脸特征图。步骤3.1:构建Inception模块,该模块包含4个分的卷积层和池化层,第一个分支为核大小为1×1的卷积层,第二个分为依次为核大小为3×3的池化层和1×1的卷积层,第三个分支依次为核大小为1×1的卷积层和3×3的卷积层,第四个分支依次为核大小为1×1的卷积层、3×3的卷积层和3×3的卷积层。步骤3.2:构建包含3个Inception模块和4个卷积层的多尺度卷积层。步骤3.3:将由步骤2获得的特征图通过多尺度卷积层,经过Inception模块和卷积层提取特征,以获取第三个Inception(Inception3)输出的特征图作为第一个特征图,分别以获取第二个(Conv3_2)和第四个卷积层(Conv4_2)的特征作为第二个和第三个特征图。步骤4:利用anchor密集化策略扩充anchor步骤4.1:设置anchor初始尺寸:Inception3层的anchor尺寸为32、64和128像素,卷积层Conv3_2的anchor尺寸为256和512像素,卷积层Conv4_2的anchor尺寸为256和512像素;步骤4.2:计算anchor的密度:其中,Ascale为anchor的尺寸,Ainterval为anchor平移的步长,Adensity为anchor的密度。这里,在Inception3中的Ainterval默认为32、32和32,在Conv3_2中的Ainterval默认为64,在Conv4_2中的Ainterval默认为128;步骤4.3:对密度值不是最高的anchor利用anchor密集化策略进行扩充,得到密度大小相同的anchor:步骤4.3.1:设置Anumber参数,表示anchor扩充的倍数;步骤4.3.2:在每个感受野中心的周围以anchor中心偏移的方式使anchor变为倍。步骤5:获得行人人脸的特征图步骤5.1:将由步骤4获得的每个特征输入分类层和边框回归层:步骤5.1.1:使用Softmax损失函数作为分类器来分类非人脸和人脸,即其中,P(i)为所属类别概率,为模型参数,x为输入,K为分类类别数。此处,K=2,上式可化简为:步骤5.1.2:边框回归层利用下式调整每个anchor区域:其中,x、y、w和h分别为预测框的中心点坐标、宽和高,xa、ya、wa和ha分别表示候选区域框的中心点坐标、宽和高,x*、y*、w*和h*分别表示真实框的中心点坐标、宽和高。tx、ty、tw和th分别为anc本文档来自技高网
...

【技术保护点】
1.一种面向监控场景的行人人脸超分辨率重建方法,其实现过程包括以下步骤:步骤1:数据预处理;视频监控中的静态图像作为输入图像,对输入图像进行预处理,即将输入图像依次进行随机裁剪、尺度变换和水平翻转,得到预处理过的图像样本;步骤2:使用快速消化卷积层得到特征图;步骤2.1:构建包含2个卷积层、2个池化层和含有2个C.ReLU激活函数的快速消化卷积层;步骤2.2:将由步骤1获得的图像样本通过快速消化卷积层,通过卷积层提取特征,再通过C.ReLU,再通过池化层映射特征,获得特征图;步骤3:使用多尺度卷积层获得不同尺度的人脸特征图;步骤3.1:构建Inception模块,该模块包含4个分的卷积层和池化层,第一个分支为核大小为1×1的卷积层,第二个分为依次为核大小为3×3的池化层和1×1的卷积层,第三个分支依次为核大小为1×1的卷积层和3×3的卷积层,第四个分支依次为核大小为1×1的卷积层、3×3的卷积层和3×3的卷积层;步骤3.2:构建包含3个Inception模块和4个卷积层的多尺度卷积层;步骤3.3:将由步骤2获得的特征图通过多尺度卷积层,经过Inception模块和卷积层提取特征,以获取第三个Inception(Inception3)输出的特征图作为第一个特征图,分别以获取第二个(Conv3_2)和第四个卷积层(Conv4_2)的特征作为第二个和第三个特征图;步骤4:利用anchor密集化策略扩充anchor步骤4.1:设置anchor初始尺寸:Inception3层的anchor尺寸为32、64和128像素,卷积层Conv3_2的anchor尺寸为256和512像素,卷积层Conv4_2的anchor尺寸为256和512像素;步骤4.2:计算anchor的密度:...

【技术特征摘要】
1.一种面向监控场景的行人人脸超分辨率重建方法,其实现过程包括以下步骤:步骤1:数据预处理;视频监控中的静态图像作为输入图像,对输入图像进行预处理,即将输入图像依次进行随机裁剪、尺度变换和水平翻转,得到预处理过的图像样本;步骤2:使用快速消化卷积层得到特征图;步骤2.1:构建包含2个卷积层、2个池化层和含有2个C.ReLU激活函数的快速消化卷积层;步骤2.2:将由步骤1获得的图像样本通过快速消化卷积层,通过卷积层提取特征,再通过C.ReLU,再通过池化层映射特征,获得特征图;步骤3:使用多尺度卷积层获得不同尺度的人脸特征图;步骤3.1:构建Inception模块,该模块包含4个分的卷积层和池化层,第一个分支为核大小为1×1的卷积层,第二个分为依次为核大小为3×3的池化层和1×1的卷积层,第三个分支依次为核大小为1×1的卷积层和3×3的卷积层,第四个分支依次为核大小为1×1的卷积层、3×3的卷积层和3×3的卷积层;步骤3.2:构建包含3个Inception模块和4个卷积层的多尺度卷积层;步骤3.3:将由步骤2获得的特征图通过多尺度卷积层,经过Inception模块和卷积层提取特征,以获取第三个Inception(Inception3)输出的特征图作为第一个特征图,分别以获取第二个(Conv3_2)和第四个卷积层(Conv4_2)的特征作为第二个和第三个特征图;步骤4:利用anchor密集化策略扩充anchor步骤4.1:设置anchor初始尺寸:Inception3层的anchor尺寸为32、64和128像素,卷积层Conv3_2的anchor尺寸为256和512像素,卷积层Conv4_2的anchor尺寸为256和512像素;步骤4.2:计算anchor的密度:其中,Ascale为anchor的尺寸,Ainterval为anchor平移的步长,Adensity为anchor的密度;这里,在Inception3中的Ainterval默认为32、32和32,在Conv3_2中的Ainterval默认为64,在Conv4_2中的Ainterval默认为128;步骤4.3:对密度值不是最高的anchor利用anchor密集化策略进行扩充,得到密度大小相同的anchor:步骤4.3.1:设置Anumber参数,表示anchor扩充的倍数;步骤4.3.2:在每个感受野中心的周围以anchor中心偏移的方式使anchor变为倍;步骤5:获得行人人脸的特征图步骤5.1:将由步骤4获得的每个特征输入分类层和边框回归层:步骤5.1.1:使用Softmax损失函数作为分类器来分类非人脸和人脸,即其中,P(i)为所属类别概率,为模型参数,x为输入,K为分类类别数;此处,K=2,上式可化简为:步骤5.1.2:边框回归层利用下式调整每个anchor区域:其中,x、y、w和h分别为预测框的中心点坐标、宽和高,xa、ya、wa和ha分别表示候选区域框的中心点坐标、宽和高,x*、y*、w*和h*分别表示真实框的中心点坐标、宽和高;tx、ty、tw和th分别为anchor的偏移量,即分别为anchor中心点坐标的平移量和anchor宽和高的平移量;和分别为候选区域与真实框之间的中心坐标的平移量、宽和高的平移量;步骤5.2:获得分类标签为人脸的特征:对分类为非人脸的特征图进行去除,仅保留分类为人脸的特征图;步骤6:将特征通过RoIPooling层获得大小一致的特征图:为了将图像中的anchor定位到特征图中对应部分和获得大小一致的特征图,将由步骤5获得人脸的特征图,通过RoIPooling层,获得大小一致的特征图,即低分辨率人脸特征图;步骤7:利用变换区分解码模块获得中间的高分辨率人脸全文中低分辨率与高分辨为相对概念,其中低分辨率是由于摄像头设备造成的,即摄像头设备采集监控图像中的人脸则处于低分辨率的水平;高分辨率是通过重建方法提高分辨率来获得高分辨率人脸;步骤7.1:变换区分解码模块包含两个部分:一个对齐上采样模块和一个区分模块;其中,对齐上采样模块依次包含STN模块、反卷积层、STN模块、反卷积层和卷积层,用于生成高分辨率的人脸图像;区分模块依次包含多个卷积层、池化层和全连接层,用于判断输入的高分辨率人脸图像是真实的人脸还是通过高分辨率重建方法重建的人脸;步骤7.1.1:使用STN对齐图像得到对齐的特征图:构建STN,STN包含一个网格生成模块和一个双线性采样器;其中,网格生成网络用于回归出一组六维的变换参数θ,并使用该参数生成网格,其中仿射变换公式如下:其中,为输出特征图上的坐标,为输入特征图上的坐标,θ11、θ12、θ21和θ22是缩放和旋转变换的参数,θ13和θ23是平移变换的参数;双线性采样器的公式如下:其中,为输出特征图的通道c上位置(m,n)的像素值,为输入特征图的通道c上位置(xs,ys)的像素值;若(xt,yt)与(m,n)很接近,即若|xt-m|<1且|yt-n|<1,则在(xs,ys)位置插入步骤7.1.2:使用反卷积得到高分辨率人脸:该层在这里相当于进行上采样的操作;通过调整步长来实现对采样因子的调整,两次反卷积分别采用3×3和5×5大小的核;该过程由下面公式表示:F=σ(Wd·FSTN+B)其中F代表反卷积层的输出,σ代表激活函数,Wd代表反卷积层的权重参数,表示反卷积操作,FSTN为STN输出的特征,B为偏置;步骤7.1.3:使用区分模块进行分类:该区分模块的输入为由对齐上采样模块重建的高分辨率人脸图像,该图像通过多个卷积层和最大池化层,然后通过多个全连接层进行二分类操作;步骤7.2:将由步骤6获得的低分辨率人脸特征图通过由步骤7.1构建的对齐上采样模块获得粗略对齐的高分辨率人脸特征步骤8:利用变换编码模块获得对齐的无噪声的低分辨率人脸特征步骤8.1:依次使用两组卷积层和最大池化层、STN模块、卷积层、最大池化层和STN构建变换编码模块;步骤8.2:将由步骤7所生成的中间的高分辨人脸特征图通过区分模块生成无噪声、对齐的低分辨率人脸图像;步骤9:利用变换区分解码模块获得最终的高分辨率人脸步骤9.1:变换区分解码模块包含两个部分:一个对齐上采样模块和一个区分模块;其中,对齐上采样模块依次包含STN模块、反卷积层、STN模块、反卷积层和卷积层,用于生成高分辨率的人...

【专利技术属性】
技术研发人员:杨金福王美杰张京玲李明爱许兵兵
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1