当前位置: 首页 > 专利查询>南京大学专利>正文

基于分部件和压缩字典稀疏表示的低分辨率人脸识别方法技术

技术编号:21200821 阅读:50 留言:0更新日期:2019-05-25 01:31
本发明专利技术公开了基于分部件和压缩字典稀疏表示的低分辨率人脸识别方法,属于信号处理、模式识别、机器学习、计算机视觉领域。本发明专利技术构造字典时挑选视频中能稀疏表示所有视频帧的图像作为代表帧,然后使用这些代表帧与其镜像的HOG特征构造部件字典。测试时,用字典线性表示测试视频的每一帧,并增加反馈机制更正异常的识别结果,最后投票获得视频分类的结果。发明专利技术将稀疏表示应用到视频人脸识别中,保持了稀疏表示对遮挡和噪声的鲁棒性,并加入其它步骤提高它在较大规模的低分辨率视频人脸识别中的效果和效率,弥补它在光照变化等条件下的不足。

Low Resolution Face Recognition Based on Sparse Representation of Component and Compressed Dictionary

The invention discloses a low resolution face recognition method based on the sparse representation of component and compressed dictionary, which belongs to the fields of signal processing, pattern recognition, machine learning and computer vision. When constructing a dictionary, an image sparsely representing all video frames in a video is selected as a representative frame, and then a component dictionary is constructed using the HOG features of these representative frames and their mirrors. In the test, each frame of the test video is linearly represented by a dictionary, and a feedback mechanism is added to correct the anomaly recognition results. Finally, the results of video classification are obtained by voting. The invention applies sparse representation to video face recognition, maintains the robustness of sparse representation to occlusion and noise, and adds other steps to improve its effectiveness and efficiency in large-scale low-resolution video face recognition, to make up for its deficiencies under the conditions of illumination changes.

【技术实现步骤摘要】
基于分部件和压缩字典稀疏表示的低分辨率人脸识别方法
本专利技术属于信号处理、模式识别、机器学习、计算机视觉领域,尤其涉及基于分部件和压缩字典稀疏表示的低分辨率人脸识别方法。
技术介绍
20世纪后期开始,硬件的发展迅速,数字图像成为当代社会的重要信息携带品。随着计算机视觉技术的不断发展,越来越多的技术成为了实际应用的产品。人脸识别是基于人的面部特征信息进行身份识别的一种生物识别技术,它具有非侵扰性,便捷性,非接触性等优点。人脸识别技术发展非常迅速,特别是深度神经网络的问世让机器人脸识别近似于甚至超过人眼的识别能力。但虽然在正常的环境中,如光照良好,人的姿势不变情况下人脸识别技术表现优异,在光照差、人体姿势偏转幅度大、遮挡等情况下,人脸识别技术还期待提高。与图像相比,视频含有时序、动作等更多的信息,有助于提高人脸识别准确率,从而越来越受到关注。但是视频设备虽然变得普及,视频的获取也越来越容易,视频的分辨率却不如图像的分辨率高。尤其是监控视频中的人脸识别是一个很重要的应用场景,而它的分辨率又比一般的视频更低,光照、姿态等也更差。因此,视频人脸识别不止面临着和图像人脸识别同样的问题,还带有低分辨率的问题。现有的视频人脸识别方法通常分为两种,一种方法对整段视频进行建模,然后通过度量两个模型之间的距离进行人脸识别。比如讲提取一段视频的统计属性,或者将视频建模为几个高斯分布的集合,又或者求视频的凸包,这种方法往往计算复杂,训练耗时,且对短视频的识别效果较差。另一种方法对每一帧图像进行识别,然后融合所有帧的识别结果。这种方法在长视频识别中效率较低但在短视频的人脸识别中具有优势,同时它能与最先进的图像人脸识别方法结合从而提高准确率,且在需要输出单帧的中间结果的场景下不可被替代。稀疏表示、协同表示方法都是单帧图像识别中表现优异的方法,结合到视频识别中也取得了不错的结果。但容易发现稀疏表示的字典大小影响识别速度,字典内容影响识别准确性。所以近年来,人们常通过改进字典来提高稀疏表示方法的效果。为了让字典变得紧凑,可以使用两种方法。一种方法使用优化方法从全部的训练图像中构建一个字典,这一类方法每次加入新的训练样本都需要重新进行训练,使训练集更新困难。另一种让字典变得紧凑的方法是从原始的训练图像集中挑选能代表整个几集合的子集。相比字典学习方法,这一类方法仍然使用一张图像代表一个原子,当新的训练图像出现时可以直接插入到字典中,免去重新训练的繁琐步骤。针对图像中的识别难点,也有不同的使用稀疏表示方法的解决方案被提出。比如对不同姿势的测试集使用不同姿势的字典,提高了计算效率,但受限于姿势判断方法。
技术实现思路
针对现有技术的不足,本专利技术提供了基于分部件和压缩字典稀疏表示的低分辨率人脸识别方法,包含以下步骤:步骤1,用样本库为稀疏表示构造字典;步骤2,基于字典进行人脸识别,得到分类结果。步骤1包括:步骤1-1,将人的任意段视频加入样本库;步骤1-2,将样本库的视频按照每秒f(一般为30)帧的帧率拆分成图像,再使用seetaface算法检测所有图像的人脸位置,将人脸位置的图像截取出来,调整为统一的32*40像素大小,最后进行灰度化和Gamma校正(伽马校正)图像处理,seetaface算法具有检测速度快,人脸定位准确的优点,Gamma校正能调整图像质量,增强光照鲁棒性。步骤1-3,若样本库中的人的数量大于n1(一般为100),则将样本库按照视频加入顺序均分为不超过n1的小组,若人数少于n1则不需要分组,每一个分组经过关键帧挑选形成分组小样本库G。因为稀疏表示方法的效率和结果受字典大小影响,若字典中的类别超过n1,求解一次稀疏系数的时间将过长。步骤1-4,将小样本库G中的图像进行镜像处理,即将图像水平翻转然后获得其镜像图像,然后将镜像图像也加入小样本库G中,直接提取小样本库G中所有图像的HOG特征(方向梯度直方图,HistogramofOrientedGradient,HOG),形成分组整体字典D′,然后小样本库G中的图像分为上下左右四个部件,每一个部件的横纵分别占图像横纵的2/3,计算每一个部件的HOG特征,将同位置部件的特征向量直接拼接起来,使用PCA算法(主成分分析,PrincipalComponentsAnalysis,PCA)降维至120维,形成4个部件字典分别为sDic1,sDic2,sDic3,sDic4,每个分组拥有4个部件字典和一个整体字典。考虑到实际环境中有很多摄像机拍摄的图像自动进行了镜像,所以在样本库中加入镜像图像能解决这一问题。分部件是为了当某个部件出现遮挡时,将该部件的权重置为0,使之不参与帧的分类决策。步骤1-2中,所述灰度化采用如下公式:Gray=0.299*R+0.587*G+0.114*B其中Gray表示图像的灰度值,R表示红色通道像素值,G代表绿色通道像素值,B代表蓝色通道像素值。图像灰度化后,进行Gamma校正,取Gamma系数为2.2。Gamma校正能帮助处理光照变化下的人脸识别。步骤1-3包括:步骤1-3a,从经过步骤1-1和1-2处理后的视频中随机选择n2(一般取值为1~10)帧作为初始的帧,这些帧直接加入到小样本库G中,提取这些帧的HOG特征,每一帧的HOG特征是一个向量,将这些向量直接拼接,形成稀疏表示方法中的字典D1。HOG特征具有很好的几何和光学转化不变性,对表情变化具有优势。步骤1-3b,使用PCA主成分分析算法,将字典D1中的每一个向量压缩成为120维的向量,形成一个压缩后的字典D2;降维能大幅度减少稀疏表示求解的时间,提高识别的效率。步骤1-3c,遍历未被选择的帧,使用稀疏表示分类方法处理每一帧图像,计算出步骤1-3b得到的字典D2中的单独的每一类图像重建测试图像的重建误差,若重建误差大则把图像加入到小样本库G中,并提取图像的HOG特征插入到字典D2,循环执行本步骤,直到所有帧都被处理。步骤1-3c中的稀疏表示方法具体包括如下步骤:步骤al,设定样本库中的视频的所有帧的集合为X,执行步骤1-2,1-3a,1-3b后得到一个压缩过的字典D2;步骤a2,遍历步骤1-3a未处理过的帧,将帧集合记为Y1,其中Y1=[y1,y2,...,yM],M表示未处理过的帧的数量,ym表示第m个未处理过的帧,m取值为1~M,Y1集合中的每一帧ym满足关系:ym=D2·W+E,其中,W为使用字典D2线性表示帧ym时的稀疏系数,E为残差项,约束W使表示yrn的系数尽量稀疏,则问题写为:minW||W||1s.t.||ym-D2·W||2≤ε其中ε(一般取值为0.001)是预先定义的较小的常量,表示重建图像与真实图像之间的误差应小于这个常量;步骤a3,使用dual-ALM(dual-AugmentedLagrangianMethods对偶问题的增广拉格朗日乘子法)算法求出W,用Wi表示W对应D2中第i个类别的系数值,然后计算每一帧图像对每一个类别的重建误差,第m个未处理过的帧ym对第i个类别的重建误差Res的计算公式为:记r为第m个未处理过的帧ym对应所有类别里最小的重建误差,即:若r>0.8,则将这一帧图像加入到小样本库G中,并将这一帧图像的HOG特征插入到字典D2;步骤a4,循环执行步骤a2和步本文档来自技高网
...

【技术保护点】
1.基于分部件和压缩字典稀疏表示的低分辨率人脸识别方法,其特征在于,包含以下步骤:步骤1,用样本库为稀疏表示构造一个字典;步骤2,基于字典进行人脸识别,得到分类结果。

【技术特征摘要】
1.基于分部件和压缩字典稀疏表示的低分辨率人脸识别方法,其特征在于,包含以下步骤:步骤1,用样本库为稀疏表示构造一个字典;步骤2,基于字典进行人脸识别,得到分类结果。2.如权利要求1所述的方法,其特征在于,步骤1包括:步骤1-1,将需要识别的人的任意视频加入样本库;步骤1-2,将样本库的视频按照每秒f帧的帧率拆分成图像,再使用seetaface算法检测所有图像的人脸位置,将人脸位置的图像截取出来,调整为统一的32*40像素大小,最后进行灰度化和Gamma校正图像处理;步骤1-3,若样本库中的人的总数量大于n1,则将样本库按照视频添加的顺序均分为不超过n1的小组,若人数少于n1则不需要分组,每一个分组经过关键帧挑选形成分组小样本库G;步骤1-4,将每个分组的小样本库G中的图像进行镜像处理,即水平翻转图像获得其镜像图像,然后将镜像图像也加入小样本库G中,直接提取小样本库G中所有图像的HOG特征,形成分组整体字典D′,然后小样本库G中的图像分为上下左右四个部件,每一个部件的横纵分别占图像横纵的2/3,计算每一个部件的HOG特征,将同位置部件的特征向量直接拼接起来,使用PCA算法降维至120维,形成4个部件字典分别为sDic1,sDic2,sDic3,sDic4,最后每个分组拥有4个部件字典和一个整体字典。3.如权利要求2所述的方法,其特征在于,步骤1-2中,所述灰度化采用如下公式:Gray=0.299*R+0.587*G+0.114*B其中Gray表示图像的灰度值,R表示红色通道像素值,G代表绿色通道像素值,B代表蓝色通道像素值。4.如权利要求2所述的方法,其特征在于,步骤1-3包括:步骤1-3a,从经过步骤1-1和1-2处理后的视频中随机选择n2帧作为初始的帧,这些帧直接加入到小样本库G中,提取这些帧的HOG特征,每一帧的HOG特征是一个向量,将这些向量直接拼接,形成稀疏表示方法中的字典D1;步骤1-3b,使用PCA主成分分析算法,将字典D1中的每一个向量压缩成为120维的向量,形成一个压缩后的字典D2;步骤1-3c,遍历未被选择的帧,使用稀疏表示分类方法处理每一帧图像,计算出用字典D2中的单独的每一类图像重建测试图像的重建误差,若重建误差大则把图像加入到小样本库G中,并提取图像的HOG特征插入到字典D2,循环执行本步骤,直到所有帧都被处理。5.如权利要求4所述的方法,其特征在于,步骤1-3c中所述的稀疏表示分类方法具体包括如下步骤:步骤a1,设定样本库中的视频的所有帧的集合为X,执行步骤1-2,1-3a,1-3b后得到一个压缩过的字典D2;步骤a2,遍历步骤1-3a中未处理过的帧,将帧集合记为Y1,其中Y1=[y1,y2,…,yM],M表示未处理过的帧的数量,ym表示第m个未处理过的帧,m取值为1~M,Y1集合中的每一帧ym满足关系:ym=D2·W+E,其中,W为使用字典D2线性表示帧ym时的稀疏系数,E为残差项,约束W使表示ym的系数尽量稀疏,则问题写为:minW‖W‖1s.t.‖ym-D2·W‖2≤ε其中ε是预先定义的较小的常量,表示重建图像与真实图像之间的误差应小于这个常量;步骤a3,使用dual-ALM算法求出W,用Wi表示W对应D2中第i个类别的系数值,然后计算每一帧图像对每一个类别的重建误差,第m个未处理过的帧ym对第i个类别的重建误差Res的计算公式为:记r为第m个未处理过的帧ym对应的所有类别里最小的重建误差,即:若r>0.8,则将这一帧图像加入到小样本库G中,并将这一帧图像的HOG特征插入到字典D2;步骤a4,循环执行步骤a2和步骤a3,直到所有的帧被处理完。6.如权利要求5所述的方法,其特征在于,步骤2包括:步骤2-1,输入一段测试视频,使用步骤1-2中相同的方式对其进行预处理,即将测试视频按照每秒f帧的帧率拆分成图像,再使用seetaface算法检测所有图像的人脸位置,将人脸位置的图像截取出来,调整为统一的32*40像素大小,最后进行灰度化和Gamma校正图像处理;步骤2-2,分别提取每一个人的所有图像的整张人脸的整体HOG特征,再按照步骤1-4中的分部件方法,将所有图像分为4个部件并提取4个部件的HOG特征,整张人脸的特征和部件特征都使用PCA算法降维到120维,以列向量的形式存储;步骤2-3,随机从测试帧中挑选n3帧图像,根据步骤2-2计算这些帧的整体HOG特征,然后与步骤1-3构造的所有的分组整体字典D′...

【专利技术属性】
技术研发人员:肖琼琳杨若瑜李俊
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1