基于条件生成对抗网络的多监控视频人脸合成正脸的方法技术

技术编号:18895716 阅读:73 留言:0更新日期:2018-09-08 11:32
本发明专利技术公开了一种基于条件生成对抗的多监控视频人脸合成正脸的方法,包括采集监控视频中的无约束偏转角度人脸和正脸,筛选出正脸,得到无约束偏转角度人脸图像数据集和正脸图像数据集,并对每一个人的人脸图像数据集进行标注;对每个人的正脸图像数据集进行人脸对齐;构建条件生成对抗网络,采用对抗训练的策略对生成器模型和卷积神经网络判决器模型进行训练,直到条件生成对抗网络收敛稳定,最后将同一监控视频捕捉到的人脸图像输入训练好的生成器输入,得到一张正脸图像。

Method for face synthesis of multiple surveillance video based on condition generation against network

The invention discloses a method of face synthesis based on conditional generation confrontation for multi-monitor video, which includes collecting unconstrained deflection angle face and face in monitoring video, screening face, obtaining unconstrained deflection angle face image data set and face image set, and processing face image data for each person. Set labeling; face alignment for each person's face image data set; construct a conditional generation confrontation network, and train the generator model and convolutional neural network decision model with the strategy of confrontation training until the conditional generation confrontation network converges and stabilizes, and finally captures the face image from the same surveillance video. Input a trained generator, and get a face image.

【技术实现步骤摘要】
基于条件生成对抗网络的多监控视频人脸合成正脸的方法
本专利技术涉及视频图像处理技术,具体涉及基于条件生成对抗网络的多监控视频人脸合成正脸的方法。
技术介绍
近年来,随着深度学习与大数据的蓬勃发展,在图像处理领域,特别是人脸识别领域得到了快速的发展,获得了比传统方法更好的准确率,在某些数据库上的性能已经超过了人类。目前的算法大多针对正面姿态的人脸识别问题,但对于偏转人脸的识别却还没有一个较好的解决方案。在监控视频安防领域,由于监控视频中被识别的人处于无约束状态,包括低头或者各种角度的人脸偏转情况,因此监控摄像头捕捉到的人脸往往是处于各种偏转角度下,严重降低了人脸识别及认证的结果。因此,解决无约束角度偏转的人脸识别问题,对监控视频安防具有重大意义。由于在监控视频下的同一个运动事件中,监控摄像头能够捕捉到属于同一个人的多张不同角度人脸图像。这些不同角度的人脸图像,携带着人脸丰富的信息与特征。如何将这些在监控视频下具有相同环境条件的多张无约束角度偏转人脸的特征利用起来提升人脸识别的性能,成为当前智能监控视频安防领域的关键问题。
技术实现思路
为了克服现有技术存在的缺点与不足,本专利技术提供基于条件生成对抗网络的多监控视频人脸合成正脸的方法。本专利技术采用如下技术方案:一种基于条件生成对抗网络的多监控视频人脸合成正脸的方法,包括如下步骤:S1采集监控视频中的无约束偏转角度人脸,并将同一个人的脸归为一类,筛选出正脸,得到无约束偏转角度人脸图像数据集和正脸图像数据集,并对每一个人的人脸图像数据集进行标注;S2对每个人的正脸图像数据集根据人脸关键点进行仿射变换实现人脸对齐;S3构建条件生成对抗网络,所述条件生成对抗网络包括用于生成正脸图像的基于多输入自动编码器的生成器模型和用于评价合成图像质量的基于局部感受野评分的卷积神经网络判决器模型;S4采用对抗训练的策略对生成器模型和卷积神经网络判决器模型进行训练,直到条件生成对抗网络收敛稳定;S5将N张同一监控视频片段下捕捉到的无约束偏转角度的人脸作为S4中已经训练好的生成器的输入,得到一张跟输入人脸图像同属于一个人的正脸图像。所述人脸对齐关键点包括眼睛、鼻子、嘴巴及轮廓,人脸对齐具体是正脸图像的左眼和右眼位于同一水平线上。所述S2还包括图像预处理,具体包括将无约束偏转角度人脸图像数据集中的图像转化为灰度图,正脸图像集中的正脸图像保持RGB彩色图像,并将图像尺寸放大到M×M像素,放大后的图像作为生成器模型的输入。所述基于多输入自动编码器的生成器模型由输入层、编码层、解码层及卷积映射层构成,输入层将N张输入图像组合成一个N通道的数据层,输入层连接编码层,编码层连接解码层,解码层输出连接卷积映射层,最后输出正脸图像。所述S3中,所述卷积神经网络判决器模型是将生成器模型合成的正脸和属于同一个人的正脸分别与生成器的输入人脸图像构成两个训练样本,分别作为卷积神经网络判决器的输入,根据这两个训练样本得到两个评价分,将两个评价分求和为判别器输出。条件生成网络的损失函数为:生成器的损失:LG=E[log(1-D(x,G(x,z)))]+λE[||y-G(x,z)||1]判决器的损失:LD(D,G)=E[log(D(x,y))]+E[log(1-D(x,G(x,z)))]总的损失也就是条件生成网络的损失:y指的是真实正脸图像,G(x,z)指的是生成器合成的图像,D(x,y)为判别器的损失,Ll1(G)=λE[||y-G(x,z)||1]为条件变量,L为条件生成对抗网络的总损失,λ是一个设置的参数,表示L1损失的权重,选为100,生成器损失指来自于合成图像-输入图像对的评价分,判决器的损失指判决器得到2个评价分的和,L表示总的损失,包含L1损失。所述局部感受野评分具体是根据判别器模型最后一层数据进行求平均值得到的,所述局部感受野是将判别器最后一层的每一维数据作为一个感受野。所述条件生成对抗网络收敛稳定:条件生成对抗网络总损失L,判别器的损失D(x,y),生成器的损失G(x,z)和Ll1(G)趋于稳定,所述稳定为损失达到一定值不再改变。无约束偏转角度的人脸是连续帧捕捉到的人脸或者同一个运动事件内非连续帧捕捉的人脸。所述S1中,对人脸图像数据集进行标注,按顺序从0到n添加标签,n为图像集中的人数减1。本专利技术的有益效果:本方法通过构建基于多输入自动编码器的生成器模型和基于局部感受野评分的卷积神经网络判决器模型组合成一个条件生成对抗网络,用来实现由多张监控视频人脸合成正脸,充分利用了监控视频中多张人脸的信息和特征,提高了监控视频安防中人脸识别性能。附图说明图1是本专利技术的工作流程图;图2是本专利技术的卷积神经网络判决器模型结构图;图3是局部感受野评分的流程图。具体实施方式下面结合实施例及附图,对本专利技术作进一步地详细说明,但本专利技术的实施方式不限于此。实施例如图1-图3所示,一种基于条件生成对抗网络的多监控视频人脸合成正脸的方法,包括如下步骤:S1采集监控视频中的无约束偏转角度人脸,并将同一个人的脸归为一类,筛选出正脸,得到无约束偏转角度人脸图像数据集和正脸图像数据集,并对每一个人的人脸图像数据集进行标注,按顺序从0到n添加标签,n为图像集中的人数减1。S2对监控视频中的图像进行预处理,将非正脸图像转化为灰度图,正脸图像保持原来的RGB彩色图像,使用双线性插值算法对图像进行放大。图像放大后的尺寸优选为256x256像素。然后对每个人的正脸图像数据集根据人脸关键点进行仿射变换实现人脸对齐;优选人脸的5点或68点关键点利用仿射变换实现人脸对齐。所述的人脸关键点为眼睛,鼻子,嘴巴,轮廓等关键点。对齐后的正脸图像的左眼和右眼应处于同一水平线上。S3构建条件生成对抗网络,所述条件生成对抗网络包括用于生成正脸图像的基于多输入自动编码器的生成器模型和用于评价合成图像质量的基于局部感受野评分的卷积神经网络判决器模型;所述基于多输入自动编码器的生成器模型由输入层、编码层、解码层及卷积映射层构成,输入层将N张输入图像组合成一个N通道的数据层,输入层连接编码层,编码层连接解码层,解码层输出连接卷积映射层,最后输出正脸图像。此处的N优选为3。无约束偏转角度人脸图像可以是视频中连续帧获取的人脸图像,也可以是非连续帧非同一运动事件中获取的人脸图像,但这3张人脸图像需要属于同一个人。基于多输入自动编码器的生成器的编码模块基本结构由8个基于Conv-BatchNorm-LeakyRelu的子模块组成。每个子模块的滤波器数目分别是64-128-256-512-512-512-512-512。生成器的解码模块基本结构由8个基于DeConv-BatchNorm-Relu的子模块组成。每个子模块的滤波器数目分别是512-512-512-512-512-256-128-64。根据生成器模型的这个设置,训练过程中生成器的每一次迭代计算,选取属于同一个人的无约束偏转角度人脸图像的任意3张组合,生成器在此设置下将合成一张40x40像素的正脸图像。所述卷积神经网络判决器模型是将生成器模型合成的正脸和属于同一个人的正脸分别与生成器的输入人脸图像构成两个训练样本,分别作为卷积神经网络判决器的输入,根据这两个训练样本得到两个评价分,两个评价分求和为输出。两个评价分分别来本文档来自技高网...

【技术保护点】
1.一种基于条件生成对抗网络的多监控视频人脸合成正脸的方法,其特征在于,包括如下步骤:S1采集监控视频中的无约束偏转角度人脸,并将同一个人的脸归为一类,筛选出正脸,得到无约束偏转角度人脸图像数据集和正脸图像数据集,并对每一个人的人脸图像数据集进行标注;S2对每个人的正脸图像数据集根据人脸关键点进行仿射变换实现人脸对齐;S3构建条件生成对抗网络,所述条件生成对抗网络包括用于生成正脸图像的基于多输入自动编码器的生成器模型和用于评价合成图像质量的基于局部感受野评分的卷积神经网络判决器模型;S4采用对抗训练的策略对生成器模型和卷积神经网络判决器模型进行训练,直到条件生成对抗网络收敛稳定;S5将N张同一监控视频片段下捕捉到的无约束偏转角度的人脸作为S4中已经训练好的生成器的输入,得到一张跟输入人脸图像同属于一个人的正脸图像。

【技术特征摘要】
1.一种基于条件生成对抗网络的多监控视频人脸合成正脸的方法,其特征在于,包括如下步骤:S1采集监控视频中的无约束偏转角度人脸,并将同一个人的脸归为一类,筛选出正脸,得到无约束偏转角度人脸图像数据集和正脸图像数据集,并对每一个人的人脸图像数据集进行标注;S2对每个人的正脸图像数据集根据人脸关键点进行仿射变换实现人脸对齐;S3构建条件生成对抗网络,所述条件生成对抗网络包括用于生成正脸图像的基于多输入自动编码器的生成器模型和用于评价合成图像质量的基于局部感受野评分的卷积神经网络判决器模型;S4采用对抗训练的策略对生成器模型和卷积神经网络判决器模型进行训练,直到条件生成对抗网络收敛稳定;S5将N张同一监控视频片段下捕捉到的无约束偏转角度的人脸作为S4中已经训练好的生成器的输入,得到一张跟输入人脸图像同属于一个人的正脸图像。2.根据权利要求1所述的多监控视频人脸合成正脸的方法,其特征在于,所述人脸对齐关键点包括眼睛、鼻子、嘴巴及轮廓,人脸对齐具体是正脸图像的左眼和右眼位于同一水平线上。3.根据权利要求1所述的多监控视频人脸合成正脸的方法,其特征在于,所述S2还包括图像预处理,具体包括将无约束偏转角度人脸图像数据集中的图像转化为灰度图,正脸图像集中的正脸图像保持RGB彩色图像,并将图像尺寸放大到M×M像素,放大后的图像作为生成器模型的输入。4.根据权利要求1所述的多监控视频人脸合成正脸的方法,其特征在于,所述基于多输入自动编码器的生成器模型由输入层、编码层、解码层及卷积映射层构成,输入层将N张输入图像组合成一个N通道的数据层,输入层连接编码层,编码层连接解码层,解码层输出连接卷积映射层,最后输出正脸图像。5.根据权利要求1所述的多监控视频人脸合成正脸的方法,其特征在于,所述S3中,所述卷积神经网络判决器模型是将生成器模型合成的正脸和属于同...

【专利技术属性】
技术研发人员:贺前华陈柱良李黎晗
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1