基于嵌入式系统小规模卷积神经网络模块的人脸检测和头部姿态角评估技术方案

技术编号:17667771 阅读:70 留言:0更新日期:2018-04-11 06:08
提供了基于使用小规模硬件CNN模块的人脸检测和头部姿态角评估联合系统的多个示例,该小规模硬件CNN模块例如为海思半导体的Hi3519芯片中的内嵌CNN模块。在一些实施例中,本申请公开的人脸检测和头部姿态角评估联合系统用于联合执行多重任务:检测一序列视频帧中大多或所有人脸、为该已检测人脸生成姿态角评估、在该序列视频帧中跟踪同一个人的已检测人脸,并生成被跟踪人的“最佳姿态”评估。人脸检测和姿态角评估联合系统可在资源有限的嵌入式系统中实现,如仅集成有一个或多个小规模CNN模块的智能摄像头系统。本申请提出的系统与基于子图像的技术结合,实现了采用小规模低成本CNN模块对高分辨率输入图像执行多重人脸检测和人脸识别任务。

Face detection and head attitude angle evaluation based on small scale convolution neural network module of embedded system

Provides a number of examples of detection and head pose using small scale hardware module CNN evaluation system based on the joint angle, the small scale hardware CNN module such as Hi3519 chip Hass semiconductor embedded in the CNN module. In some embodiments, face detection and head pose of the disclosed system for evaluation of joint angle joint implementation of multiple tasks: most or all of the face, face detection has been generated in the sequence of evaluation, attitude angle in the video frame tracking of the same person has face detection detection in a sequence of video frames, and generating the best attitude tracking evaluation. The joint system of face detection and attitude angle assessment can be implemented in embedded systems with limited resources, such as the integration of one or more small scale CNN modules. The proposed system is combined with sub image technology to implement multiple face detection and face recognition tasks based on small and low-cost CNN modules.

【技术实现步骤摘要】
基于嵌入式系统小规模卷积神经网络模块的人脸检测和头部姿态角评估优先权要求及相关专利申请本专利申请为正在审查中的美国专利申请15/657,109(申请名称:基于嵌入式系统小规模卷积神经网络模块的人脸识别(FaceDetectionUsingSmall-scaleConvolutionalNeuralNetwork(CNN)ModulesforEmbeddedSystems);申请日:2017年7月21日)的部分继续申请,并且依照35U.S.C.120,要求该正在审查中的美国专利申请15/657,109的优先权。该正在审查中的美国专利申请15/657,109依照35U.S.C.119(e),要求美国临时专利申请62/428,497(申请名称:基于有限分辨率小规模CNN模块的卷积神经网络(CNN)(CONVOLUTIONALNEURALNETWORKS(CNN)BASEDONRESOLUTION-LIMITEDSMALL-SCALECNNMODULES);申请日:2016年11月30日)的优先权。上述所有专利申请的内容均以引用形式被并入本申请,并作为本申请的一部分。本申请还与正在审查中的美国专利申请15/441,194(申请名称:基于有限分辨率小规模CNN模块的卷积神经网络(CNN)系统(CONVOLUTIONALNEURALNETWORK(CNN)SYSTEMBASEDONRESOLUTION-LIMITEDSMALL-SCALECNNMODULES);专利技术人:王星、吴谦伟、梁杰;申请日:2017年2月23日)相关。
本申请一般涉及机器学习和人工智能领域,更具体而言,涉及使用小规模硬件卷积神经网络(CNN)模块对数字图像执行人脸检测和头部姿态角评估的系统、装置和技术。
技术介绍
深度学习(DL)是机器学习和人工神经网络的一个基于一组算法的分支,该算法通过使用具有很多个处理层的人工神经网络来试图建模数据中的高层次抽象。典型的DL架构可包括许多层的神经元和数百万个参数。可以在配备有GPU的高速计算机上用海量数据训练这些参数,并由在深层网络也能适用的新的训练算法来指导,诸如修正线性单元(ReLU)、漏失(或丢弃)、数据集增强,以及随机梯度下降(SGD)。在现有的DL架构之中,卷积神经网络(CNN)是最流行的架构之一。虽然CNN背后的思想在20多年前就被发现了,但是,CNN的真正的能力只是在深度学习理论的近期发展之后才被认识到。到目前为止,CNN已经在许多人工智能和机器学习领域,诸如人脸识别、图像分类、图像字幕生成、可视问答以及自动驾驶汽车中取得了巨大成功。对于很多人脸识别应用,人脸检测通常是第一步,即检测和定位图像中每张人脸的位置。很多人脸检测技术可以容易地检测近距离的正向脸部。然而,在无约束情形下,实现稳健并快速的人脸检测依然是非常困难的。这是因为,这些情形通常与人脸的大量变化相关,这些变化包括姿态变化、遮挡、夸张的表情以及极端的光照变化。可以处理这些无约束情形下的有效人脸检测技术包括:(1)在“用于人脸检测的卷积神经网络级联”(AConvolutionalNeuralNetworkCascadeforFaceDetection)(H.Li,Z.Lin,X.Shen,J.Brandt,andG.Hua,计算机视觉和模式识别,IEEE会议学报(Proc.IEEEConf.onComputerVisionandPatternRecognition),2015年6月1日)中描述的级联卷积神经网络(CNN)结构(下文称之为“级联CNN”或者“级联CNN结构”);以及(2)在“利用多任务级联卷积网络的接合人脸检测和对齐”(JointFaceDetectionandAlignmentUsingMultitaskCascadedConvolutionalNetworks)(K.Zhang,Z.Zhang,Z.Li,andYQiao;IEEE信号处理学报(IEEESignalProcessingLetters),Vol.23,No.10,pp.1499-1503,2016年10月)中描述的多任务级联CNN结构(下文称之为“MTCNN”或者“MTCNN架构”)。在级联CNN中,由粗至精的级联CNN架构用于人脸检测。更具体地,该级联CNN架构不使用单个深度神经网络,而是使用在输入图像的不同分辨率上操作的多个浅层神经网络,从而该CNN可以快速地在低分辨率级舍弃背景区域,然后在最终高分辨率级谨慎地评估少量候选区域。为了提高定位效率,在每个检测/分类级之后采用校正级,以调整已检测窗口(或者“边界框”)的位置。因此,该级联CNN通常需要6级或者6个简单的CNN:三个级或CNN用于二进制人脸检测/分类,而另外三个用于边界框校正。由于在每级采用的级联设计以及简单的CNN,因此该人脸检测结构高度适用于在嵌入式环境中运行。需要注意,级联CNN内的每个边界框校正级都需要额外的计算开销。此外,在该级联CNN中,人脸检测和人脸对齐的固有相关性被忽略了。在MTCNN中,多任务级联CNN通过多任务学习过程,利用统一标准的级联CNN整合人脸检测和人脸对齐操作。原则上,该MTCNN还采用多个由粗至精的CNN级,从而对输入图像的不同分辨率进行操作。然而,在MTCNN中,在每一级,利用单个CNN结合训练人脸关键点定位、二进制人脸分类和边界框对准。因此,MTCNN只需要三个级。更特别地,MTCNN的第一级迅速地通过浅层CNN生成候选人脸窗口。接下来,该MTCNN的第二级利用更复杂的CNN,通过舍弃大量非人脸窗口筛选出候选窗口。最终,MTCNN的第三级使用处理能力更强的CNN,以确定每个输入窗口是否包括人脸。如果确定包括,则对五个人脸关键点的位置进行估计。相对于先前的人脸检测系统,MTCNN的性能得到了明显的改善。相对于上文所述的级联CNN结构,MTCNN架构通常更适于在资源有限的嵌入式系统上执行。在很多人脸检测应用中,例如当视频中的人不停移动时,由于每个人的头部/人脸在不同的图像中都具有不同的方向,即不同的姿态,因此还需要评估每张人脸的姿态。可以采用多种技术评估该人的头部/人脸的姿态。在一示例性技术中,首先评估一些人脸关键点的位置,该人脸关键点例如为眼、鼻、嘴,然后基于这些关键点的位置对该姿态进行评估。另一技术利用三个欧拉角表示该头部姿态,该欧拉角为俯仰角、偏航角以及翻转角,并利用这三个欧拉角直接评估该姿态。该基于角度的姿态评估方法通常比该基于关键点的方法具有更低的复杂度,这是由于基于角度的方法仅需要三个值,而基于关键点的方法在其评估过程中通常需要不止三个关键点坐标。在已获取视频图像中执行人脸检测以及在已检测人脸中执行姿态评估在很多嵌入式系统应用中均具有有益性。例如,在配置有多个摄像头的监控摄像头系统中,为了降低传输带宽并节约服务器的存储成本,每个摄像头仅将已获取视频中的人脸图像传送至该服务器,而无需传送整个视频。因此,人脸检测可用于从视频图像中生成人脸图像。此外,为了避免传送和存储同一个人的过多人脸图像,需要根据每张人脸的姿态变化,仅传送每个已检测人脸的对应于“最佳姿态”的人脸图像,即最接近于正面照的人脸图像(相对于正面照具有最小的旋转角度)。本文档来自技高网
...
基于嵌入式系统小规模卷积神经网络模块的人脸检测和头部姿态角评估

【技术保护点】
一种基于采用至少一个具有最大输入尺寸限制条件的小规模卷积神经网络模块对视频图像联合执行人脸检测和头部姿态评估的方法,其特征在于,所述方法包括:从一序列视频帧中接收视频图像;在所述视频图像内检测候选人脸图像块,其中所述候选人脸图像块具有大于所述小规模卷积神经网络模块的最大输入尺寸的第一图像尺寸;将所述候选人脸图像块划分为一组子图像,该组子图像具有小于所述小规模卷积神经网络模块的最大输入尺寸的第二图像尺寸;利用所述小规模卷积神经网络模块处理该组子图像,从而生成对应于该组子图像的一组输出;将该组输出合并为对应于已检测到的候选人脸图像块的组合输出;并且处理该组合输出,从而生成人脸分类器,并且当所述人脸分类器将所述已检测到的候选人脸图像块划分为人脸图像时,为所述已检测候选人脸图像生成一组头部姿态评估。

【技术特征摘要】
2016.11.30 US 62/428,497;2017.07.21 US 15/657,109;1.一种基于采用至少一个具有最大输入尺寸限制条件的小规模卷积神经网络模块对视频图像联合执行人脸检测和头部姿态评估的方法,其特征在于,所述方法包括:从一序列视频帧中接收视频图像;在所述视频图像内检测候选人脸图像块,其中所述候选人脸图像块具有大于所述小规模卷积神经网络模块的最大输入尺寸的第一图像尺寸;将所述候选人脸图像块划分为一组子图像,该组子图像具有小于所述小规模卷积神经网络模块的最大输入尺寸的第二图像尺寸;利用所述小规模卷积神经网络模块处理该组子图像,从而生成对应于该组子图像的一组输出;将该组输出合并为对应于已检测到的候选人脸图像块的组合输出;并且处理该组合输出,从而生成人脸分类器,并且当所述人脸分类器将所述已检测到的候选人脸图像块划分为人脸图像时,为所述已检测候选人脸图像生成一组头部姿态评估。2.根据权利要求1所述的方法,其特征在于,在将所述候选人脸图像块划分为一组子图像之前,所述方法还包括:将所述候选人脸图像块的尺寸重新设定为大于所述小规模卷积神经网络模块的最大输入尺寸的第三图像尺寸,其中所述第三图像尺寸满足图像划分的预定义条件;以及将所述候选人脸图像块划分包括:将所述重新设定尺寸的候选人脸图像块划分为一组具有第二图像尺寸的子图像。3.根据权利要求2所述的方法,其特征在于,所述将所述候选人脸图像块的尺寸重新设定为第三图像尺寸包括:当所述第一图像尺寸大于所述第三图像尺寸,则将所述候选人脸图像块降采样至所述第三图像尺寸;以及当所述第一图像尺寸小于所述第三图像尺寸,则所述过程将所述候选人脸图像块上采样至所述第三图像尺寸。4.根据权利要求1所述的方法,其特征在于,该组头部姿态评估包括与已检测人脸相关的三个头部姿态角。5.根据权利要求4所述的方法,其特征在于,每个评估的头部姿态角均介于-90°和90°之间,并且全正面人脸的三个头部姿态角均为0°。6.根据权利要求4所述的方法,其特征在于,所述方法包括:在一序列视频帧中检测一特定人的一组人脸图像;为所述特定人的该组已检测的人脸图像中的每个人脸图像分别生成一组头部姿态评估;基于该组头部姿态评估选择最佳姿态,其中所述最佳姿态表示相对于头部的全正面方向具有最小整体旋转角的头部姿态;以及将所述特定人的被选定的最佳姿态相关的已检测人脸图像传送至服务器。7.根据权利要求6所述的方法,其特征在于,所述基于该组头部姿态评估选择最佳姿态包括:分别计算每组头部姿态评估中三个头部姿态角的绝对值的和;以及在该组已检测人脸图像中选择对应于最小计算和的最佳姿态。8.根据权利要求6所述的方法,其特征在于,所述方法还包括:在所述序列视频帧中跟踪所述特定人的已检测人脸。9.根据权利要求1所述的方法,其特征在于,该组输出的其中一个输出为对应于该组子图像的其中一个子图像的一组特征图;其中该组合输出包括对应于该组子图像的多组特征图的合并特征图。10.根据权利要求9所述的方法,其特征在于,对应于该组子图像的合并特征图等同与不需划分而利用大规模卷积神经网络模块整体处理所述候选人脸图像块而生成的全特征图。11.根据权利要求1所述的方法,其特征在于,生成所述人脸分类器和该组头部姿态评估的步骤包括采用两个或多个全连接层。12.一种采用至少一个具有最大输入尺寸限制条件的小规模卷积神经网络模块的人脸检测和头部姿态评估联合系统,其特征在于,所述系统包括:用于从...

【专利技术属性】
技术研发人员:王星梅迪·塞伊菲陈明华吴谦伟梁杰
申请(专利权)人:奥瞳系统科技有限公司
类型:发明
国别省市:加拿大,CA

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1