The invention discloses a multi pose eye location algorithm based on cascaded convolutional neural network. It belongs to the intelligent system for face recognition, gaze tracking and driver fatigue detection, which belongs to machine learning and computer vision. The method includes: collecting various information marked face images, the formation of a training data set; concatenated convolutional neural network to construct a multi task set; the network is trained using training data, and the network model; finally using the network model, face detection and face images in the key points, so as to select the key point of the smallest rectangle contains eye frame as eye localization results. This invention completes face detection and face key point detection through multitask cascade convolution God network, which makes the effect of multi - gesture eye location improved obviously.
【技术实现步骤摘要】
一种基于级联卷积神经网络的多姿态眼睛定位方法
本专利技术属于机器学习和计算机视觉领域,具体是一种基于级联卷积神经网络的多姿态眼睛定位方法。
技术介绍
人脸图像中包含了丰富的信息,对人脸图像的研究与分析是计算机视觉领域的重要方向和研究热点。而眼睛是人类最主要的感官,其包含了独特的生物特征和丰富的情感信息,通过对眼睛的分析,能够了解人类的情感以及行为,比如在人机交互方面,通过眼睛的视线来实现非接触式的交互,在疲劳驾驶检测方面,通过眼睛的状态来判断驾驶员是否疲劳等等。近十几年来,已有大量的学者对眼睛定位进行了研究,总体来说,眼睛定位算法主要分为以下四类:基于眼睛外形特征,基于眼睛模板的方法,基于统计外观的方法和基于空间结构信息的方法。基于眼睛外形特征是将眼睛看做脸部的成分,眼睛外形特征包含眼睛固有形状、眼睑边缘信息和眼白的强烈灰度对比,通过检测这些固有的眼睛外形特征就可以定位眼睛,然而这种方法依赖好的成像条件,在实际应用中有很多不可控因素,因此很难满足实际要求;基于眼睛模板的方法是利用提供的眼睛模板来进行眼睛定位,然而人脸模式变化多端,眼睛模板有限,因此在某些情况下会失效;基于统计外观的方法是利用大量的眼睛训练数据提取眼睛外观特征描述子,然后训练得到相应的判别模型,这种方法利用了一些潜在的眼睛信息,相比于眼睛外形特征效果会更好,但是,没有任何一种单一的特征描述子可以满足所有的要求;基于空间结构信息的方法是利用眼睛和脸部其他特征点构成的空间信息来进行眼睛定位,其受外界的影响较小。基于传统的机器学习框架存在以下几个问题:1)眼睛定位算法的第一步都要利用现有的人脸检测 ...
【技术保护点】
一种基于级联卷积神经网络的多姿态眼睛定位方法,其特征在于包括:(1)多任务的级联卷积神经网络模型建立:收集人脸图片并对人脸图片进行预处理,得到不同任务对应的标注数据,形成一个数据集合;构造一个多任务级联的卷积神经网络;将得到的训练数据集合输入网络并采用快速训练方法来得到该网络模型;(2)多姿态眼睛定位:首先将输入图片进行金字塔尺度变换,利用步骤(1)得到的模型和改进的非极大值抑制算法进行预测,以实现多姿态的眼睛定位。
【技术特征摘要】
1.一种基于级联卷积神经网络的多姿态眼睛定位方法,其特征在于包括:(1)多任务的级联卷积神经网络模型建立:收集人脸图片并对人脸图片进行预处理,得到不同任务对应的标注数据,形成一个数据集合;构造一个多任务级联的卷积神经网络;将得到的训练数据集合输入网络并采用快速训练方法来得到该网络模型;(2)多姿态眼睛定位:首先将输入图片进行金字塔尺度变换,利用步骤(1)得到的模型和改进的非极大值抑制算法进行预测,以实现多姿态的眼睛定位。2.如权利要求1所述的基于级联卷积神经网络的多姿态眼睛定位方法,其特征在于步骤(1)中训练数据的处理,训练数据包括不同尺寸的子训练数据集;每种尺寸的子训练数据集含有四种类型的数据:人脸图像,部分人脸图像,背景图像以及含15个关键点信息的图像;其中人脸图像和部分人脸图像包含平动角(pitch)、转动角(yaw)、滚动角(roll)三个方向0到75度的转动;标签信息含有三个:是否为人脸,边界框(bounding-box)的位置坐标增量,关键点的位置坐标。3.如权利要求1所述的基于级联卷积神经网络的多姿态眼睛定位方法,其特征在于步骤(1)中,多任务的级联卷积神经网络结构包含三个卷积神经网络:P-Net、R-Net、O-Net;其中P-Net的输入尺寸为12×12,R-Net的输入尺寸为24×24,O-Net的输入尺寸为48×48;每个Net有三个任务分别是:人脸分类,边界框回归,关键点位置回归;对于人脸分类这个任务,损失函数采用交叉熵损失函数,为了降低对异常样本的敏感性并且防止梯度爆炸,边界框回归和关键点位置回归都采用平滑的(smooth)L1损失函数,因此整个网络的损失函数为三种损失函数的加权之和。4.最终利用得到的训练数据集...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。