一种基于深度学习的人脸多区域融合表情识别方法技术

技术编号:20364054 阅读:40 留言:0更新日期:2019-02-16 17:03
本发明专利技术公开了一种基于深度学习的人脸多区域融合表情识别方法,包括下述步骤:用检测模型检测出人脸位置;用关键点模型得到人脸关键点坐标;先根据眼睛部分关键点做眼睛对齐;然后根据整体人脸关键点坐标做人脸对齐,并通过仿射变换裁剪人脸区域;按照一定的比例裁剪图像的眼睛和嘴巴区域。卷积神经网络分为一个主干网络和两个支干网络,在最后一层卷积层进行特征融合,最后通过分类器得到表情分类结果。本发明专利技术利用先验信息,除整个人脸之外还将眼睛和嘴巴区域作为网络的输入,通过模型融合使网络既能学习到人脸表情的整体语义特征也能学习到局部区域特征,简化了人脸表情识别的难度,减少外部噪声,有鲁棒性强,准确率高,算法复杂度低等优点。

【技术实现步骤摘要】
一种基于深度学习的人脸多区域融合表情识别方法
本专利技术涉及计算机视觉和模式识别
,具体涉及一种基于深度学习的人脸多区域融合表情识别方法。
技术介绍
基于深度学习的人脸多区域融合表情识别方法是一种人脸表情识别,其目的在于解决人脸表情分类问题。1971年,心理学家Ekman与Friesen研究提出了人类的六种基本情感,即惊讶(Surprise)、悲伤(Sadness)、愤怒(Anger)、恐惧(Fear)、厌恶(Disgust)与高兴(Happiness),与此对应,人类可产生相应的面部表情。人类表情往往携带着比语言更为丰富的信息,因此,人脸表情识别是计算机视觉领域的一个重要研究课题。其研究成果可应用于人机交互、心理疾病患者治疗、情感计算与远程教育等领域,广泛的应用领域推动着人脸表情识别技术不断发展。人脸表情识别最重要的一步是对表情特征的提取。传统表情识别特征提取主要依靠人工提取特征。主要是几何特征提取和纹理特征提取两种方法。几何特征提取方法主要通过提取人脸的特征点,然后分析不同区域特征点之间的几何关系,比如眼睛区域和嘴巴区域等,实现对表情的分类识别。常见的有主动形状模型,改进ASM算法等。纹理特征反映了人脸表情图像的底层信息,突出体现了局部表情的变化。纹理特征提取方法典型的方法有局部二值模式LBP、Gabor特征、HOG特征、Haar-like特征等。通过图像的局部信息变化来表达局部纹理特征,用纹理特征进行分类对图像尺度变换、旋转和光照变化具有很好的鲁棒性,能够有效地描述图像的纹理信息,有利于表情识别。而目前人脸表情识别任务大多基于深度学习算法,深度学习免去了所有需要人工提取表情特征的问题,卷积神经网络可以自适应学习所有表情特征,用作某一类表情的表达;同时深度学习很好地解决了传统机器学习对人脸姿态、光照、遮挡物等敏感问题,提高了表情识别的鲁棒性和准确率。人脸表情分类问题一直受到国内外学者的关注,特别是对与现实场景中的人脸表情识别任务,非常具有挑战性。因现实场景中人脸表情是自发产生的,与大部分实验室采集样本差别很大;同时人脸大姿态、大遮挡、光线不均匀、图片质量参差不齐、表情特征不明显等问题,增大了识别的难度。
技术实现思路
本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种基于深度学习的人脸多区域融合表情识别方法。本专利技术的目的可以通过采取如下技术方案达到:一种基于深度学习的人脸多区域融合表情识别方法,所述的识别方法包括下列步骤:S1、通过人工标注得到包含人脸表情数据集的RGB图像,将其分为训练集和测试集;S2、从训练集中得到一张包含人脸的RGB图像,通过检测模型对人脸进行检测,得到人脸的大致位置区域;S3、根据人脸的大致位置区域,通过人脸关键点检测模型对人脸关键点进行检测得到人脸的关键点坐标值;S4、根据人脸的关键点坐标值对目标人脸进行人脸对齐,同时通过仿射变换截取仅包含人脸的第一图像区域并调整到相同尺寸,人脸关键点坐标也根据仿射变换矩阵重新映射到新的坐标;S5、根据包含人脸的第一图像区域及坐标映射变换后的人脸关键点坐标,截取眼睛区域和嘴巴区域,并将这两个区域调整到与第一图像区域相同尺寸;S6、将包含人脸的第一图像区域、眼睛区域和嘴巴区域,分别进行图像归一化处理;S7、将归一化处理后的图像进行随机数据增强处理;S8、将随机数据增强处理后的第一图像区域、眼睛区域和嘴巴区域的图像作为卷积神经网络的输入,对卷积神经网络进行训练,其中,所述的卷积神经网络包括一个主干网络和两个枝干网络构成,所述的的第一图像区域作为主干网络的输入,所述的眼睛区域和嘴巴区域分别作为两个枝干网络输入;S9、取出测试集中的图像,重复步骤S2-步骤S8,得到对齐的包含人脸的第一图像区域、眼睛区域和嘴巴区域分别作为卷积神经网络中一个主干网络和两个枝干网络的输入,得到最终表情分类结果。进一步地,所述的步骤S1中人工标注的方法为根据人脸肌肉的变化分为7类基本表情,生气、厌恶、恐惧、高兴、悲伤、惊讶和中性,分别用数字0-6表示各类表情标签,对人脸表情数据集进行标签标注。进一步地,所述的步骤S2中检测模型为opencv自带的人脸检测模型,用于检测人脸位置,并在人脸区域画出一个boundingbox标注出人脸大致区域。进一步地,所述的步骤S3中人脸关键点检测模型包含在dlib库中,调用dlib库加载官方模型,输入已检测到人脸的图像,得到人脸关键点坐标,其中,所述的人脸关键点坐标包含68个坐标点,分别为(x1,y1)…(x68,y68)。进一步地,所述的步骤S4中人脸对齐过程如下:S41、根据68个人脸关键点坐标中的第36和第45的横坐标,做眼睛对齐,将第36和第45的坐标进行连线,求该连线与水平线的夹角θ,通过仿射变换的方式对图片进行整体旋转,若所求θ为负,则将图片顺时针旋转θ,若θ为正将图片逆时针旋转θ,使得旋转后的人脸关键点坐标第36和第45的坐标连线水平,同时将68个人脸关键点坐标也根据仿射变换公式更新为旋转后的人脸关键点坐标;S42、根据步骤S41旋转后更新的68个人脸关键点坐标求出一个平均坐标,该平均坐标作为整个人脸的中心坐标c(x,y),计算公式为:其中,xi为关键点的横坐标,yi为关键点的纵坐标;S43、计算人脸关键点中横坐标最大值点xmax和横坐标最小值点xmin的横坐标差值的s,s即为人脸裁剪框的边长,计算公式如下:s=xmax-xmin;S44、根据步骤S42和步骤S43得到的中心坐标和人脸裁剪框边长求出仿射变换矩阵M,根据opencv仿射变换函数warpAffine()将原图仿射变换到尺寸为128x128的只有人脸区域的图像,同时人脸关键点坐标也根据仿射矩阵进行变换。进一步地,所述的步骤S5中截取包含人脸的第一图像区域的过程如下:S51、得到人脸对齐后的图像和人脸关键点坐标后,将左眼最左边坐标x36和右眼最右边坐标x45横坐标相减,得到长度eye_len,计算公式如下:eye_len=x36-x45;S52、将左眼最左边坐标x36和右眼最右边坐标x45求平均,得到两个点的中心点坐标C1,计算公式如下:S53、以C1为中心、1.2*eye_len为边长截取一个正方形矩阵作为眼睛区域,再将截取的正方形矩阵调整到64x64尺寸,其中,眼睛区域为RGB三通道图像;S54、得到人脸对齐后的图像后,将嘴巴最左边坐标x48和嘴巴最右边坐标x54横坐标相减,得到长度mou_len,计算公式如下:mou_len=x48-x54;S55、将嘴巴最左边坐标x48和嘴巴最右边坐标x54求平均,得到两个点的中心点坐标C2,计算公式如下:S56、以C2为中心、1.2*mou_len为长、0.6*mou_len为宽截取一个长方形矩阵作为嘴巴区域,再将截取的长方形矩阵调整到64x64尺寸,其中,嘴巴区域为RGB三通道图像。进一步地,所述的步骤S6中图像归一化处理的方法是将图像区域中每个像素的像素值除以256,使每个像素的像素值在[0,1]之间。进一步地,所述的步骤S7中图像随机数据增强处理的过程如下:S71、对图像进行随机翻转处理;S72、对图像进行随机平移处理;S73、对图像进行随机缩放处理;S74、对图像进行随机灰度化处理;S75、对图像进行本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的人脸多区域融合表情识别方法,其特征在于,所述的识别方法包括下列步骤:S1、通过人工标注得到包含人脸表情数据集的RGB图像,将其分为训练集和测试集;S2、从训练集中得到一张包含人脸的RGB图像,通过检测模型对人脸进行检测,得到人脸的大致位置区域;S3、根据人脸的大致位置区域,通过人脸关键点检测模型对人脸关键点进行检测得到人脸的关键点坐标值;S4、根据人脸的关键点坐标值对目标人脸进行人脸对齐,同时通过仿射变换截取仅包含人脸的第一图像区域并调整到相同尺寸,人脸关键点坐标也根据仿射变换矩阵重新映射到新的坐标;S5、根据包含人脸的第一图像区域及坐标映射变换后的人脸关键点坐标,截取眼睛区域和嘴巴区域,并将这两个区域调整到与第一图像区域相同尺寸;S6、将包含人脸的第一图像区域、眼睛区域和嘴巴区域,分别进行图像归一化处理;S7、将归一化处理后的图像进行随机数据增强处理;S8、将随机数据增强处理后的第一图像区域、眼睛区域和嘴巴区域的图像作为卷积神经网络的输入,对卷积神经网络进行训练,其中,所述的卷积神经网络包括一个主干网络和两个枝干网络构成,所述的的第一图像区域作为主干网络的输入,所述的眼睛区域和嘴巴区域分别作为两个枝干网络输入;S9、取出测试集中的图像,重复步骤S2‑步骤S8,得到对齐的包含人脸的第一图像区域、眼睛区域和嘴巴区域分别作为卷积神经网络中一个主干网络和两个枝干网络的输入,得到最终表情分类结果。...

【技术特征摘要】
1.一种基于深度学习的人脸多区域融合表情识别方法,其特征在于,所述的识别方法包括下列步骤:S1、通过人工标注得到包含人脸表情数据集的RGB图像,将其分为训练集和测试集;S2、从训练集中得到一张包含人脸的RGB图像,通过检测模型对人脸进行检测,得到人脸的大致位置区域;S3、根据人脸的大致位置区域,通过人脸关键点检测模型对人脸关键点进行检测得到人脸的关键点坐标值;S4、根据人脸的关键点坐标值对目标人脸进行人脸对齐,同时通过仿射变换截取仅包含人脸的第一图像区域并调整到相同尺寸,人脸关键点坐标也根据仿射变换矩阵重新映射到新的坐标;S5、根据包含人脸的第一图像区域及坐标映射变换后的人脸关键点坐标,截取眼睛区域和嘴巴区域,并将这两个区域调整到与第一图像区域相同尺寸;S6、将包含人脸的第一图像区域、眼睛区域和嘴巴区域,分别进行图像归一化处理;S7、将归一化处理后的图像进行随机数据增强处理;S8、将随机数据增强处理后的第一图像区域、眼睛区域和嘴巴区域的图像作为卷积神经网络的输入,对卷积神经网络进行训练,其中,所述的卷积神经网络包括一个主干网络和两个枝干网络构成,所述的的第一图像区域作为主干网络的输入,所述的眼睛区域和嘴巴区域分别作为两个枝干网络输入;S9、取出测试集中的图像,重复步骤S2-步骤S8,得到对齐的包含人脸的第一图像区域、眼睛区域和嘴巴区域分别作为卷积神经网络中一个主干网络和两个枝干网络的输入,得到最终表情分类结果。2.根据权利要求1所述的一种基于深度学习的人脸多区域融合表情识别方法,其特征在于,所述的步骤S1中人工标注的方法为根据人脸肌肉的变化分为7类基本表情,生气、厌恶、恐惧、高兴、悲伤、惊讶和中性,分别用数字0-6表示各类表情标签,对人脸表情数据集进行标签标注。3.根据权利要求1所述的一种基于深度学习的人脸多区域融合表情识别方法,其特征在于,所述的步骤S2中检测模型为opencv自带的人脸检测模型,用于检测人脸位置,并在人脸区域画出一个boundingbox标注出人脸大致区域。4.根据权利要求1所述的一种基于深度学习的人脸多区域融合表情识别方法,其特征在于,所述的步骤S3中人脸关键点检测模型包含在dlib库中,调用dlib库加载官方模型,输入已检测到人脸的图像,得到人脸关键点坐标,其中,所述的人脸关键点坐标包含68个坐标点,分别为(x1,y1)…(x68,y68)。5.根据权利要求4所述的一种基于深度学习的人脸多区域融合表情识别方法,其特征在于,所述的步骤S4中人脸对齐过程如下:S41、根据68个人脸关键点坐标中的第36和第45的横坐标,做眼睛对齐,将第36和第45的坐标进行连线,求该连线与水平线的夹角θ,通过仿射变换的方式对图片进行整体旋转,若所求θ为负,则将图片顺时针旋转θ,若θ为正将图片逆时针旋转θ,使得旋转后的人脸关键点坐标第36和第45的坐标连线水平,同时将68个人脸关键点坐标也根据仿射变换公式更新为旋转后的人脸关键点坐标;S42、根据步骤S41旋转后更新的68个人脸关键点坐标求出一个平均坐标,该平均坐标作为整个人脸的中心坐标c(x,y),计算公式为:其中,xi为关键点的横坐标,yi为关键点的纵坐标;S43、计算人脸关键点中横坐标最大值点xmax和横坐标最小值点xmin的横坐标差值的s,s即为人脸裁剪框的边长,计算公式如下:s=xmax-xmin;S44、根据步骤S42和步骤S43得到的中心坐标和人脸裁剪框边长求出仿射变换矩阵M,根据opencv仿射变换函数warpAffine()将原图仿射变换到尺寸为128x128的只有人脸区域的图像,同时人脸关键点坐标也根据仿射矩阵进行变换。6.根据权利要求5所述的一种基于深度学习的人脸多区域融合表情识别方法,其特征在于,所述的步骤S5中截取包含人脸的第一图像区域的过程如下:S51、得到人脸对齐后的图像和人脸关键点坐标后,将左眼最左边坐标x36和右眼最右边坐标x45横坐标相减,得到长度eye_len,计算公式如下:eye_len=x36-x45;S52、将左眼最左边坐标x36和右眼最右边坐标x45求平均,得到两个点的中心点坐标C1,计算公式如下:S53、以C1为中心、1.2*eye_len为边长截取一个正方形矩阵作为眼睛区域,再将截取的正方形矩阵调整到64x64尺寸,其中,眼睛区域为RGB三通道图像;S54、得到人脸对齐后的图像后,将嘴巴最左边坐标x48和嘴巴最右边坐标x54横坐标相减,得到长度mou_len,计算公式如下:mou_len=x48-...

【专利技术属性】
技术研发人员:王珂尧常天海余卫宇
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1