当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于双流卷积神经网络的人脸情绪识别方法技术

技术编号:21225129 阅读:28 留言:0更新日期:2019-05-29 05:52
本发明专利技术提供了一种基于双流卷积神经网络的人脸情绪识别方法,主要涉及利用多尺度人脸表情识别网络分别对单帧人脸图像和人脸序列进行学习分类。该方法包括:构建多尺度人脸表情识别网络(其中包括处理224×224,336×336两种分辨率的两个通道网络),利用该网络并行提取不同分辨率下的人脸表情特征,且有效结合图像的静态特征和表情序列的动态特征进行训练学习,再将两通道模型进行融合,测试得到人脸表情的分类效果。本发明专利技术充分发挥深度学习的优势,有效避免手动提取特征的偏差和耗时长等问题,使得本发明专利技术方法的适应能力更强。此外,利用双流网络的结构特征,并行训练及预测,形成一种互补的架构,再融合两个子网络的训练模型,提高表情识别的准确率及工作效率。

A Face Emotion Recognition Method Based on Two-stream Convolutional Neural Network

The invention provides a method of facial emotion recognition based on dual-stream convolution neural network, which mainly involves learning and classifying a single face image and a face sequence using a multi-scale facial expression recognition network. The method includes: building a multi-scale facial expression recognition network (including two channel networks with 224 *224 and 336 *336 resolutions), using the network to extract facial expression features at different resolutions in parallel, effectively combining static features of images and dynamic features of expression sequences for training and learning, and then fusing the two channel models to test and get face tables. The classification effect of emotion. The invention gives full play to the advantages of in-depth learning, effectively avoids the deviation and time-consuming problems of manual feature extraction, and makes the method of the invention more adaptable. In addition, a complementary architecture is formed by using the structural features of the two-stream network, parallel training and prediction, and then the training models of the two sub-networks are fused to improve the accuracy and efficiency of expression recognition.

【技术实现步骤摘要】
一种基于双流卷积神经网络的人脸情绪识别方法
本专利技术涉及深度学习领域中的情绪识别问题,尤其是涉及一种基于双流卷积神经网络的人脸情绪识别方法。
技术介绍
人脸表情作为人类情绪状态最直接、最有效的表达方式,一直具有重要的研究意义。人脸表情识别是指从给定的静态图像或者动态视频序列中分离出特定的表情状态,继而确定研究对象的情绪状态,实现计算机对人脸表情的识别与理解,达到人机交互的过程。目前,人脸表情识别技术在人机交互领域的应用主要包括疲劳驾驶检测、手机端实时表情识别以及社交机器人等等。情绪识别作为计算机视觉领域的重要研究内容,受到了国内外研究者的广泛关注。目前,对人脸表情的识别主要分为基于静态图片的表情识别和基于视频序列的表情识别。基于静态图片的人脸表情分析的重点在于提取单张人脸表情图像中的静态表情特征,而对于表情序列而言主要是将序列的静态特征与动态特征相结合用于分析视频中人的情绪状况,目前利用这两种方式进行人脸表情识别已经取得了较高的识别率和泛化能力。因此本专利利用人脸表情数据集的单帧静态图片和表情序列的信息特征进行人脸情绪识别。传统的人脸表情识别方法主要是通过人工提取面部特征,但提取的特征单一、计算过程比较复杂且模型的适用环境很有限。深度学习(DeepLearning)是近年来备受关注的研究领域,它将多个抽象的数据处理层组合构成计算模型代替传统的人工选择特征的方法,让机器自主地学习数据样本的特征,有效避免人工选择特征的缺陷。并且与人工选择特征相比,深度学习方法利用大量的数据来学习特征,能够描述数据的特征信息进行更为丰富的描述。简言之,深度学习不管在识别时间还是准确度上,与传统方法相比都有了很大的提高。
技术实现思路
本专利技术的目的是提供一种基于双流卷积神经网络的人脸情绪识别方法,将深度学习与视频中的人脸表情相结合,同时引入双流网络结构进行人脸情绪识别,充分学习人脸的表情特征,有效解决目前浅层学习的参数调整困难,准确率不高等问题。为了方便说明,首先引入如下概念:卷积神经网络(ConvolutionalNeuralNetwork,CNN):受视觉神经机制的启发而设计,是一种多层前馈神经网络,每层由多个二维平面组成,平面上的每个神经元独立工作,卷积神经网络主要包括特征提取层和特征映射层。长短期记忆网络(LongandShortTermMemoryNetworks,LSTM):一种时间递归神经网络,可以学习长期以来问题,适用于处理和预测时间序列中间隔和延迟相对较长的重要事件,是一种循环神经网络。感受野(ReceptiveField):指CNN的每一层输出特征图(FeatureMap)上的像素点在原图像上映射区域的大小。多尺度人脸表情识别网络:利用多个并行的子神经网络分别提取图像不同分辨率下的表情特征,再将多个子神经网络进行加权融合形成多流神经网络模型。本专利技术具体采用如下技术方案:提出了基于双流卷积神经网络的人脸情绪识别方法,该方法的主要特征在于:a.将人脸序列分别处理成两种不同分辨率的图像;b.利用不同的卷积神经网络分别训练两种分辨率的图像;c.对上述b中的两通道网络进行加权融合,得到多尺度的人脸表情识别网络模型;该方法主要包括以下步骤:(1)对人脸序列进行预处理,其中通过人脸检测跟踪等技术获取人脸表情序列,再将每个序列分别处理为224×224、336×336大小的分辨率;(2)将处理好的人脸表情数据集划分为训练集、验证集和测试集三部分,并给定每个序列的情绪类别;(3)引入基于卷积神经网络(CNN)和长短期记忆网络(LSTM)的两通道人脸表情识别网络(Channel1通道,Channel2通道),分别对上述两种分辨率的人脸序列进行分析,其中Channel1通道(C1)输入处理为224×224分辨率的单帧人脸图像,Channel2通道(C2)输入处理为336×336分辨率的人脸序列;(4)先将训练集和验证集中两种不同分辨率的人脸图像分别输入C1和C2通道网络进行训练,然后将两通道模型进行融合,再利用融合后的模型对测试集进行测试,得到测试集上的准确度ACC(Accuracy)。本专利技术的有益效果是:(1)充分发扬深度学习中自我学习的优势,让机器自动学习图像特征,有效避免人工选择特征的偏差和低效问题,具有更强的适应能力。(2)利用多尺度的人脸图像作为网络输入,使网络学习图像在不同感受野下的特征,有效结合局部和全局特征的互补优势,提升训练效果的准确性。(3)利用双流网络结构将表情图像的静态特征与表情序列的动态特征相结合,再将两通道网络进行加权融合,提升最终的分类效果。(4)将深度学习与视频人脸表情识别相结合,解决传统方法准确率不高的问题,提高研究价值。附图说明图1为本专利技术中不同分辨率图像采用相同卷积核的感受野示例,图1(a)为分辨率为224×224的图像的感受野示例,图1(b)为分辨率为336×336的图像的感受野示例。图2为基于双流网络的人脸情绪识别网络的组成图。图3为本专利技术方法将C1和C2通道网络模型按1:9的比例融合后在测试集上得到的混淆矩阵。具体实施方式下面结合附图及实施例对本专利技术作进一步的详细说明,有必要指出的是,以下的实施例只用于对本专利技术做进一步的说明,不能理解为对本专利技术保护范围的限制,所属领域技术熟悉人员根据上述
技术实现思路
,对本专利技术做出一些非本质的改进和调整进行具体实施,应仍属于本专利技术的保护范围。图2中,基于双流卷积神经网络的人脸情绪识别方法,具体包括以下步骤:(1)使用人脸检测跟踪等视频分析技术获取视频中的人脸表情序列,为每个表情序列贴上对应的情绪标签,本专利中共有四种标签:bored,excited,frantic,relaxed;再将数据集按照8:1:1比例分为训练集、测试集和验证集。(2)分别将上述步骤(1)中各数据集的视频序列进行采样处理,每个视频序列分别得到2种不同的分辨率人脸序列(包括224×224,336×336)。(3)利用不同的网络通道处理不同分辨率下的数据集,本方法具体使用C1通道处理分辨率为224×224的单帧人脸图像,C2通道处理分辨率为336×336的人脸序列,最后采用1:9的权重融合两个通道得到本方法的多尺度人脸序列表情识别网络。(4)训练:其中采用VGG16作为C1通道的基础网络,采用VGG-Face+LSTM作为C2通道的基础网络,对两通道网络加权融合得到多尺度人脸表情识别网络。接着利用步骤(2)中训练集和验证集对多尺度人脸表情识别网络进行训练。这里对于C1直接进行训练,对于C2先对网络的CNN部分进行训练,然后用CNN提取的特征对LSTM部分进行训练,最后得到训练完成的网络的参数模型,用于预测网络。(5)将上述步骤(1)的验证集数据以不同分辨率分别输入C1和C2网络预测两通道的模型性能。(6)将两个通道得到的参数模型采用1:9的权重融合后,利用验证集验证网络模型的性能。本文档来自技高网
...

【技术保护点】
1.一种基于双流卷积神经网络的人脸情绪识别方法,其特征在于:a.将人脸序列分别处理成两种不同分辨率的图像;b.利用不同的卷积神经网络分别训练两种分辨率的图像;c.对上述b中的两通道网络进行加权融合,得到多尺度的人脸表情识别网络模型;该方法主要包括以下步骤:(1)对人脸序列进行预处理,其中通过人脸检测跟踪等技术获取人脸表情序列,再将每个序列分别处理为224×224、336×336大小的分辨率;(2)将处理好的人脸表情数据集划分为训练集、验证集和测试集三部分,并给定每个序列的情绪类别;(3)引入基于卷积神经网络(CNN)和长短期记忆网络(LSTM)的两通道人脸表情识别网络(Channel1通道,Channel 2通道),分别对上述两种分辨率的人脸序列进行分析,其中Channel1通道(C1)输入处理为224×224分辨率的单帧人脸图像,Channel2通道(C2)输入处理为336×336分辨率的人脸序列;(4)先将训练集和验证集中两种不同分辨率的人脸图像分别输入C1和C2通道网络进行训练,然后将两通道模型进行融合,再利用融合后的模型对测试集进行测试,得到测试集上的准确度ACC(Accuracy)。...

【技术特征摘要】
1.一种基于双流卷积神经网络的人脸情绪识别方法,其特征在于:a.将人脸序列分别处理成两种不同分辨率的图像;b.利用不同的卷积神经网络分别训练两种分辨率的图像;c.对上述b中的两通道网络进行加权融合,得到多尺度的人脸表情识别网络模型;该方法主要包括以下步骤:(1)对人脸序列进行预处理,其中通过人脸检测跟踪等技术获取人脸表情序列,再将每个序列分别处理为224×224、336×336大小的分辨率;(2)将处理好的人脸表情数据集划分为训练集、验证集和测试集三部分,并给定每个序列的情绪类别;(3)引入基于卷积神经网络(CNN)和长短期记忆网络(LSTM)的两通道人脸表情识别网络(Channel1通道,Channel2通道),分别对上述两种分辨率的人脸序列进行分析,其中Channel1通道(C1)输入处理为224×224分辨率的单帧人脸图像,Channel2通道(C2)输入处理为336×33...

【专利技术属性】
技术研发人员:卿粼波王露何小海滕奇志周文俊熊文诗
申请(专利权)人:四川大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1