本发明专利技术公开了一种基于注意力机制的三维卷积微表情识别方法,首先进行数据集预处理,数据集预处理部分包括:人脸剪裁、人脸对齐、视频序列帧数统一;再通过视频序列提取光流序列;再将提取出来的光流序列与视频序列分别输入三维卷积、三维池化、Attention后得到对应的新的光流序列与视频序列特征;使用Co‑Attention进行特征引导,先使用视频序列特征引导光流序列特征,再使用引导后的光流序列特征引导视频序列特征;将引导后的特征进行融合得到联合特征;将联合特征送入到分类层进行微表情分类识别。本发明专利技术使用三维卷积神经网络提取时空特征,再结合注意力机制提取关键特征,在两个公开的数据集上SMIC与CASMEⅡ进行实验,提高了微表情识别的准确性。
【技术实现步骤摘要】
一种基于注意力机制的三维卷积微表情识别算法
本专利技术属于信息
,涉及视频序列处理、光流序列处理、微表情识别,具体是一种基于注意力机制的三维卷积微表情识别算法。
技术介绍
面部表情包含宏表情与微表情,宏表情是在我们生活中较容易观察到的,持续时间比较长,且面部肌肉收缩或舒张幅度比较大;微表情持续时间在1/25-1/2秒之间,持续时间比较短,肌肉收缩或舒张幅度较小,因此大多人往往难以觉察到它的存在。由于微表情更倾向于那些被抑制的表情,因此微表情更能体现人们真实的感受和动机,可以应用在不同的领域:警察诊断,商务谈判,精神分析等领域。微表情识别是指在已经确定是微表情的情况下进行详细分类(如:积极、消极、惊讶)。传统的微表情识别算法使用LBP、LBP-TOP、LBP-SIP等算子来提取纹理信息,再结合SVM、多核分类器以及随机森林来识别微表情。传统的微表情识别方法把特征提取和分类器设计分开来做,然而因为手工设计特征需要大量的经验以及调试工作,其次选择一个比较合适的分类器算法也是一大难点。近年来,随着深度学习的发展,深度神经网络算法以及注意力机制的广泛应用,为微表情识别带来了新的研究方向。微表情识别深度学习方法一般使用CNN+RNN网络模型或者使用三维卷积神经网络来提取特征,但是特征冗余较大,有效信息不明确。本专利技术是首次将注意力机制与三维卷积一起使用来进行微表情识别,既可以挖掘大量的时空特征,又可以挖掘特征中更有效的信息,得到识别性能提升的效果。
技术实现思路
针对上述现有技术中存在的问题,本专利技术的目的在于,提供一种基于注意力机制的三维卷积微表情识别算法,有效地利用网络结构中视频序列与光流序列的特征和使用Attention层、Co-Attention层提取关键特征,以更好地解决微表情识别问题。为了实现上述任务,本专利技术采用以下技术方案:一种基于注意力机制三维卷积微表情识别网络模型的建立方法,包括以下步骤:步骤1,对数据集进行预处理:该数据集包括多个微表情视频序列,每个微表情视频序列均由一组视频帧构成;预处理后数据集中每个微表情视频序列维度是dv×w×h,其中,dv是视频帧的帧数,w与h分别是视频帧的宽度与高度;步骤2,采用自监督方法对预处理后的数据集进行光流提取,得到光流序列;提取后每个微表情视频序列均对应一组光流序列;该组光流序列的维度是df×w′×h′,df是光流序列的帧数,w′、h′分别是光流序列的帧的宽度与高度,w′=w,h′=h;步骤3,建立基于注意力机制三维卷积微表情识别网络模型;该网络模型是双流输入,包括卷积层,池化层,Attention层,Co-Attention层,以及全连接层和分类器;将步骤1得到的预处理后的微表情视频序列与步骤2得到的光流序列分别经过视频序列特征提取与光流序列特征提取,得到视频序列特征向量和光流序列特征向量;通过Attention层和Co-Attention层进行视频序列特征向量和光流序列特征向量的相互引导并融合,得到联合特征向量,将所述联合特征向量输入到全连接层进行微表情分类识别,得到微表情分类识别结果;使用交叉熵函数作为该网络模型的损失函数,并使用Adam优化策略来训练网络模型学习,训练时使用的数据集是两个公开的微表情数据集SMIC与CASMEⅡ,其中SMIC数据集对应的标签分为三类:surprise、positive、negative;CASMEⅡ数据集对应的标签分为四类:positive、surprise、negative、other。进一步,所述预处理的方法依次包括:对数据集中的每个视频序列进行人脸剪裁、人脸对齐、视频序列帧数统一。进一步,步骤3中,通过视频序列特征向量和光流序列特征向量得到联合特征向量包括:先使用视频序列特征向量引导光流序列特征向量,得到引导之后的光流序列特征向量,再使用引导之后的光流序列特征向量引导视频序列特征向量,得到引导后的视频序列特征向量;将引导后的光流序列特征向量与引导后的视频序列特征向量进行融合,得到联合特征向量。此外,本专利技术还提供一种基于注意力机制的三维卷积微表情识别方法,将待识别的微表情片段输入到上述得到的网络模型中,得到微表情分类识别结果。本专利技术与现有技术相比,具有以下有益效果:1.本专利技术提出了一个基于注意力机制三维卷积微表情识别网络模型,是第一次将注意力机制与卷积神经网络结合起来应用在微表情识别领域,使用Attention层与Co-Attention层从大量冗余信息中捕获光流序列和视频序列的关键特征,准确率高。2.本专利技术的识别方法,在两个公开的数据集上SMIC与CASMEⅡ进行实验,实验证明本专利技术方法取得了很好的结果。附图说明图1为数据集预处理前后对比图,数据集预处理部分包括:人脸剪裁、人脸对齐、视频序列帧数统一;图2为从视频序列中提取出的光流序列;图3为本专利技术基于注意力机制三维卷积微表情识别网络模型,称其为AE3DCNN模型;图4,图5分别是本专利技术AE3DCNN方法在数据集SMIC与CASMEⅡ上的混淆矩阵;图6,图7分别是本专利技术AE3DCNN方法在数据集SMIC与CASMEⅡ上的准确率值(Accuracy)与F1分数(F1-Score)结果。具体实施方式本专利技术所述视频序列是指:微表情识别的数据集就是包含很多个视频序列,一个视频序列就是将该视频用多帧来表示。本专利技术在训练模型时使用的交叉熵函数,也叫交叉熵损失函数「CrossEntropyLoss」,作为网络模型训练时的常用损失函数。本专利技术在训练模型时使用的Adam优化策略,即Adaptivemomentestimation,是目前被实际证明最有效,应用最广泛的算法,它的实现是建立在momentum算法和RMSprop算法这两个非常成熟的优化算法上。实施例1:本实施例公开了一种基于注意力机制的三维卷积微表情识别算法,包括以下步骤:步骤1,对数据集进行预处理:微表情数据集是包含了多个微表情片段,一个微表情片段是由一组视频帧构成的,预处理是针对该数据集中每个微表情片段的。步骤2,对预处理后的数据集进行光流提取,得到光流序列。由于光流信息更能反映出微表情变化的过程,本文采用自监督方法对步骤1得到的视频序列进行光流提取,得到光流序列,其中,前向光流与反向光流数量相等;本专利技术所述自监督方法,近两年很多论文中使用比较频繁,为光流提取常规手段。步骤3,建立基于注意力机制三维卷积微表情识别网络模型。预处理后的数据集中每个视频序列维度是dv×w×,其中dv是预处理后视频的帧数,w与分别是帧的宽度与高度,其中dv=10,w=64,=64;经过步骤2提取出的光流序列维度是df×w×,其中df=16,w=64,=64。如图3所示,将预处理后的视频序列与光流序列分别经过视频序列特征提取部分与光流序列特征提取部分,这两部分都是包本文档来自技高网...
【技术保护点】
1.一种基于注意力机制三维卷积微表情识别网络模型的建立方法,其特征在于,包括以下步骤:/n步骤1,采用自监督方法对微表情视频序列数据集进行光流提取,得到光流序列:提取后每个微表情视频序列均对应一组光流序列;/n步骤2,建立基于注意力机制三维卷积微表情识别网络模型:/n包括卷积层,池化层,Attention层,Co-Attention层,以及全连接层和分类器;/n通过Attention层将步骤1的微表情视频序列与步骤1得到的光流序列分别经过视频序列特征提取与光流序列特征提取,得到视频序列特征向量和光流序列特征向量;/n通过Co-Attention层将Attention层得到的视频序列特征向量和光流序列特征向量的相互引导并融合,得到联合特征向量;/n将所述联合特征向量输入到全连接层进行微表情分类识别,得到微表情分类识别结果;/n使用交叉熵函数作为该网络模型的损失函数,并使用Adam优化策略来训练网络模型学习,该网络模型是双流输入,训练时该网络模型的输入为步骤1的微表情视频序列和对应的得到的光流序列,输出是positive、surprise、negative和other中的其中一种。/n
【技术特征摘要】
1.一种基于注意力机制三维卷积微表情识别网络模型的建立方法,其特征在于,包括以下步骤:
步骤1,采用自监督方法对微表情视频序列数据集进行光流提取,得到光流序列:提取后每个微表情视频序列均对应一组光流序列;
步骤2,建立基于注意力机制三维卷积微表情识别网络模型:
包括卷积层,池化层,Attention层,Co-Attention层,以及全连接层和分类器;
通过Attention层将步骤1的微表情视频序列与步骤1得到的光流序列分别经过视频序列特征提取与光流序列特征提取,得到视频序列特征向量和光流序列特征向量;
通过Co-Attention层将Attention层得到的视频序列特征向量和光流序列特征向量的相互引导并融合,得到联合特征向量;
将所述联合特征向量输入到全连接层进行微表情分类识别,得到微表情分类识别结果;
使用交叉熵函数作为该网络模型的损失函数,并使用Adam优化策略来训练网络模型学习,该网络模型是双流输入,训练时该网络模型的输入为步骤1的微表情视频序列和对应的得到的光流序列,输出是positive、surprise、negative和other中的其中一种。
2.如权利要求1所述基于注意力机制三维卷积微表情识别网络模型的建立方法,其特征在于,步骤1前需要对数据集进行预处理,该数据集包括多个微表情视频序列,每个微表情视频序列均由一组视频帧构成。
【专利技术属性】
技术研发人员:赵国英,毋婷婷,李展,樊青晨,刘盱衡,张海,彭进业,温超,章勇勤,杨溪,
申请(专利权)人:西北大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。