一种基于特征金字塔网络的双向LSTM微表情识别抑郁症方法技术

技术编号:22595220 阅读:139 留言:0更新日期:2019-11-20 11:20
本发明专利技术提供一种基于特征金字塔网络的双向LSTM微表情识别抑郁症方法,包括:首先从一秒中的视频流中等时间提取出12张图片,将12张图片作为输入进入到该模型中,接着通过ResNET网络对图片的特征进行提取,经过多层Conv={Conv1,Conv2,Conv3,Conv4,Conv5}得到一个多维的图片特征,即Conv5的输出结果,之后通过2倍上采样以及经过1*1卷积变换的Conv层相加得到不同尺度的特征值M={M2,M3,M4,M5},接着将不同图片的不同尺度{M2,M3,M4,M5}特征图通过3*3的卷积层进行去除由于上采样带来的混叠效应,之后通过全连接层将特征图展成一维的特征向量从而分别作为四个双向LSTM模型的输入,得到输出Ot={Ot2,Ot3,Ot4,Ot5},最后将Ot经过一层全连接层得到最终的预测值。

A feature pyramid network based two-way LSTM micro expression recognition method for depression

The invention provides a bi-directional LSTM micro expression recognition depression method based on feature pyramid network, which includes: firstly, 12 pictures are extracted from the video stream in one second in medium time, 12 pictures are input into the model, then the features of pictures are extracted through RESNET network, and a multi dimension is obtained through multi-layer conv = {conv1, conv2, conv3, conv4, conv5} The image features of {m2, m3, M4, M5} of different scales are obtained by adding two times of up sampling and 1 * 1 convolution transformation of conv layers. Then {m2, m3, M4, M5} of different scales of different pictures are removed through 3 * 3 convolution layer to remove the aliasing effect caused by up sampling. Then, the feature image is expanded into one through full connection layer The feature vector of dimension is used as the input of four bidirectional LSTM models respectively, and the output ot = {OT2, OT3, ot4, ot5} is obtained. Finally, the final prediction value of OT is obtained through a layer of full connection layer.

【技术实现步骤摘要】
一种基于特征金字塔网络的双向LSTM微表情识别抑郁症方法
本专利技术涉及计算机
,特别涉及一种基于特征金字塔网络的双向LSTM微表情识别抑郁症方法。
技术介绍
心理疾病作为众多疾病中较难确诊并不好发现的一种,一直是人们在所有疾病中重视度较低的疾病。基于对心理疾病的抵触心理以及对心理疾病缺乏基本的认识,人们往往会在心理疾病产生初期并没有及时就医,而是选择自己调节,直到心理疾病严重到影响到正常生活甚至生命的时候才迫不得已才进行就医,而抑郁症作为心理疾病中的一个相对普遍的疾病,正或多或少地影响着人们生活的方方面面。如何针对当下社会的心理疾病的情况设计出一个较好的解决方案是一个亟待解决的课题。计算机视觉提供了较好的解决方案,通过摄像头捕捉到人的面部表情并将结果传输到计算机,通过深度学习对获得的图片进行处理分析,从而获得想要的结果。图像识别问题希望借助计算机程序来对图片中的内容进行处理、分析和理解,是的计算机可以区分图片中不同的目标和对象。卷积神经网络作为图像处理中的一种重要技术,可以很好地提取图像中特征信息,现常见的网络架构例如ResNet,VggNet,GoogleNet等等都有比较好的效果,通过卷积神经网络提取出来的高度压缩的特征通过变换成1维特征向量,再通过几层全连接层实现判别物体的输出。特征金字塔网络FPN在保证高速度和高精度的基础上提供了一种可以提取图像中不同尺度的特征,通过将卷积神经网络提取出来的高压缩特征以及在卷积神经网络过程中的隐藏层进行结合,从而得到尺度不相同的特征。把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接,使得所有尺度下的特征都有丰富的语义信息。而心理疾病在脸部表现的往往是面部微表情和小块肌肉的活动,而FPN就提供了比较好的解决方案。循环神经网络(RNN)主要针对输入数据具有依赖性且是序列模式。相比卷积神经网络,网络被赋予对前面的内容的一种“记忆”功能。LSTM是循环神经网络的一种,使用LSTM可以更好的捕捉较长距离的依赖关系。双向LSTM(即BiLSTM)是由前向LSTM与后向LSTM组合而成,可以编码从前到后、从后到前的信息。在更细粒度的微表情识别预测抑郁症(抑郁等级)过程中,需要考虑图片序列的前后特征信息的交互。对此,BiLSTM能提供比较好的解决方法。微表情是引发隐藏某种真实情绪的短暂和不自主的快速面部表情,由于面部微表情的发生时间一般非常短暂,所以近年来对微表情识别一直是计算机视觉中的难点,LBP-TOP和相应的预处理技术已经在微表情识别领域有了较大的突破,本专利技术就通过识别微表情来判断抑郁症这个课题通过对网络结构的改进来更准确地识别抑郁症。
技术实现思路
本专利技术的目的在于:提出了一种基于特征金字塔网络的双向LSTM微表情识别抑郁症方法。该方法不仅可以很好地解决在心理疾病上有关抑郁症的判别问题,而且可以用于其他相关视频分析上面。本专利技术包括了特征提取以及特征串联的方法,其主要步骤包括:。特征提取:通过使用ResNET对原图片进行特征提取。产生不同尺度特征:通过使用特征金字塔网络对ResNET提取出来的特征图片进行一系列卷积求和操作,从而产生不同尺度特征。特征串联:将不同图片中提取出来的相同尺度特征通过使用双向LSTM联,从而得到输出结果。附图说明图1是本专利技术具体实施的流程图。图2是本专利技术具体实施的模型特征提取示意图。图3是本专利技术具体实施例的模型特征产生示意图。具体实施方式本专利技术的实施分为模型的训练和模型的使用两个部分。下面根据附图和实施例,对本专利技术的具体实施方式作进一步详细说明。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。图2是本专利技术具体实施的模型特征提取示意图。该特征金字塔网络的双向LSTM微表情识别抑郁症方法如图1所示。其中,Bottom-up部分为ResNet,可以将处理过的图片送入预训练的特征网络,Top-down部分为FPN核心部分,可以提供不同尺度的特征信息。ResNet网络架构从图像中提取了特征,经过一层层卷积层,图片的大小被压缩,图片中每个像素点所代表的特征值随着层数的增多而增多,最终可以得到高度代表原图片的特征信息。但是因为最终提取出来的特征往往映射了原图片中很大的一部分,所以在这种情况中,图片中微小部分的特征难以较好的表示。本专利技术通过使用特征金字塔网络,将最后的conv5的输出结果经过1*1的卷积非线性变换后作为一层特征M5进入到下一层网络,M5层经过2倍上采样(双线性插值法)和conv4输出结果经过1*1卷积非线性变换进行相加得到该层的输出特征值,同理,M4,M3,M2都是如此。然后通过3*3的卷积层去处理已经融合的特征图,从而消除上采样的混叠效应,得到{P2,P3,P4,P5}。在训练过程中,通过不断的迭代,改变卷积的参数,从而生成最精细的特征,由此可以得到在不同尺度下对原图片的特征值,最终通过一层全连接层展成一维的特征向量,作为下一部分双向LSTM的输入。图3是本专利技术具体实施的模型特征产生示意图。由于需要识别抑郁症,单凭一张图片并不能很好地识别出结果,本专利技术设想通过将一秒中的视频截取为12张图片,根据12个图片的细微变化过程来判别是否有抑郁症。由于涉及时间上的依赖性,并且考虑到序列的前后特征信息的交互,本专利技术通过采用双向LSTM模型进行前向、后向的串联。对FPN输出的不同尺度特征信息{P2,P3,P4,P5},经过一层全连接层展成一维特征向量{Q1,Q2,Q3,Q4},并分别作为四个相对独立的双向LSTM模型的输入,得到双向LSTM网络的输出{Ot2,Ot3,Ot4,Ot5},最后再经过一层全连接层,得到最后的抑郁症识别预测结果。以上所述,仅为本专利技术的具体实施方式,但本专利技术的保护范围并不局限于此,任何熟悉本
的技术人员在本专利技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本专利技术的保护范围之内。因此,本专利技术的保护范围应该以权利要求的保护范围为准。本文档来自技高网
...

【技术保护点】
1.一种基于特征金字塔网络的双向LSTM微表情识别抑郁症方法,其特征包括,包括下列步骤:/n特征提取:将1秒的视频等时间分成12张图片,通过ResNet对图片分别进行特征提取;/n特征产生:通过将ResNet提取出的图像通过图像金字塔进行一系列卷积求和操作,从而产生不同尺度特征;/n特征串联:将不同图片中提取出来的相同尺度特征通过使用双向LSTM网络进行特征串联,从而得到输出结果。/n

【技术特征摘要】
1.一种基于特征金字塔网络的双向LSTM微表情识别抑郁症方法,其特征包括,包括下列步骤:
特征提取:将1秒的视频等时间分成12张图片,通过ResNet对图片分别进行特征提取;
特征产生:通过将ResNet提取出的图像通过图像金字塔进行一系列卷积求和操作,从而产生不同尺度特征;
特征串联:将不同图片中提取出来的相同尺度特征通过使用双向LSTM网络进行特征串联,从而得到输出结果。


2.如权利要求1所述的方法,在特征提取阶段采用ResNet加特征金字塔的形式对图片中的特征进行提取,特点在于使用了残差学习的方法对图像的特征进行提取,使得网络在训练的时候能够更加快速的进行收敛,同时加大网络特征提取的能力;
若将输入设为,将某一有参网络层设为,那么以为输入的此层的输出将为;一般的CNN网络如Alexnet/VGG等会直接通过训练学习出参数函数的表达,从而直接学习;
与传统卷积神经网络不同,残差网络主要特点是能够利用网络每一层有参网络对残差进行学习,即,即学习;其中这一部分为直接的identitymapping,而则为有参网络层要学习的输入输出间的残差,一般的CNN网络只是在最后输出层的时候对映射函数进行拟合,比较困难,这也是为什么普通卷积神经网络比较难以训练的原因;而ResNet不去直接学习映射函数,转而去学习一个残差函数,在这个公式中,只要就构成了一个恒等映射.而且,拟合残差肯定更加容易;
经过第一步RestNet特征提取之后,我们采用特征金字塔网络(FPN)对ResNet提取到的特征进行进一步地处理,得到不同尺寸的特征图,这将在网络进行比较细小的图像部分识别时产生帮助;
在这一阶段FPN的输入是任意大小尺寸的图像,并通过全卷积层输出多个级别的按比例缩放的特征图,对于Re...

【专利技术属性】
技术研发人员:田文洪许凌霄
申请(专利权)人:成都中科云集信息技术有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1