【技术实现步骤摘要】
基于注意力机制与GMN的多模态情感识别方法及系统
[0001]本专利技术涉及情感识别
,特别是涉及基于注意力机制与GMN的多模态情感识别方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]随着人工智能的发展,为了更好的服务于人,希望机器能够更好的识别人的真实表达,从而提供符合人的期望的服务,人机交互的呼声越来越高。然而,大部分所谓的智能终端只能做简单的执行任务,无法做到真正的人机交互。而实现真正的人机交互首要的关键点就在于让智能终端正确识别人们所表现出的情感,这就是所谓的情感识别。在人类发展与交流的过程中,情感表达是一种重要的部分。本专利技术可以通过对人们的语音语调变化、表达用词、面部表情以及肢体动作来进行人与人之间的情感识别。在人工智能领域中,情感识别是涉及到人机交互的重要技术,它融合了语音信号处理、心理学、模式识别、视频图像处理等多种学科,可以应用于教育、交通、医疗等各个领域。
[0004]情感识别在本质上属于计算机技术中的模式 ...
【技术保护点】
【技术特征摘要】
1.基于注意力机制与GMN的多模态情感识别方法,其特征是,包括:对获取的待识别的视频进行预处理,得到待识别的视频的文本特征、语音特征和面部表情特征;将待识别的视频的文本特征、语音特征和面部表情特征,并发输入到训练后的多模态情感识别网络的LSTMs模型中,输出第一特征向量;对LSTMs模型所有相邻时间戳的存储器输出值,进行加权求和,得到第一加权后的特征;将第一加权后的特征,输入到训练后的多模态情感识别网络的门控记忆网络GMN中,输出第二特征向量;训练后的多模态情感识别网络的全局注意力机制网络GTAN,对每个LSTM模型下,所有时间戳的存储器输出值进行加权求和,得到第三特征向量;训练后的多模态情感识别网络对第一、第二和第三特征向量进行融合,得到融合特征向量;对融合特征向量进行情感识别,得到情感识别结果。2.如权利要求1所述的基于注意力机制与GMN的多模态情感识别方法,其特征是,包括:对获取的待识别的视频进行预处理,得到待识别的视频的文本特征、语音特征和面部表情特征;具体步骤包括:对待识别的视频进行分离处理得到音频信号和视频信号;对音频信号进行语音识别得到文本信息;对文本信息进行特征提取,得到文本特征;对音频信号进行特征提取,得到语音特征;对视频信号进行特征提取,得到面部表情特征。3.如权利要求1所述的基于注意力机制与GMN的多模态情感识别方法,其特征是,包括:对获取的待识别的视频进行预处理,得到待识别的视频的文本特征、语音特征和面部表情特征步骤之后,将待识别的视频的文本特征、语音特征和面部表情特征,并发输入到对应的LSTMs模型中,输出第一特征向量步骤之前还包括:对获得的所有特征,进行数据对齐和标准化处理。4.如权利要求1所述的基于注意力机制与GMN的多模态情感识别方法,其特征是,包括:所述多模态情感识别网络,其网络结构包括:LSTMs模型、DTAN模型、GMN模型和GTAN模型;所述LSTMs模型通过DTAN模型与GMN模型连接,GMN模型与融合模块连接;所述LSTMs模型与融合模块连接;所述LSTMs模型与GTAN模型连接,GTAN模型与融合模块连接;融合模块与第一全连接层连接,第一全连接层与第二全连接层连接,第二全连接层与输出层连接。5.如权利要求1所述的基于注意力机制与GMN的多模态情感识别方法,其特征是,包括:所述多模态情感识别网络,训练步骤包括:构建训练集,所述训练集为已知情感类别标签的同一个视频对应的文本特征、语音特征和面部表情特征;将训练集的文本特征,输入到第一LSTM模型中;同时,将训练集的语音特征,输入到第二LSTM模型中;同时,将训练集的面部表情特征,输入到第三LSTM模型中;
将已知情感类别标签,作为多模态情感识别网络的输出值;对多模态情感识别网络进行训练;得到训练后的多模态情感识别网络。6.如权利要求1所述的基于注意力机制与GMN的多模态情感识别方法,其特征是,包括:将待识别的视频的文本特征、语音特征和面部表情特征,并发输入到训练后的多模态情感识别网络的LSTMs模型中,输出第一特征向量;具体步骤包括:将待识别的视频的文本特征,输入到第一LSTM模型中,第一LSTM模型输出第一编码向量;同时,将待识别的视频的语音特征,输入到第二LSTM模型中,第二LSTM模型输出第二编码向量;同时,将待识别的视频的面部表情特征,输入到第三LSTM模型中,第三LSTM模型输出第三编码向量;将第一、第二和第三编码向量进行拼接,得到第一特征向量。7.如权利要求1所述的基于注意力机制与GMN的多模态情感识别方法,其特征是,包括:对LSTMs模型所有相邻时间戳的存储器输出值,进行加权求和,得到第一加权后的特征;具体步骤包括:DTAN的输入是在时间t
‑
1和t处的存储器级联,表示为c
[t
‑
1,t]
;这些记忆传递到可训练的全连接神经网络以获得注意力系数a
[t
‑
1,t]
;a
[t
‑
1,t]
=softmax(D
a<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。