一种情感识别方法、装置、设备及可读存储介质制造方法及图纸

技术编号:32211059 阅读:14 留言:0更新日期:2022-02-09 17:16
本申请公开了一种情感识别方法、情感识别装置、设备及可读存储介质,考虑到不同模态之间特征对最终情感识别任务的判别性贡献不同,在提取到各模态的特征向量之后,分别利用不同权重的长短时记忆网络对各模态的特征向量进行编码,得到对应的隐含状态向量。为了充分利用文本特征在情感识别当中的强判别性,采用跨越的连接方式和注意力之后的音频隐含状态向量和视频隐含状态向量进行跨层次的拼接,得到融合表达向量,进而拼接相关向量得到综合特征。最终,利用综合特征,得到目标对象的情感识别结果。即,基于非均匀的注意力机制来融合不同模态的特征向量,能够有效提升信息判别性,最终使得情感识别结果更加准确。最终使得情感识别结果更加准确。最终使得情感识别结果更加准确。

【技术实现步骤摘要】
一种情感识别方法、装置、设备及可读存储介质


[0001]本申请涉及计算机应用
,特别是涉及一种情感识别方法、装置、设备及可读存储介质。

技术介绍

[0002]在人们日常的交互过程中,情感占据着重要的部分。而在应用中,交互从早期的键盘输入到如今的触屏,甚至是语音输入等。在应用中,语音输入,更多识别的还停留在语义内容的层面,如语音翻译成文本,但是这种翻译完全损失了情感相关的信息。
[0003]为了使应用能够提供更好的人机交互体验,通过情感识别来将情感信息添加到人机交互当中。早期的情感识别一般是单模态,识别出文本或者语音当中携带的情感信息。但人类情感的自然传递是一个多个感官协同表达的结果。不仅仅是语言中携带的情感,如语调也携带着情感的信息,随后主要基于双模态的情感识别,主要集中在文本和声音。而后,计算机视觉也加入到情感识别中。
[0004]即,情感识别已经集中于基于多模态,如视觉,音频和文本三个方面的信息来做出最终的情感识别结果。但是,现有的多模态融合算法应用到具体情感识别当中,存在提取的多模态信息判别性差的问题,进而导致情感识别结果不准确,无法满足实际应用需求。
[0005]综上所述,如何有效地解决情感识别中信息判别性差等问题,是目前本领域技术人员急需解决的技术问题。

技术实现思路

[0006]本申请的目的是提供一种情感识别方法、装置、设备及可读存储介质,基于非均匀的注意力机制来融合不同模态的特征向量,能够有效提升信息判别性,最终使得情感识别结果更加准确。
[0007]为解决上述技术问题,本申请提供如下技术方案:
[0008]一种情感识别方法,包括:
[0009]对目标对象对应的文本、音频和视频进行特征提取,得到文本特征向量、音频特征向量和视频特征向量;
[0010]分别利用不同权重的长短时记忆网络对所述文本特征向量、所述音频特征向量和所述视频特征向量进行编码,得到文本隐含状态向量、音频隐含状态向量和视频隐含状态向量;
[0011]将所述文本隐含状态向量分别与所述音频隐含状态向量、所述视频隐含状态向量进行特征拼接,得到文本音频拼接向量和文本视频拼接向量;
[0012]获取文本音频注意权重和文本视频注意权重;
[0013]利用所述文本音频拼接向量、所述文本视频拼接向量、所述文本音频注意权重和所述文本视频注意权重,得到非均匀注意力的融合表达向量;
[0014]拼接所述融合表达向量、所述文本隐含状态向量、所述音频隐含状态向量和所述
视频隐含状态向量,得到综合特征;
[0015]利用所述综合特征,得到所述目标对象的情感识别结果。
[0016]优选地,所述获取文本音频注意权重和文本视频注意权重,包括:
[0017]将所述文本隐含状态向量和所述音频隐含状态向量输入至音频注意力层,得到输出的所述文本音频注意权重;
[0018]将所述文本隐含状态向量和所述视频隐含状态向量输入至视频注意力层,得到输出的所述文本视频注意权重。
[0019]优选地,利用所述综合特征,得到所述目标对象的情感识别结果,包括:
[0020]对所述综合特征进行线性映射,得到所述目标对象的情感识别结果。
[0021]优选地,对所述综合特征进行线性映射,得到所述目标对象的情感识别结果,包括:
[0022]对所述综合特征进行预设情感识别类别数目的线性映射,得到所述目标对象的情感识别结果。
[0023]优选地,在利用所述综合特征,得到所述目标对象的情感识别结果之后,还包括:
[0024]向所述目标对象输出与所述情感识别结果匹配的交互信息。
[0025]优选地,利用所述文本音频拼接向量、所述文本音频注意权重、所述文本视频拼接向量和所述文本视频注意权重,得到非均匀注意力的融合表达向量,包括:
[0026]对所述文本音频拼接向量和所述文本音频注意权重进行相乘处理,得到文本音频加权向量;
[0027]对所述文本视频拼接向量和所述文本视频注意权重进行相乘处理,得到文本视频加权向量;
[0028]利用降维层对所述文本音频加权向量和所述文本视频加权向量进行降维,得到文本音频降维向量和文本视频降维向量;
[0029]拼接所述文本音频降维向量和所述文本视频降维向量,并在拼接后进行归一化处理,得到所述融合表达向量。
[0030]优选地,还包括:
[0031]对所述文本隐含状态向量进行降维,得到文本隐含状态降维向量;
[0032]相应地,所述拼接所述文本音频降维向量和所述文本视频降维向量,并在拼接后进行归一化处理,得到所述融合表达向量,包括:
[0033]拼接所述文本音频降维向量、所述文本视频降维向量和所述文本隐含状态降维向量,并在拼接后进行归一化处理,得到所述融合表达向量。
[0034]一种情感识别装置,包括:
[0035]特征提取模块,用于对目标对象对应的文本、音频和视频进行特征提取,得到文本特征向量、音频特征向量和视频特征向量;
[0036]特征编码模块,用于分别利用不同权重的长短时记忆网络对所述文本特征向量、所述音频特征向量和所述视频特征向量进行编码,得到文本隐含状态向量、音频隐含状态向量和视频隐含状态向量;
[0037]特征拼接模块,用于将所述文本隐含状态向量分别与所述音频隐含状态向量、所述视频隐含状态向量进行特征拼接,得到文本音频拼接向量和文本视频拼接向量;
[0038]权重确定模块,用于获取文本音频注意权重和文本视频注意权重;
[0039]权重融合模块,用于利用所述文本音频拼接向量、所述文本视频拼接向量、所述文本音频注意权重和所述文本视频注意权重,得到非均匀注意力的融合表达向量;
[0040]综合特征获取模块,用于拼接所述融合表达向量、所述文本隐含状态向量、所述音频隐含状态向量和所述视频隐含状态向量,得到综合特征;
[0041]识别结果确定模块,用于利用所述综合特征,得到所述目标对象的情感识别结果。
[0042]一种电子设备,包括:
[0043]存储器,用于存储计算机程序;
[0044]处理器,用于执行所述计算机程序时实现上述情感识别方法的步骤。
[0045]一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述情感识别方法的步骤。
[0046]应用本申请实施例所提供的方法,对目标对象对应的文本、音频和视频进行特征提取,得到文本特征向量、音频特征向量和视频特征向量;分别利用不同权重的长短时记忆网络对文本特征向量、音频特征向量和视频特征向量进行编码,得到文本隐含状态向量、音频隐含状态向量和视频隐含状态向量;将文本隐含状态向量分别与音频隐含状态向量、视频隐含状态向量进行特征拼接,得到文本音频拼接向量和文本视频拼接向量;获取文本音频注意权重和文本视频注意权重;利用所述文本音频拼接向量、所述文本视频拼接向量、所述文本音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种情感识别方法,其特征在于,包括:对目标对象对应的文本、音频和视频进行特征提取,得到文本特征向量、音频特征向量和视频特征向量;分别利用不同权重的长短时记忆网络对所述文本特征向量、所述音频特征向量和所述视频特征向量进行编码,得到文本隐含状态向量、音频隐含状态向量和视频隐含状态向量;将所述文本隐含状态向量分别与所述音频隐含状态向量、所述视频隐含状态向量进行特征拼接,得到文本音频拼接向量和文本视频拼接向量;获取文本音频注意权重和文本视频注意权重;利用所述文本音频拼接向量、所述文本视频拼接向量、所述文本音频注意权重和所述文本视频注意权重,得到非均匀注意力的融合表达向量;拼接所述融合表达向量、所述文本隐含状态向量、所述音频隐含状态向量和所述视频隐含状态向量,得到综合特征;利用所述综合特征,得到所述目标对象的情感识别结果。2.根据权利要求1所述的情感识别方法,其特征在于,所述获取文本音频注意权重和文本视频注意权重,包括:将所述文本隐含状态向量和所述音频隐含状态向量输入至音频注意力层,得到输出的所述文本音频注意权重;将所述文本隐含状态向量和所述视频隐含状态向量输入至视频注意力层,得到输出的所述文本视频注意权重。3.根据权利要求1所述的情感识别方法,其特征在于,利用所述综合特征,得到所述目标对象的情感识别结果,包括:对所述综合特征进行线性映射,得到所述目标对象的情感识别结果。4.根据权利要求3所述的情感识别方法,其特征在于,对所述综合特征进行线性映射,得到所述目标对象的情感识别结果,包括:对所述综合特征进行预设情感识别类别数目的线性映射,得到所述目标对象的情感识别结果。5.根据权利要求1所述的情感识别方法,其特征在于,在利用所述综合特征,得到所述目标对象的情感识别结果之后,还包括:向所述目标对象输出与所述情感识别结果匹配的交互信息。6.根据权利要求1至5任一项所述的情感识别方法,其特征在于,利用所述文本音频拼接向量、所述文本视频拼接向量、所述文本音频注意权重和所述文本视频注意权重,得到非均匀注意力的融合表达向量,包括:对所述文本音频拼接向量和所述文本音频注意权重进行相乘处理,得到文本音频加权向量...

【专利技术属性】
技术研发人员:王斌强董刚赵雅倩李仁刚曹其春刘海威
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1