【技术实现步骤摘要】
一种基于Transformer的抗噪声多模态情感识别方法
[0001]本专利技术涉及情感识别领域,尤其涉及一种基于Transformer的抗噪声多模态情感识别方法。
技术介绍
[0002]对人类情绪的准确理解有利于多媒体分析、数字娱乐、健康监测、人机交互等多种应用。与传统的只使用单模态数据源的情感识别相比,多模态情感识别探索了不同模态数据的使用,如视频、语音和文本,有利于对于更加准确地理解人类情感。
[0003]近些年来,大多数多模态情感识别方法主要集中在多模态数据融合上,包括基于张量的融合方法和基于注意力的融合方法。基于张量的融合方法旨在通过多线性函数计算获得不同模态的数据的联合表示。例如,TFN使用笛卡尔乘积运算来计算不同模态之间的关系,以获得优越的性能。但是由于笛卡尔积的计算复杂度随着特征维度和模态数量的增加而急剧增加。基于注意力的融合方法主要采用注意力学习机制,使多模态信息之间相互交互。例如Zhao等人提出了一种基于注意力机制的模型VAANET,该模型整合了空间、时间和通道注意力机制并将其应用于视频和语音模态,实现了鲁棒的情感识别。总的来说,大多数注意力方法倾向于探索各种模态的重要性,忽略了模态信息中固有的无用信息的影响。
[0004]尽管目前的研究在融合策略方面取得了很多进展,但减轻噪声信息的负面影响也很重要。具体地说,在多模态输入中存在大量的与情感识别无关的信息,这可以被看作是噪声信息。例如,音频数据中的环境声音与对应视频中的人的微笑无关。因此,对这些与情感无关的琐碎信息进行建模,很可能会 ...
【技术保护点】
【技术特征摘要】
1.一种基于Transformer的抗噪声多模态情感识别方法,其特征在于:包括:S1:将给定预先计算好的多模态序列信息作为输入U;S2:增加噪声至输入U,然后输入至全连接层g后,得到包含噪声的多模态输入U
′
;S3:通过NRGF提取器和MF提取器从多模态输入U
′
中分别提取抗噪通用特征NRGFs和多模态特征MFs;S4:使用噪声感知学习机制,采用多模态Transformer,对提取到的抗噪通用特征NRGFs和多模态特征MFs进行融合;S5:对Transformer的输出应用情感分类层,最终得到情感识别输出2.如权利要求1所述的一种基于Transformer的抗噪声多模态情感识别方法,其特征在于:步骤S1中,所述输入U包括语音U
a
、视频U
v
和文本U
t
,,N
v
表示语音序列中每个特征向量的维度,N
a
和N
t
分别表示视频和文本序列中每个特征向量的维度,T是每个模态的序列的长度。3.如权利要求1所述的一种基于Transformer的抗噪声多模态情感识别方法,其特征在于:步骤S2中,多模态输入U
′
为:其中,表示将噪声信息σ添加到输入U的过程,g()表示全连接层。4.如权利要求3所述的一种基于Transformer的抗噪声多模态情感识别方法,其特征在于:噪声信息σ主要包括两类类型:(1)所有的输入多模态数据都包含随机噪声信息;(2)只有特定模态的输入数据包含随机噪声信息。5.如权利要求1所述的一种基于Transformer的抗噪声多模态情感识别方法,其特征在于:步骤S2中,U
′
={U
′
a
,U
′
v
,U
′
t
},U
′
a
,U
′
v
,U
′
t
分别表示加噪后的语音、视频和文本信息,其中每个模态的维度为T
×
【专利技术属性】
技术研发人员:刘袁缘,张浩宇,殷广豪,李康林,陈哲,詹忆冰,
申请(专利权)人:中国地质大学武汉,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。