一种基于Transformer的抗噪声多模态情感识别方法技术

技术编号:37962043 阅读:18 留言:0更新日期:2023-06-30 09:37
本发明专利技术提供了一种基于Transformer的抗噪声多模态情感识别方法,将给定预先计算好的多模态序列信息作为输入U;增加噪声至输入U,然后输入至全连接层g后,得到包含噪声的多模态输入U

【技术实现步骤摘要】
一种基于Transformer的抗噪声多模态情感识别方法


[0001]本专利技术涉及情感识别领域,尤其涉及一种基于Transformer的抗噪声多模态情感识别方法。

技术介绍

[0002]对人类情绪的准确理解有利于多媒体分析、数字娱乐、健康监测、人机交互等多种应用。与传统的只使用单模态数据源的情感识别相比,多模态情感识别探索了不同模态数据的使用,如视频、语音和文本,有利于对于更加准确地理解人类情感。
[0003]近些年来,大多数多模态情感识别方法主要集中在多模态数据融合上,包括基于张量的融合方法和基于注意力的融合方法。基于张量的融合方法旨在通过多线性函数计算获得不同模态的数据的联合表示。例如,TFN使用笛卡尔乘积运算来计算不同模态之间的关系,以获得优越的性能。但是由于笛卡尔积的计算复杂度随着特征维度和模态数量的增加而急剧增加。基于注意力的融合方法主要采用注意力学习机制,使多模态信息之间相互交互。例如Zhao等人提出了一种基于注意力机制的模型VAANET,该模型整合了空间、时间和通道注意力机制并将其应用于视频和语音模态,实现了鲁棒的情感识别。总的来说,大多数注意力方法倾向于探索各种模态的重要性,忽略了模态信息中固有的无用信息的影响。
[0004]尽管目前的研究在融合策略方面取得了很多进展,但减轻噪声信息的负面影响也很重要。具体地说,在多模态输入中存在大量的与情感识别无关的信息,这可以被看作是噪声信息。例如,音频数据中的环境声音与对应视频中的人的微笑无关。因此,对这些与情感无关的琐碎信息进行建模,很可能会影响多模态融合和最终的情感识别性能。噪音信息会大大降低情绪识别的准确性,这进一步意味着提取对噪声不敏感的特征对准确的情感理解是有益的。然而目前关于多模态情感识别的工作在此方面缺乏足够的研究。

技术实现思路

[0005]为了解决上述问题,本专利技术提供了一种基于Transformer(Noise

Resistant Multimodal Transformer,NORM

TR)的抗噪声多模态情感识别方法,以解决噪声信息对多模态情感识别的不利影响。该抗噪声多模态情感识别方法,首先使NORM

TR从多模态输入中提取抗噪通用特征(NRGFs)和多模态特征(MFs)。然后采用多模态Transformer,根据多模态特征与NRGFs的关系对MFs进行整合,从实现一个端到端的抗噪多模态情感识别。
[0006]S1:将给定预先计算好的多模态序列信息作为输入U;
[0007]S2:增加噪声至输入U,然后输入至全连接层g后,得到包含噪声的多模态输入U


[0008]S3:通过NRGF提取器和MF提取器从多模态输入U

中分别提取抗噪通用特征NRGFs和多模态特征MFs;
[0009]S4:使用噪声感知学习机制,采用多模态Transformer,对提取到的抗噪通用特征NRGFs和多模态特征MFs进行融合;
[0010]S5:对Transformer的输出应用情感分类层,最终得到情感识别输出
[0011]进一步地,所述输入U包括语音U
a
、视频U
v
和文本U
t
,,N
v
表示语音序列中每个特征向量的维度,N
a
和N
t
分别表示视频和文本序列中每个特征向量的维度,T是每个模态的序列的长度。
[0012]进一步地,多模态输入U

为:
[0013][0014]其中,表示将噪声信息σ添加到输入U的过程,g()表示全连接层。
[0015]进一步地,噪声信息σ主要包括两类:(1)所有的输入多模态数据都包含随机噪声信息;(2)只有特定模态的输入数据包含随机噪声信息。
[0016]进一步地,U

={U

a
,U

v
,U

t
},U

a
,U

v
,U

t
分别表示加噪后的语音、视频和文本信息,其中每个模态的维度为T
×
N,T是每个模态的序列的长度,N是特征向量的统一长度。
[0017]进一步地,采用多层感知器实现NRGF提取器,该过程可以表述为:
[0018][0019]其中,F
NR
表示提取到的特征NRGFs,表示NRGF提取器,MLP
NR
()表示具有共享参数的多层感知器,U

表示包含噪声的多模态输入,θ
NR
表示该多层感知器对应的参数。
[0020]进一步地,采用多层感知器实现MF提取器,该过程可以表述为:
[0021][0022]其中,F
M
表示提取到的特征MFs,表示MF提取器,MLP
M
()表示三个分离的多层感知器,U

表示包含噪声的多模态输入,θ
*
表示三个分离的多层感知器对应的参数,*∈{a,v,t}。
[0023]进一步地,噪声感知学习机制中,使用符号分别表示判断两种噪声类型的判别器,判别器用于判断输入的特征是否包含与模态有关的模式,判别器用于帮助训练NRGF提取器,识别一个模态是否包含噪声。
[0024]进一步地,融合公式为:H=Trans(q=F
NR
,k/v=F
M
)
[0025]其中,H表示融合后的输出特征,q、k、v分别表示Transformer中的查询向量、键向量和值向量,Trans(
·
)表示Transformer,F
NR
表示提取到的特征NRGFs,F
M
表示提取到的特征MF
S

[0026]进一步地,情感识别输出为:
[0027][0028]其中,表示情感识别输出,Classifier(
·
)表示情感分类层,,H表示融合后的输出。
[0029]本专利技术提供的技术方案带来的有益效果是:显著提高了情感识别的准确性。
附图说明
[0030]下面将结合附图及实施例对本专利技术作进一步说明,附图中:
[0031]图1是本专利技术实施例中常见的多模态融合方法与本专利技术提出的NORM

TR的比较图。
[0032]图2是本专利技术实施例中一种基于Transformer的抗噪声多模态情感识别方法的整体网络结构图。
[0033]图3是本专利技术实施例中对输入数据增加噪声的示意图。
[0034]图4是本专利技术实施例中噪声感知学习机制的网络结构图。
具体实施方式
[0035]为了对本专利技术的技术特征、目的和效果有更加清楚的理解,现对照附图详细本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的抗噪声多模态情感识别方法,其特征在于:包括:S1:将给定预先计算好的多模态序列信息作为输入U;S2:增加噪声至输入U,然后输入至全连接层g后,得到包含噪声的多模态输入U

;S3:通过NRGF提取器和MF提取器从多模态输入U

中分别提取抗噪通用特征NRGFs和多模态特征MFs;S4:使用噪声感知学习机制,采用多模态Transformer,对提取到的抗噪通用特征NRGFs和多模态特征MFs进行融合;S5:对Transformer的输出应用情感分类层,最终得到情感识别输出2.如权利要求1所述的一种基于Transformer的抗噪声多模态情感识别方法,其特征在于:步骤S1中,所述输入U包括语音U
a
、视频U
v
和文本U
t
,,N
v
表示语音序列中每个特征向量的维度,N
a
和N
t
分别表示视频和文本序列中每个特征向量的维度,T是每个模态的序列的长度。3.如权利要求1所述的一种基于Transformer的抗噪声多模态情感识别方法,其特征在于:步骤S2中,多模态输入U

为:其中,表示将噪声信息σ添加到输入U的过程,g()表示全连接层。4.如权利要求3所述的一种基于Transformer的抗噪声多模态情感识别方法,其特征在于:噪声信息σ主要包括两类类型:(1)所有的输入多模态数据都包含随机噪声信息;(2)只有特定模态的输入数据包含随机噪声信息。5.如权利要求1所述的一种基于Transformer的抗噪声多模态情感识别方法,其特征在于:步骤S2中,U

={U

a
,U

v
,U

t
},U

a
,U

v
,U

t
分别表示加噪后的语音、视频和文本信息,其中每个模态的维度为T
×

【专利技术属性】
技术研发人员:刘袁缘张浩宇殷广豪李康林陈哲詹忆冰
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1