System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种多模态情感识别方法、系统、装置及存储介质制造方法及图纸_技高网

一种多模态情感识别方法、系统、装置及存储介质制造方法及图纸

技术编号:41396090 阅读:25 留言:0更新日期:2024-05-20 19:19
本发明专利技术公开了一种多模态情感识别方法、系统、装置及存储介质,方法包括获取有声视频,分解有声视频得到视频模态数据、音频模态数据和文本模态数据;对三个模态数据的局部特征进行位置编码和段编码,分别得到三个模态数据的输出特征;在三个模态中任选两个为一组,利用模态对齐注意力分支对每一组的输出特征进行跨模态融合,得到跨模态特征;利用调距注意力分支扩大输出特征与平均特征的距离,得到各组的调距特征;基于得到的输出特征、跨模态特征和调距特征,拼接后得到跨模态融合特征,将其输入分类器进行识别后输出情感类别。本发明专利技术通过模态对齐注意力分支,对齐视频、音频和文本之间的对应关系;通过调距注意力分支缓解了特征相似的问题。

【技术实现步骤摘要】

本专利技术属于情感识别,具体涉及一种多模态情感识别方法、系统、装置及存储介质


技术介绍

1、日常生活中,人类情感大多是通过表情变化、肢体动作、语言文字和语音语气表达的。基于计算机视觉的多模态情感识别,就是通过特定算法对摄像头捕获的音频、视频和文字进行解析,让计算机根据目标的表情、动作、文字和语音识别所表达的情感。

2、目前的视频情感分类模型存在以下两方面问题:首先,现有方法即使多个模态一起学习,不同模态之间的时间对齐信息也没有被充分利用,而是将多个模态单独处理;其次,自注意力(self-attention)会使输入特征矩阵以双指数速度快速收敛到秩为1,使得输入序列变得越来越相似,降低了每个时刻特征的可区分性,这对时序识别任务是非常不利的。


技术实现思路

1、本专利技术的目的在于克服现有技术中的不足,提供一种多模态情感识别方法、系统、装置及存储介质,采用模态对齐注意力分支融合多模态特征,采用调距注意力分支缓解特征相似的问题。

2、本专利技术提供了如下的技术方案:

3、第一方面,提供一种多模态情感识别方法,包括:获取有声视频,分解所述有声视频得到视频模态数据、音频模态数据和文本模态数据;对所述视频模态数据、音频模态数据和文本模态数据的局部特征进行位置编码和段编码,分别得到所述视频模态数据、音频模态数据和文本模态数据的输出特征;在三个模态中任选两个为一组,利用模态对齐注意力分支对每一组的所述输出特征进行跨模态融合,得到跨模态特征;利用调距注意力分支扩大所述输出特征与平均特征的距离,得到各组的调距特征;基于得到的所述输出特征、跨模态特征和调距特征,进行拼接后得到跨模态融合特征,将其输入分类器进行情感状态的识别,然后输出情感类别。

4、作为本专利技术的一种优选技术方案,所述获取有声视频,分解所述有声视频得到视频模态数据、音频模态数据和文本模态数据,具体方法包括:从所述有声视频中提取若干视频帧和音频帧;将所述视频帧作为视频模态数据,将所述音频帧作为音频模态数据;对所述视频模态数据和音频模态数据进行视频内容识别和语音识别,得到文本模态数据。

5、作为本专利技术的一种优选技术方案,所述对所述视频模态数据、音频模态数据和文本模态数据的局部特征进行位置编码和段编码,分别得到所述视频模态数据、音频模态数据和文本模态数据的输出特征,具体方法包括:使用resnet50中的conv1-conv4提取所述视频模态数据、音频模态数据和文本模态数据的局部特征;分别对所述视频模态数据、音频模态数据和文本模态数据的局部特征进行cls位置编码,得到各局部特征对应的位置特征;将同一时间段内的所述视频模态数据、音频模态数据和文本模态数据的局部特征用相同段编码进行标注;段编码标注后的各所述局部特征乘上其对应的位置特征,分别得到所述视频模态数据的输出特征、音频模态数据的输出特征和文本模态数据的输出特征

6、作为本专利技术的一种优选技术方案,所述在三个模态中任选两个为一组,利用模态对齐注意力分支对每一组的所述输出特征进行跨模态融合,得到各组的跨模态特征,具体方法包括:

7、在三个模态中任选两个为一组,分为文本和视频组、视频和文本组、文本和音频组、音频和文本组、音频和视频组、视频和音频组,且计算第j个组中第一个模态第i个注意力头对应的查询向量:

8、

9、计算第j个组中第二个模态第i个注意力头对应的键向量和值向量:

10、

11、

12、其中,i表示第i个注意力头,j表示第j个组且1≤j≤6,取整数;表示第j个组中第一个模态第i个注意力头对应的查询向量,表示第j个组中第一个模态第i个注意力头的输出特征,表示的映射权重,表示第j个组中第二个模态第i个注意力头对应的键向量,表示第j个组中第二个模态第i个注意力头的输出特征,表示的映射权重,表示第j个组中第二个模态第i个注意力头对应的值向量,表示的映射权重;

13、基于得到的查询向量、键向量和值向量,所述模态对齐自注意力分支分别对每组模态进行跨模态特征融合,得到的第j个组中第i个注意力头的跨模态特征向量s_headji表示为:

14、

15、其中,softmax()表示softmax激活函数,t表示矩阵转置,dk表示键向量的维数,表示的映射权重,表示第j个组中第一个模态第i个注意力头对应的查询向量,表示第j个组中第二个模态第i个注意力头对应的键向量,表示第j个组中第二个模态第i个注意力头对应的值向量;

16、基于式(4),将第j个组的各注意力头的跨模态特征向量合并,得到第j个组的跨模态特征crotvj:

17、crotvj=concat(s_headj1,...,s_headjh)wo    (5)

18、其中,s_headj1表示第j个组中第1个注意力头的跨模态特征向量,s_headjh表示第j个组中第h个注意力头的跨模态特征向量,h表示共有h个注意力头,concat()表示连接操作,wo表示各跨模态特征向量的映射权重。

19、作为本专利技术的一种优选技术方案,所述利用调距注意力分支扩大所述输出特征与平均特征的距离,得到调距特征,具体方法包括:

20、将第j个组中第一个模态第i个注意力头对应的查询向量进行合并,得到第j个组中第一个模态的查询向量qj1:

21、

22、其中,表示第j个组中第一个模态第1个注意力头对应的查询向量,表示第j个组中第一个模态第2个注意力头对应的查询向量,表示第j个组中第一个模态第h个注意力头对应的查询向量,u表示并集操作。

23、基于式(6),所述调距注意力分支通过平均池化层和全连接层获得平均特征,随后扩大所述输出特征与平均特征的距离,得到的第j个组的所述调距特征dj表示为:

24、dj=relu(fc(avepool(qj1)))*fc(qj1)    (7)

25、其中,relu()表示relu激活函数,fc()表示全连接层,avepool()表示平均池化操作,qj1表示第j个组中第一个模态对应的查询向量,*表示标量乘法。

26、作为本专利技术的一种优选技术方案,所述基于得到的所述输出特征、跨模态特征和调距特征,进行拼接后得到跨模态融合特征,具体方法包括:

27、基于式(5)和式(7),第j个组的所述跨模态融合特征表示为;

28、zj=dj+crotvj+xj1    (8)

29、其中,zj表示第j个组的跨模态融合特征,xj1表示第j个组中第一个模态的输出特征;

30、将各组的所述跨模态融合特征进行合并,得到全局的跨模态融合特征z:

31、z=z1+z2+z3+z4+z5+z6    (9)。

32、其中,z1、z2、z3、z4、z5、z6分别表示文本和视频组、视频和文本组、文本和音频组、音频和文本组、音频和视频组、视频和音频组中一组的本文档来自技高网...

【技术保护点】

1.一种多模态情感识别方法,其特征在于,包括:

2.根据权利要求1所述的多模态情感识别方法,其特征在于,所述获取有声视频,分解所述有声视频得到视频模态数据、音频模态数据和文本模态数据,具体方法包括:

3.根据权利要求1所述的多模态情感识别方法,其特征在于,所述对所述视频模态数据、音频模态数据和文本模态数据的局部特征进行位置编码和段编码,分别得到所述视频模态数据、音频模态数据和文本模态数据的输出特征,具体方法包括:

4.根据权利要求1所述的多模态情感识别方法,其特征在于,所述在三个模态中任选两个为一组,利用模态对齐注意力分支对每一组的所述输出特征进行跨模态融合,得到各组的跨模态特征,具体方法包括:

5.根据权利要求4所述的多模态情感识别方法,其特征在于,所述利用调距注意力分支扩大所述输出特征与平均特征的距离,得到调距特征,具体方法包括:

6.根据权利要求5所述的多模态情感识别方法,其特征在于,所述基于得到的所述输出特征、跨模态特征和调距特征,进行拼接后得到跨模态融合特征,具体方法包括:

7.一种多模态情感识别系统,其特征在于,包括:

8.一种多模态情感识别装置,其特征在于,包括处理器及存储介质;

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~6任一项所述多模态情感识别方法的步骤。

...

【技术特征摘要】

1.一种多模态情感识别方法,其特征在于,包括:

2.根据权利要求1所述的多模态情感识别方法,其特征在于,所述获取有声视频,分解所述有声视频得到视频模态数据、音频模态数据和文本模态数据,具体方法包括:

3.根据权利要求1所述的多模态情感识别方法,其特征在于,所述对所述视频模态数据、音频模态数据和文本模态数据的局部特征进行位置编码和段编码,分别得到所述视频模态数据、音频模态数据和文本模态数据的输出特征,具体方法包括:

4.根据权利要求1所述的多模态情感识别方法,其特征在于,所述在三个模态中任选两个为一组,利用模态对齐注意力分支对每一组的所述输出特征进行跨模态融合,得到各组的跨模态特征...

【专利技术属性】
技术研发人员:张小瑞原春霖孙伟
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1