一种多模态情感识别方法、系统、装置及存储介质制造方法及图纸

技术编号：41396090 阅读：25 留言：0更新日期：2024-05-20 19:19

本发明专利技术公开了一种多模态情感识别方法、系统、装置及存储介质，方法包括获取有声视频，分解有声视频得到视频模态数据、音频模态数据和文本模态数据；对三个模态数据的局部特征进行位置编码和段编码，分别得到三个模态数据的输出特征；在三个模态中任选两个为一组，利用模态对齐注意力分支对每一组的输出特征进行跨模态融合，得到跨模态特征；利用调距注意力分支扩大输出特征与平均特征的距离，得到各组的调距特征；基于得到的输出特征、跨模态特征和调距特征，拼接后得到跨模态融合特征，将其输入分类器进行识别后输出情感类别。本发明专利技术通过模态对齐注意力分支，对齐视频、音频和文本之间的对应关系；通过调距注意力分支缓解了特征相似的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于情感识别，具体涉及一种多模态情感识别方法、系统、装置及存储介质。

技术介绍

1、日常生活中，人类情感大多是通过表情变化、肢体动作、语言文字和语音语气表达的。基于计算机视觉的多模态情感识别，就是通过特定算法对摄像头捕获的音频、视频和文字进行解析，让计算机根据目标的表情、动作、文字和语音识别所表达的情感。

2、目前的视频情感分类模型存在以下两方面问题：首先，现有方法即使多个模态一起学习，不同模态之间的时间对齐信息也没有被充分利用，而是将多个模态单独处理；其次，自注意力(self-attention)会使输入特征矩阵以双指数速度快速收敛到秩为1，使得输入序列变得越来越相似，降低了每个时刻特征的可区分性，这对时序识别任务是非常不利的。

技术实现思路

1、本专利技术的目的在于克服现有技术中的不足，提供一种多模态情感识别方法、系统、装置及存储介质，采用模态对齐注意力分支融合多模态特征，采用调距注意力分支缓解特征相似的问题。

2、本专利技术提供了如下的技术方案：

3、第一方面，提供一种多模态情感识别方法，包括：获取有声视频，分解所述有声视频得到视频模态数据、音频模态数据和文本模态数据；对所述视频模态数据、音频模态数据和文本模态数据的局部特征进行位置编码和段编码，分别得到所述视频模态数据、音频模态数据和文本模态数据的输出特征；在三个模态中任选两个为一组，利用模态对齐注意力分支对每一组的所述输出特征进行跨模态融合，得到跨模态特征；利用调距注意力分支扩

4、作为本专利技术的一种优选技术方案，所述获取有声视频，分解所述有声视频得到视频模态数据、音频模态数据和文本模态数据，具体方法包括：从所述有声视频中提取若干视频帧和音频帧；将所述视频帧作为视频模态数据，将所述音频帧作为音频模态数据；对所述视频模态数据和音频模态数据进行视频内容识别和语音识别，得到文本模态数据。

5、作为本专利技术的一种优选技术方案，所述对所述视频模态数据、音频模态数据和文本模态数据的局部特征进行位置编码和段编码，分别得到所述视频模态数据、音频模态数据和文本模态数据的输出特征，具体方法包括：使用resnet50中的conv1-conv4提取所述视频模态数据、音频模态数据和文本模态数据的局部特征；分别对所述视频模态数据、音频模态数据和文本模态数据的局部特征进行cls位置编码，得到各局部特征对应的位置特征；将同一时间段内的所述视频模态数据、音频模态数据和文本模态数据的局部特征用相同段编码进行标注；段编码标注后的各所述局部特征乘上其对应的位置特征，分别得到所述视频模态数据的输出特征、音频模态数据的输出特征和文本模态数据的输出特征

6、作为本专利技术的一种优选技术方案，所述在三个模态中任选两个为一组，利用模态对齐注意力分支对每一组的所述输出特征进行跨模态融合，得到各组的跨模态特征，具体方法包括：

7、在三个模态中任选两个为一组，分为文本和视频组、视频和文本组、文本和音频组、音频和文本组、音频和视频组、视频和音频组，且计算第j个组中第一个模态第i个注意力头对应的查询向量：

8、

9、计算第j个组中第二个模态第i个注意力头对应的键向量和值向量：

10、

11、

12、其中，i表示第i个注意力头，j表示第j个组且1≤j≤6，取整数；表示第j个组中第一个模态第i个注意力头对应的查询向量，表示第j个组中第一个模态第i个注意力头的输出特征，表示的映射权重，表示第j个组中第二个模态第i个注意力头对应的键向量，表示第j个组中第二个模态第i个注意力头的输出特征，表示的映射权重，表示第j个组中第二个模态第i个注意力头对应的值向量，表示的映射权重；

13、基于得到的查询向量、键向量和值向量，所述模态对齐自注意力分支分别对每组模态进行跨模态特征融合，得到的第j个组中第i个注意力头的跨模态特征向量s_headji表示为：

14、

15、其中，softmax()表示softmax激活函数，t表示矩阵转置，dk表示键向量的维数，表示的映射权重，表示第j个组中第一个模态第i个注意力头对应的查询向量，表示第j个组中第二个模态第i个注意力头对应的键向量，表示第j个组中第二个模态第i个注意力头对应的值向量；

16、基于式(4)，将第j个组的各注意力头的跨模态特征向量合并，得到第j个组的跨模态特征crotvj：

17、crotvj＝concat(s_headj1，...，s_headjh)wo (5)

18、其中，s_headj1表示第j个组中第1个注意力头的跨模态特征向量，s_headjh表示第j个组中第h个注意力头的跨模态特征向量，h表示共有h个注意力头，concat()表示连接操作，wo表示各跨模态特征向量的映射权重。

19、作为本专利技术的一种优选技术方案，所述利用调距注意力分支扩大所述输出特征与平均特征的距离，得到调距特征，具体方法包括：

20、将第j个组中第一个模态第i个注意力头对应的查询向量进行合并，得到第j个组中第一个模态的查询向量qj1：

21、

22、其中，表示第j个组中第一个模态第1个注意力头对应的查询向量，表示第j个组中第一个模态第2个注意力头对应的查询向量，表示第j个组中第一个模态第h个注意力头对应的查询向量，u表示并集操作。

23、基于式(6)，所述调距注意力分支通过平均池化层和全连接层获得平均特征，随后扩大所述输出特征与平均特征的距离，得到的第j个组的所述调距特征dj表示为：

24、dj＝relu(fc(avepool(qj1)))*fc(qj1) (7)

25、其中，relu()表示relu激活函数，fc()表示全连接层，avepool()表示平均池化操作，qj1表示第j个组中第一个模态对应的查询向量，*表示标量乘法。

26、作为本专利技术的一种优选技术方案，所述基于得到的所述输出特征、跨模态特征和调距特征，进行拼接后得到跨模态融合特征，具体方法包括：

27、基于式(5)和式(7)，第j个组的所述跨模态融合特征表示为；

28、zj＝dj+crotvj+xj1 (8)

29、其中，zj表示第j个组的跨模态融合特征，xj1表示第j个组中第一个模态的输出特征；

30、将各组的所述跨模态融合特征进行合并，得到全局的跨模态融合特征z：

31、z＝z1+z2+z3+z4+z5+z6 (9)。

32、其中，z1、z2、z3、z4、z5、z6分别表示文本和视频组、视频和文本组、文本和音频组、音频和文本组、音频和视频组、视频和音频组中一组的本文档来自技高网...

【技术保护点】

1.一种多模态情感识别方法，其特征在于，包括：

2.根据权利要求1所述的多模态情感识别方法，其特征在于，所述获取有声视频，分解所述有声视频得到视频模态数据、音频模态数据和文本模态数据，具体方法包括：

3.根据权利要求1所述的多模态情感识别方法，其特征在于，所述对所述视频模态数据、音频模态数据和文本模态数据的局部特征进行位置编码和段编码，分别得到所述视频模态数据、音频模态数据和文本模态数据的输出特征，具体方法包括：

4.根据权利要求1所述的多模态情感识别方法，其特征在于，所述在三个模态中任选两个为一组，利用模态对齐注意力分支对每一组的所述输出特征进行跨模态融合，得到各组的跨模态特征，具体方法包括：

5.根据权利要求4所述的多模态情感识别方法，其特征在于，所述利用调距注意力分支扩大所述输出特征与平均特征的距离，得到调距特征，具体方法包括：

6.根据权利要求5所述的多模态情感识别方法，其特征在于，所述基于得到的所述输出特征、跨模态特征和调距特征，进行拼接后得到跨模态融合特征，具体方法包括：

7.一种多模态情感识别系统，其特征在于，包括：

8.一种多模态情感识别装置，其特征在于，包括处理器及存储介质；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1～6任一项所述多模态情感识别方法的步骤。

...

【技术特征摘要】

1.一种多模态情感识别方法，其特征在于，包括：

4.根据权利要求1所述的多模态情感识别方法，其特征在于，所述在三个模态中任选两个为一组，利用模态对齐注意力分支对每一组的所述输出特征进行跨模态融合，得到各组的跨模态特征...

【专利技术属性】
技术研发人员：张小瑞，原春霖，孙伟，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人