System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于情感识别,具体涉及一种多模态情感识别方法、系统、装置及存储介质。
技术介绍
1、日常生活中,人类情感大多是通过表情变化、肢体动作、语言文字和语音语气表达的。基于计算机视觉的多模态情感识别,就是通过特定算法对摄像头捕获的音频、视频和文字进行解析,让计算机根据目标的表情、动作、文字和语音识别所表达的情感。
2、目前的视频情感分类模型存在以下两方面问题:首先,现有方法即使多个模态一起学习,不同模态之间的时间对齐信息也没有被充分利用,而是将多个模态单独处理;其次,自注意力(self-attention)会使输入特征矩阵以双指数速度快速收敛到秩为1,使得输入序列变得越来越相似,降低了每个时刻特征的可区分性,这对时序识别任务是非常不利的。
技术实现思路
1、本专利技术的目的在于克服现有技术中的不足,提供一种多模态情感识别方法、系统、装置及存储介质,采用模态对齐注意力分支融合多模态特征,采用调距注意力分支缓解特征相似的问题。
2、本专利技术提供了如下的技术方案:
3、第一方面,提供一种多模态情感识别方法,包括:获取有声视频,分解所述有声视频得到视频模态数据、音频模态数据和文本模态数据;对所述视频模态数据、音频模态数据和文本模态数据的局部特征进行位置编码和段编码,分别得到所述视频模态数据、音频模态数据和文本模态数据的输出特征;在三个模态中任选两个为一组,利用模态对齐注意力分支对每一组的所述输出特征进行跨模态融合,得到跨模态特征;利用调距注意力分支扩
4、作为本专利技术的一种优选技术方案,所述获取有声视频,分解所述有声视频得到视频模态数据、音频模态数据和文本模态数据,具体方法包括:从所述有声视频中提取若干视频帧和音频帧;将所述视频帧作为视频模态数据,将所述音频帧作为音频模态数据;对所述视频模态数据和音频模态数据进行视频内容识别和语音识别,得到文本模态数据。
5、作为本专利技术的一种优选技术方案,所述对所述视频模态数据、音频模态数据和文本模态数据的局部特征进行位置编码和段编码,分别得到所述视频模态数据、音频模态数据和文本模态数据的输出特征,具体方法包括:使用resnet50中的conv1-conv4提取所述视频模态数据、音频模态数据和文本模态数据的局部特征;分别对所述视频模态数据、音频模态数据和文本模态数据的局部特征进行cls位置编码,得到各局部特征对应的位置特征;将同一时间段内的所述视频模态数据、音频模态数据和文本模态数据的局部特征用相同段编码进行标注;段编码标注后的各所述局部特征乘上其对应的位置特征,分别得到所述视频模态数据的输出特征、音频模态数据的输出特征和文本模态数据的输出特征
6、作为本专利技术的一种优选技术方案,所述在三个模态中任选两个为一组,利用模态对齐注意力分支对每一组的所述输出特征进行跨模态融合,得到各组的跨模态特征,具体方法包括:
7、在三个模态中任选两个为一组,分为文本和视频组、视频和文本组、文本和音频组、音频和文本组、音频和视频组、视频和音频组,且计算第j个组中第一个模态第i个注意力头对应的查询向量:
8、
9、计算第j个组中第二个模态第i个注意力头对应的键向量和值向量:
10、
11、
12、其中,i表示第i个注意力头,j表示第j个组且1≤j≤6,取整数;表示第j个组中第一个模态第i个注意力头对应的查询向量,表示第j个组中第一个模态第i个注意力头的输出特征,表示的映射权重,表示第j个组中第二个模态第i个注意力头对应的键向量,表示第j个组中第二个模态第i个注意力头的输出特征,表示的映射权重,表示第j个组中第二个模态第i个注意力头对应的值向量,表示的映射权重;
13、基于得到的查询向量、键向量和值向量,所述模态对齐自注意力分支分别对每组模态进行跨模态特征融合,得到的第j个组中第i个注意力头的跨模态特征向量s_headji表示为:
14、
15、其中,softmax()表示softmax激活函数,t表示矩阵转置,dk表示键向量的维数,表示的映射权重,表示第j个组中第一个模态第i个注意力头对应的查询向量,表示第j个组中第二个模态第i个注意力头对应的键向量,表示第j个组中第二个模态第i个注意力头对应的值向量;
16、基于式(4),将第j个组的各注意力头的跨模态特征向量合并,得到第j个组的跨模态特征crotvj:
17、crotvj=concat(s_headj1,...,s_headjh)wo (5)
18、其中,s_headj1表示第j个组中第1个注意力头的跨模态特征向量,s_headjh表示第j个组中第h个注意力头的跨模态特征向量,h表示共有h个注意力头,concat()表示连接操作,wo表示各跨模态特征向量的映射权重。
19、作为本专利技术的一种优选技术方案,所述利用调距注意力分支扩大所述输出特征与平均特征的距离,得到调距特征,具体方法包括:
20、将第j个组中第一个模态第i个注意力头对应的查询向量进行合并,得到第j个组中第一个模态的查询向量qj1:
21、
22、其中,表示第j个组中第一个模态第1个注意力头对应的查询向量,表示第j个组中第一个模态第2个注意力头对应的查询向量,表示第j个组中第一个模态第h个注意力头对应的查询向量,u表示并集操作。
23、基于式(6),所述调距注意力分支通过平均池化层和全连接层获得平均特征,随后扩大所述输出特征与平均特征的距离,得到的第j个组的所述调距特征dj表示为:
24、dj=relu(fc(avepool(qj1)))*fc(qj1) (7)
25、其中,relu()表示relu激活函数,fc()表示全连接层,avepool()表示平均池化操作,qj1表示第j个组中第一个模态对应的查询向量,*表示标量乘法。
26、作为本专利技术的一种优选技术方案,所述基于得到的所述输出特征、跨模态特征和调距特征,进行拼接后得到跨模态融合特征,具体方法包括:
27、基于式(5)和式(7),第j个组的所述跨模态融合特征表示为;
28、zj=dj+crotvj+xj1 (8)
29、其中,zj表示第j个组的跨模态融合特征,xj1表示第j个组中第一个模态的输出特征;
30、将各组的所述跨模态融合特征进行合并,得到全局的跨模态融合特征z:
31、z=z1+z2+z3+z4+z5+z6 (9)。
32、其中,z1、z2、z3、z4、z5、z6分别表示文本和视频组、视频和文本组、文本和音频组、音频和文本组、音频和视频组、视频和音频组中一组的本文档来自技高网...
【技术保护点】
1.一种多模态情感识别方法,其特征在于,包括:
2.根据权利要求1所述的多模态情感识别方法,其特征在于,所述获取有声视频,分解所述有声视频得到视频模态数据、音频模态数据和文本模态数据,具体方法包括:
3.根据权利要求1所述的多模态情感识别方法,其特征在于,所述对所述视频模态数据、音频模态数据和文本模态数据的局部特征进行位置编码和段编码,分别得到所述视频模态数据、音频模态数据和文本模态数据的输出特征,具体方法包括:
4.根据权利要求1所述的多模态情感识别方法,其特征在于,所述在三个模态中任选两个为一组,利用模态对齐注意力分支对每一组的所述输出特征进行跨模态融合,得到各组的跨模态特征,具体方法包括:
5.根据权利要求4所述的多模态情感识别方法,其特征在于,所述利用调距注意力分支扩大所述输出特征与平均特征的距离,得到调距特征,具体方法包括:
6.根据权利要求5所述的多模态情感识别方法,其特征在于,所述基于得到的所述输出特征、跨模态特征和调距特征,进行拼接后得到跨模态融合特征,具体方法包括:
7.一种多模态情感识别系
8.一种多模态情感识别装置,其特征在于,包括处理器及存储介质;
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~6任一项所述多模态情感识别方法的步骤。
...【技术特征摘要】
1.一种多模态情感识别方法,其特征在于,包括:
2.根据权利要求1所述的多模态情感识别方法,其特征在于,所述获取有声视频,分解所述有声视频得到视频模态数据、音频模态数据和文本模态数据,具体方法包括:
3.根据权利要求1所述的多模态情感识别方法,其特征在于,所述对所述视频模态数据、音频模态数据和文本模态数据的局部特征进行位置编码和段编码,分别得到所述视频模态数据、音频模态数据和文本模态数据的输出特征,具体方法包括:
4.根据权利要求1所述的多模态情感识别方法,其特征在于,所述在三个模态中任选两个为一组,利用模态对齐注意力分支对每一组的所述输出特征进行跨模态融合,得到各组的跨模态特征...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。