【技术实现步骤摘要】
本专利技术属于情感识别,具体涉及一种多模态情感识别方法、系统、装置及存储介质。
技术介绍
1、日常生活中,人类情感大多是通过表情变化、肢体动作、语言文字和语音语气表达的。基于计算机视觉的多模态情感识别,就是通过特定算法对摄像头捕获的音频、视频和文字进行解析,让计算机根据目标的表情、动作、文字和语音识别所表达的情感。
2、目前的视频情感分类模型存在以下两方面问题:首先,现有方法即使多个模态一起学习,不同模态之间的时间对齐信息也没有被充分利用,而是将多个模态单独处理;其次,自注意力(self-attention)会使输入特征矩阵以双指数速度快速收敛到秩为1,使得输入序列变得越来越相似,降低了每个时刻特征的可区分性,这对时序识别任务是非常不利的。
技术实现思路
1、本专利技术的目的在于克服现有技术中的不足,提供一种多模态情感识别方法、系统、装置及存储介质,采用模态对齐注意力分支融合多模态特征,采用调距注意力分支缓解特征相似的问题。
2、本专利技术提供了如下的技术方案:
...【技术保护点】
1.一种多模态情感识别方法,其特征在于,包括:
2.根据权利要求1所述的多模态情感识别方法,其特征在于,所述获取有声视频,分解所述有声视频得到视频模态数据、音频模态数据和文本模态数据,具体方法包括:
3.根据权利要求1所述的多模态情感识别方法,其特征在于,所述对所述视频模态数据、音频模态数据和文本模态数据的局部特征进行位置编码和段编码,分别得到所述视频模态数据、音频模态数据和文本模态数据的输出特征,具体方法包括:
4.根据权利要求1所述的多模态情感识别方法,其特征在于,所述在三个模态中任选两个为一组,利用模态对齐注意力分支对每一组的
...【技术特征摘要】
1.一种多模态情感识别方法,其特征在于,包括:
2.根据权利要求1所述的多模态情感识别方法,其特征在于,所述获取有声视频,分解所述有声视频得到视频模态数据、音频模态数据和文本模态数据,具体方法包括:
3.根据权利要求1所述的多模态情感识别方法,其特征在于,所述对所述视频模态数据、音频模态数据和文本模态数据的局部特征进行位置编码和段编码,分别得到所述视频模态数据、音频模态数据和文本模态数据的输出特征,具体方法包括:
4.根据权利要求1所述的多模态情感识别方法,其特征在于,所述在三个模态中任选两个为一组,利用模态对齐注意力分支对每一组的所述输出特征进行跨模态融合,得到各组的跨模态特征...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。