一种多模态情感识别方法、系统、装置及存储介质制造方法及图纸

技术编号:41396090 阅读:29 留言:0更新日期:2024-05-20 19:19
本发明专利技术公开了一种多模态情感识别方法、系统、装置及存储介质,方法包括获取有声视频,分解有声视频得到视频模态数据、音频模态数据和文本模态数据;对三个模态数据的局部特征进行位置编码和段编码,分别得到三个模态数据的输出特征;在三个模态中任选两个为一组,利用模态对齐注意力分支对每一组的输出特征进行跨模态融合,得到跨模态特征;利用调距注意力分支扩大输出特征与平均特征的距离,得到各组的调距特征;基于得到的输出特征、跨模态特征和调距特征,拼接后得到跨模态融合特征,将其输入分类器进行识别后输出情感类别。本发明专利技术通过模态对齐注意力分支,对齐视频、音频和文本之间的对应关系;通过调距注意力分支缓解了特征相似的问题。

【技术实现步骤摘要】

本专利技术属于情感识别,具体涉及一种多模态情感识别方法、系统、装置及存储介质


技术介绍

1、日常生活中,人类情感大多是通过表情变化、肢体动作、语言文字和语音语气表达的。基于计算机视觉的多模态情感识别,就是通过特定算法对摄像头捕获的音频、视频和文字进行解析,让计算机根据目标的表情、动作、文字和语音识别所表达的情感。

2、目前的视频情感分类模型存在以下两方面问题:首先,现有方法即使多个模态一起学习,不同模态之间的时间对齐信息也没有被充分利用,而是将多个模态单独处理;其次,自注意力(self-attention)会使输入特征矩阵以双指数速度快速收敛到秩为1,使得输入序列变得越来越相似,降低了每个时刻特征的可区分性,这对时序识别任务是非常不利的。


技术实现思路

1、本专利技术的目的在于克服现有技术中的不足,提供一种多模态情感识别方法、系统、装置及存储介质,采用模态对齐注意力分支融合多模态特征,采用调距注意力分支缓解特征相似的问题。

2、本专利技术提供了如下的技术方案:p>

3、第一方本文档来自技高网...

【技术保护点】

1.一种多模态情感识别方法,其特征在于,包括:

2.根据权利要求1所述的多模态情感识别方法,其特征在于,所述获取有声视频,分解所述有声视频得到视频模态数据、音频模态数据和文本模态数据,具体方法包括:

3.根据权利要求1所述的多模态情感识别方法,其特征在于,所述对所述视频模态数据、音频模态数据和文本模态数据的局部特征进行位置编码和段编码,分别得到所述视频模态数据、音频模态数据和文本模态数据的输出特征,具体方法包括:

4.根据权利要求1所述的多模态情感识别方法,其特征在于,所述在三个模态中任选两个为一组,利用模态对齐注意力分支对每一组的所述输出特征进行跨模...

【技术特征摘要】

1.一种多模态情感识别方法,其特征在于,包括:

2.根据权利要求1所述的多模态情感识别方法,其特征在于,所述获取有声视频,分解所述有声视频得到视频模态数据、音频模态数据和文本模态数据,具体方法包括:

3.根据权利要求1所述的多模态情感识别方法,其特征在于,所述对所述视频模态数据、音频模态数据和文本模态数据的局部特征进行位置编码和段编码,分别得到所述视频模态数据、音频模态数据和文本模态数据的输出特征,具体方法包括:

4.根据权利要求1所述的多模态情感识别方法,其特征在于,所述在三个模态中任选两个为一组,利用模态对齐注意力分支对每一组的所述输出特征进行跨模态融合,得到各组的跨模态特征...

【专利技术属性】
技术研发人员:张小瑞原春霖孙伟
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1