【技术实现步骤摘要】
本公开涉及面部捕捉,具体为一种多模态多分支融合的宽时间范畴情感识别系统构建方法。
技术介绍
1、多模态情感分析方法可以通过多个模态信息之间的互补,从不同的角度学习情感特征,实现比单模态更好的识别效果。然而,在真实环境中,不同的情感表达方式所展现出的情感强度会存在差异,人类的情感表达有时还会受到其主观的抑制,导致某些模态的情感特征对情感分析的贡献度较低,需要从其他模态的角度去分析其情感状态,因此多模态的情感识别面临着跨模态不平衡的问题。此外,当某个模态出现数据缺失情况,模型的识别效果也会受到影响。基于以上的原因,需要研究如何将不同模态的信息以一种有效的方式进行融合。
技术实现思路
1、为了解决以上的问题,本申请提供一种多模态多分支融合的宽时间范畴情感识别系统构建方法,基于注意力机制的思想设计了鲁棒性较强的多模态多分支融合网络,该网络实现决策级的多模态融合,提升模型在复杂环境下的识别效果。
2、为了达到上述目的,本申请实施例采用的技术方案如下:
3、提供多模态多分支融合
...【技术保护点】
1.多模态多分支融合的宽时间范畴情感识别系统构建方法,其特征在于包括如下步骤:
2.根据权利要求1所述的多模态多分支融合的宽时间范畴情感识别系统构建方法,其特征在于:根据权利要求1所述的多模态多分支融合的宽时间范畴情感识别系统构建方法,其特征在于:音频输入VGGish特征提取模型训练,包括调用FFmpeg工具将视频中的音频提取出来,将其重采样为16kHz的单声道音频;使用窗长为25ms的Hann窗截取音频片段,以10ms的帧移对音频片段实现短时傅里叶变换得到频谱图,使用梅尔尺度滤波器组,计算log(mel-spectrum+0.01),将频谱转化为梅尔声谱
...【技术特征摘要】
1.多模态多分支融合的宽时间范畴情感识别系统构建方法,其特征在于包括如下步骤:
2.根据权利要求1所述的多模态多分支融合的宽时间范畴情感识别系统构建方法,其特征在于:根据权利要求1所述的多模态多分支融合的宽时间范畴情感识别系统构建方法,其特征在于:音频输入vggish特征提取模型训练,包括调用ffmpeg工具将视频中的音频提取出来,将其重采样为16khz的单声道音频;使用窗长为25ms的hann窗截取音频片段,以10ms的帧移对音频片段实现短时傅里叶变换得到频谱图,使用梅尔尺度滤波器组,计算log(mel-spectrum+0.01),将频谱转化为梅尔声谱,每帧时长为10ms,包含64个梅尔频带,将每帧的梅尔声谱进行无重叠的组合,每0.96s的时长为一组,得到每组输入尺寸为96×64的梅尔声谱图;经过转换的梅尔声谱图作为vggish预训练模型的输入,每组输入经过特征提取得到128维的特征表示,在训练过程中,每次随机选取音频样本的维一组特征表示送入两层全连接层,得到28维的分类表示hv;在验证过程中,取每个样本的全部特征表示的均值作为视频级别的特征表示,并送入分类器得到识别结果。
3.根据权利要求1所述的多模态多分支融合的宽时间范畴情感识别系统构建方法,其特征在于:所述bert特征提取模型采用bertbase模型作为文本情感分类...
【专利技术属性】
技术研发人员:卢桂萍,王科俊,张小凤,杨涛,司炜,
申请(专利权)人:北京理工大学珠海学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。