当前位置: 首页 > 专利查询>湖南大学专利>正文

基于子空间稀疏特征融合的多模态情感识别方法及系统技术方案

技术编号:26343470 阅读:49 留言:0更新日期:2020-11-13 20:45
本发明专利技术公开了一种基于子空间稀疏特征融合的多模态情感识别方法及系统,本发明专利技术方法包括获取多种模态的特征序列,并进行字级对齐和规范化处理、位置编码,然后输入对应的多分支稀疏注意力模块、分解至低维特征子空间得到低维特征,基于权重将所有低维特征在低维特征子空间进行级联,通过多分支稀疏注意力网络中训练得到融合后的多模态信息,再输入预先训练好的情感分类器,得到被识别对象当前的情感类别,所述情感分类器被预先训练建议了融合后的多模态信息、情感类别之间的映射。本发明专利技术通过考虑时序信息之间的关联稀疏性,将多模态信息分解至多个子空间中进行融合,能够捕获模态内和模态间的上下文信息,提升了多模态情感识别的准确率。

Multimodal emotion recognition method and system based on subspace sparse feature fusion

【技术实现步骤摘要】
基于子空间稀疏特征融合的多模态情感识别方法及系统
本专利技术涉及多模态人机自然交互技术,具体涉及一种基于子空间稀疏特征融合的多模态情感识别方法及系统。
技术介绍
多模态人机自然交互面临情感化挑战,要攻克多模态人机自然交互中面临的情感化挑战,首先必须解决机器人理解和识别人类情感的问题,因此情感识别是人机交互领域的重要研究课题,近年来取得快速发展。单独利用面部图像或语音信号进行情感识别的准确率处于瓶颈状态,且鲁棒性较差。比起单模态情感识别,多模态情感识别更能全面地利用语音、面部表情图像和文本中的情感信号,进一步提升情感识别水平。因此,越来越多的研究者将目光聚焦于多模态情感识别研究。但是,多模态情感识别存在许多亟待解决和突破的难题,主要包括:第一,不同模态情感特征的表示和融合。音、视频信息通过不同传感器采集,数据格式和捕获速率不同,多模态信号中的情感特征统一表示和融合问题尚未解决。第二,模态信息缺失。现有的多模态情感识别方法一般假设多模态信息完全获取,未考虑某一模态缺失,但在真实环境中噪声、遮挡会导致音、视频模态缺失的情况发生。第三,情感特征本文档来自技高网...

【技术保护点】
1.一种基于子空间稀疏特征融合的多模态情感识别方法,其特征在于,包括:/n1)获取被识别对象当前的多种模态的特征序列;/n2)将多种模态的特征序列进行字级对齐和规范化处理;/n3)将被识别对象的多种模态的特征序列分别通过位置编码得到引入位置信息的特征序列,然后分别将各个模态下引入位置信息的特征序列输入对应的多分支稀疏注意力模块得到各个模态对应的高维特征;/n4)将各个模态对应的高维特征分解至低维特征子空间得到低维特征,为多个低维特征赋予相应的权重,然后基于权重将所有低维特征在低维特征子空间进行级联,得到级联后的低维特征;/n5)将级联后的低维特征通过多分支稀疏注意力网络中训练得到融合后的多模态...

【技术特征摘要】
1.一种基于子空间稀疏特征融合的多模态情感识别方法,其特征在于,包括:
1)获取被识别对象当前的多种模态的特征序列;
2)将多种模态的特征序列进行字级对齐和规范化处理;
3)将被识别对象的多种模态的特征序列分别通过位置编码得到引入位置信息的特征序列,然后分别将各个模态下引入位置信息的特征序列输入对应的多分支稀疏注意力模块得到各个模态对应的高维特征;
4)将各个模态对应的高维特征分解至低维特征子空间得到低维特征,为多个低维特征赋予相应的权重,然后基于权重将所有低维特征在低维特征子空间进行级联,得到级联后的低维特征;
5)将级联后的低维特征通过多分支稀疏注意力网络中训练得到融合后的多模态信息;
6)将融合后的多模态信息输入预先训练好的情感分类器,得到被识别对象当前的情感类别,所述情感分类器被预先训练建议了融合后的多模态信息、情感类别之间的映射。


2.根据权利要求1所述的基于子空间稀疏特征融合的多模态情感识别方法,其特征在于,步骤1)中多种模态的特征包括文本特征序列、音频特征序列和视频特征序列。


3.根据权利要求2所述的基于子空间稀疏特征融合的多模态情感识别方法,其特征在于,步骤2)的步骤包括:将音频特征序列和视频特征序列按照文本特征序列进行对齐,记录第i个单词的起始时间和结束时间,分别平均音频特征序列和视频特征序列相应时间段内的特征,并将对齐后的文本特征序列、音频特征序列和视频特征序列进行归一化处理到[0,1]范围内,最后限制文本内容长度,超出部分进行截取,不足部分进行补0,统一文本特征序列、音频特征序列和视频特征序列的特征维度分别为(20,300)、(20,74)、(20,35)。


4.根据权利要求1所述的基于子空间稀疏特征融合的多模态情感识别方法,其特征在于,步骤3)中位置编码的函数表达式如下式所示:



上式中,pos表示单个特征在输入的特征序列X中的位置,i表示特征所在维度,d代表总的特征维度,PE(pos,2i)表示位置编码矩阵PE中位置pos的维度2i的位置编码,PE(pos,2i+1)表示位置pos的维度2i+1的位置编码,X0表示输入的特征序列,X表示引入位置信息的特征序列,PE表示位置编码矩阵。


5.根据权利要求2所述的基于子空间稀疏特征融合的多模态情感识别方法,其特征在于,步骤3)中的多分支稀疏注意力模块对输入的引入位置信息的特征序列的处理步骤包括:首先针对输入的引入位置信息的特征序列进行多头降维、提取稀疏注意力SparseAttention,同时针对输入的引入位置信息的特征序列通过卷积层提取引入位置信息的特征序列的局部相关性并通过门控线性单元进行激活输出,然后将提取得到的多头特征、门控线性单元激活输出的结果进行相加,得到各个模态对应的高维特征;
其中,进行多头降维是指根据下式将其投影至6个不同的特征空间中,得到投影至6个不同的特征空间中的查询特征、键特征、值特征:



上式中,Wiq、Wik、Wiv分别为查询权重矩阵、键权重矩阵、值权重矩阵,Xiq、Xik、Xiv分别为投影至6个不同的特征空间中的查询特征、键特征、值特征;
其中,提取稀疏注意力SparseAttention是指针对投影至6个不同的特征空间中的查询特征、键特征、值特征根据下式计算第i个特征空间中的稀疏注意力头headi:



上式中,headi为第i个特征空间中的头,SparseAttention为稀疏注意力计算网络,Xiq、Xik、Xiv分别为投影至第i个特征空间中的查询特征、键特征、值特征,dk为输入特征序列的维度,sparse(XiqXikT)为稀疏相似性矩阵,且计算稀疏相似性矩阵sparse(XiqXikT)的函数表达式为:



上式中,X为输入的特征序列,M为输入特征的相似度矩阵,softmax表示softmax函数,Xiq、Xik、Xiv分别为投影至第i个特征空间...

【专利技术属性】
技术研发人员:李树涛马付严孙斌
申请(专利权)人:湖南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1