一种混合特征融合和决策融合的多模态情感识别方法技术

技术编号:28463651 阅读:20 留言:0更新日期:2021-05-15 21:29
一种混合特征融合和决策融合的多模态情感识别方法,属于模式识别和情感识别领域。本发明专利技术实现方法为:一、使用卷积神经网络框架构建图像情感识别网络,获取图像特征以及图像情感状态;二、使用循环神经网络框架构建文本情感识别网络,获取文本特征以及文本情感状态;三、构建多模态信息融合情感识别网络,构建主分类器用于融合图像情感状态和文本情感状态并获取主情感分类,构建辅助分类器用于融合图像特征与文本特征并获取辅助情感分类,融合主情感分类与辅助情感分类获得最终情感分类。本发明专利技术利用多模态信息间的信息互补,避免单模态信息由于信息模糊或缺失等因素导致的情感识别准确率低问题,为多模态数据融合及情感识别提供新思路。提供新思路。提供新思路。

【技术实现步骤摘要】
一种混合特征融合和决策融合的多模态情感识别方法


[0001]本专利技术涉及数据融合、神经网络、情感识别等领域,更具体地,涉及一种基于混合融合的多模态信息融合情感识别方法。

技术介绍

[0002]人类通过诸如表情、姿态、声音、语言等多种模态表达情感信息,情感行为是反映人类满意度的重要指标。随着人工智能技术的发展,情感识别是实现良好人机交互的重要手段。情感识别是通过提取情感信号的特征,获得情感的外在表象特征与内在情感状态的映射关系,从而识别被识别对象的内在情感类型。情感识别在机器服务、健康医疗、远程教育、无人驾驶等领域都有非常广阔的应用前景。
[0003]模态是一种表征信息的方式,如图像、文字、声音等。多模态即两个或者两个以上的模态的各种形式的组合。同一个对象具有不同模态的表述,不同模态信息之间既相互独立又具有潜在的关联性。目前,情感识别主要通过采集、分析单一模态情感信息,获取被测者的情感状态。由于单一模态信息抗干扰能力较弱,且易掺杂一些冗余信号或缺失部分信息,会造成分类识别的准确率低甚至分类错误。
[0004]人类的认知过程是多模态的,个体通过视觉、听觉乃至触觉等信号对场景进行感知,通过对信息的融合处理和语义理解获取情感等高维信息。多模态信息融合旨在模仿人类感知理解过程,通过建立能够处理、关联和推理来自多个模态信息的模型,利用模态信息间的互补性,捕捉不同模态信息间的潜在关联,实现剔除模态中冗余信息或者补充某一模态缺失信息的目的。
[0005]多模态融合根据融合的层次,主要分为三个方面:数据级融合、特征级融合、决策级融合。数据级融合仅适用于类型相近的信号间,无法处理差异较大的信号,如图像和声音信号等。特征级融合将不同的模态数据提取转化为高维特征表达,通过一定方式,将不同模态的高位特征进行组合,融合为新的特征向量,可以捕捉不同模态间的互补信息。决策级融合将不同模态数据作为训练好的分类器的输入,获取各个分类结果,依据融合方法输出最终的决策向量,充分考虑不同模态信息的差异性,且决策级融合的错误来自于不同的分类器,而不同分类器的错误通常互不相关,不会造成错误的累加。

技术实现思路

[0006]本专利技术的目的是克服现有的单模态情感识别方法具有的抗干扰能力较弱的缺点,利用多模态信息间的信息互补,提出高精度的多模态信息情感识别方法。本次专利技术采用混合特征层融合与决策层融合的信息融合方法,融合多模态信息构建一种混合特征融合和决策融合的多模态情感识别方法。
[0007]本专利技术的目的是通过下述技术方案实现的。
[0008]本专利技术公开的一种基于混合融合的多模态信息融合情感识别方法,包括步骤如下:
[0009]步骤1:基于卷积神经网络(CNN)框架构建图像情感识别网络,通过堆叠的卷积结构对图像信息进行特征提取,具有捕捉高维度特征的能力,进而获取图像特征,并分类获取图像信息情感状态;
[0010]步骤2:提取人脸特征区域边缘信息,通过判断有无边缘信息获得单图像特征矩阵,通过单图像特征矩阵累加处理得到情感特征矩阵,去除冗余区域特征信息,保留显著区域特征信息。
[0011]步骤3:构建混合融合的多模态信息融合网络。使用主分类器对图像情感标签与文本情感标签进行决策级融合,获得融合后的主分类结果。使用辅助分类器对图像特征与文本特征进行特征级融合,获得辅助分类结果。融合主分类结果和辅助分类结果获取最终的情感状态。构建特征融合层与决策融合层,综合利用两种模态信息间的相关性与互补性,实现最终的情感识别与分类任务。
[0012]步骤1实现方法为:
[0013]使用卷积神经网络(CNN)构建一个图像情感识别网络,用于提取图像特征并获取情感分类。该部分可采用多种图像特征提取网络,如VGGnet、Resnet等。将图像数据以大小为(B,C,H,W)的格式,输入图像情感识别取网络,其中B为批次大小(Batch size),即同时输入的图片信息张数;C为图像通道数,如彩色图像为RGB三通道,灰度图为单通道;H和W分别为图像的高度和宽度。网络提取图像特征I1,将I1送入全连接层并获取最终的图像信息情感状态I,I为[batch_size,num_class]维度的向量,num_class是预测的类别数。
[0014]步骤2实现方法为:
[0015]使用循环神经网络(RNN)构建一个文本情感识别网络,用于提取文本特征并获取情感分类。该部分可采用多种文本特征提取框架,如LSTM、BiLSTM等主流框架。对于文本数据,将文本中的每个单词输入至词嵌入层编码得到词向量,网络模型的输入维度为[batch_size,seq_len],其中batch_size为批次文本的大小,seq_len为句子的长度。在经过指定词嵌入层后随机初始化,词向量维度为[batch_size,seq_len,embed_size],embed_size为词向量维度。将得到的词向量输入到RNN,得到所有时刻的隐藏层向量[batch_size,seq_len,hidden_size*2],hidden_size为隐藏层大小。网络提取文本特征T1,将T1送入全连接层并获取最终的文本信息情感状态T,其中T为[batch_size,num_class]维度的向量,num_class是预测的类别数。
[0016]步骤3实现方法为:
[0017]步骤3.1:构建多模态信息融合的主分类器。将图像情感状态A和文本情感状态B进行拼接并送入主分类器中,获取维度为1*4主分类结果(Class);
[0018]步骤3.2:获取特征融合的图像特征和文本特征权重,并将图像特征与文本特征在batch维度上进行级联(Concatenation)操作,对于图像数据,其特征权重为:
[0019][0020]其中,B为批次大小,C为图像数据通道数。对于文本数据,其特征权重为:
[0021][0022]其中,B为文本批次大小,S为文本长度。将二者通过归一化映射至0

1区间上,获取新特征Fused_feature为:
[0023][0024]将新特征作为辅助分类器的输入,获取辅助分类结果(Auxiliary)。
[0025]步骤3.3:融合层采用动态路由的方式将输入向量路由到多个节点上,并通过向量的压缩和拼接生成最终的融合向量。首先输入的特征向量经过隐藏层:
[0026]u1=W1v1,u2=W2v2,
[0027]其中v1和v2为输入的文本和图像的特征向量,W为权重。采用动态路由的方式将上一步得到的特征向量路由到三个节点上:
[0028]s1=c
11
u1+c
12
u2,
[0029]s2=c
21
u1+c
22
u2,
[0030]s3=c
31
u1+c
32
u2,
[0031]通过向量的压缩和拼接去生成维度为1*4的辅助分类器:
[0032]v=本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种混合特征融合和决策融合的多模态情感识别方法,其特征在于:包括步骤如下,步骤1:基于卷积神经网络(CNN)框架构建图像情感识别网络,通过堆叠的卷积结构对图像信息进行特征提取,具有捕捉多维度特征的能力,进而获取图像特征,并分类获取图像信息情感状态;步骤2:基于循环神经网络(RNN)框架构建文本情感识别网络。RNN将前一个节点的输出作为下一个节点的输入,实现了RNN的记忆功能,从而使模型能够更好的对长文本信息进行特征提取,并识别文本信息情感状态;步骤3:构建混合融合的多模态信息融合网络。使用主分类器对图像情感标签与文本情感标签进行决策级融合,获得融合后的主分类结果。使用辅助分类器对图像特征与文本特征进行特征级融合,获得辅助分类结果。融合主分类结果和辅助分类结果获取最终的情感状态。构建特征融合层与决策融合层,综合利用两种模态信息间的相关性与互补性,实现最终的情感识别与分类任务。2.如权利要求1所述的一种混合特征融合和决策融合的多模态情感识别方法,其特征在于:步骤1的实现方法为,使用卷积神经网络(CNN)构建一个图像情感识别网络,用于提取图像特征并获取情感分类。该部分可采用多种图像特征提取网络,如VGGnet、Resnet等。将图像数据以大小为(B,C,H,W)的格式,输入图像情感识别取网络,其中B为批次大小(Batch size),即同时输入的图片信息张数;C为图像通道数,如彩色图像为RGB三通道,灰度图为单通道;H和W分别为图像的高度和宽度。网络提取图像特征I1,将I1送入全连接层并获取最终的图像信息情感状态I,I为[batch_size,num_class]维度的向量,num_class是预测的类别数。3.如权利要求1所述的一种混合特征融合和决策融合的多模态情感识别方法,其特征在于:步骤2的实现方法为,使用循环神经网络(RNN)构建一个文本情感识别网络,用于提取文本特征并获取情感分类。该部分可采用多种文本特征提取框架,如LSTM、BiLSTM等主流框架。对于文本数据,将文本中的每个单词输入至词嵌入层编码得到词向量,网络模型的输入维度为[batch_size,seq_len],其中batch_size为批次文本的大小,seq_len为句子的长度。在经过指定词嵌入层后随机初始化,词向量维度为[batch_size,seq...

【专利技术属性】
技术研发人员:刘兴旺廣田薰程智鹏李文龙戴亚平
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1