一种基于多模态融合的社交情感分类方法技术

技术编号:20655103 阅读:626 留言:0更新日期:2019-03-23 06:48
本发明专利技术提出了一种基于多模态融合的社交情感分类方法,涉及音频、视觉和文本形式的信息。情感计算分析研究大部分仅通过分析单模信息来提取情感信息,忽视了信息源之间的联系。本发明专利技术对于视频信息,提出3DCLS(3D CNN‑ConvLSTM)模型,通过三维卷积神经网络(C3D)和卷积长短期记忆递归神经网络(ConvLSTM)的级联组合来为情感识别任务建立时空信息。对于文本信息,通过CNN‑RNN混合模型进行文本情感分类。利用决策级融合对视觉、音频、文本进行异质性融合。本发明专利技术学到的深时空特征有效地模拟了视觉外观和运动信息,在融合文本和音频信息后,有效的提高了情感分析的准确率。

【技术实现步骤摘要】
一种基于多模态融合的社交情感分类方法
本专利技术涉及一种基于多模态融合的社交情感分类方法,主要从文本、视觉、音频信息源中提取情感特征,使用决策级融合对视觉、音频、文本进行异质性融合,产生最终的情感分类结果。
技术介绍
情感在我们的日常生活中起着至关重要的作用。他们在以人为中心的环境中帮助决策,学习,交流。过去二十多年来,人工智能研究人员一直试图赋予机器认知能力,以识别,解释和表达情感。所有这些努力都可以归结为情感计算,情感分析也成为社交媒体的一个新趋势,有力地帮助用户了解在不同平台上表达的意见。在过去的几年里,文本情感分析已经取得了很大的进展,人们正逐渐从文本转换为视频表达对产品或服务的意见,因为他们现在更容易、更快地生产和共享多模式内容。例如,消费者倾向于使用网络摄像机记录他们对产品的评论和意见,并将其上传到YouTube或Facebook等社交媒体平台,向用户表达他们的观点。出于同样的原因,潜在客户现在更倾向于浏览他们感兴趣的产品的视频评论,而不是寻找冗长的文本评论。这样做的另一个原因是,可信的文本评论很难找到,但是搜索好的视频评论却很容易。视频可以成为情感分析的绝佳资源,但媒体也面临着需要克服的重大挑战。例如,意见的表达在人与人之间差别很大,有些人委婉的表达自己的观点,有些人直观地表达意见,有些人则完全依赖逻辑表达情绪。当一个人用更多的声音调节来表达个人的意见时,音频数据通常会包含大部分表示意见的线索。当一个人通过面部表情表达个人意见时,情感分析所需的大部分数据往往可以通过面部表情分析来确定。因此,这些个人差异促使我们需要寻找一个通用的情感分析框架。到目前为止,情感分析大多数先进的框架依赖于处理单一的模式,即文本,音频或视频。虽然最近的研究已经考虑了多模式方法,但大部分研究仅通过在特征或决策级别上简单融合视频和音频情感信息,忽视了文本情感信息。因此,这些说明了开发一个多模式态框架的重要性和可行性。通过开发一个多模态框架,可以应付以人为中心的环境中的所有三种传感模式-文本,音频和视频。人们通过不同的渠道交流和表达自己的情感,文本,音频和视觉形式被同时利用,以便能够有效地提取对话中传达的语义和情感信息。传统的情感识别方法是基于人工设计的特征。随着大规模数据集越来越普及,深度学习已经成为机器学习的一种通用方法,在许多计算机视觉和自然语言处理任务中,机器学习产生了最先进的结果。最近,三维卷积神经网络(C3D)在处理各种视频分析任务方面取得了很大进展。C3D可以同时对外观和运动信息进行建模,采用线性分类器的C3D特征可以在不同的视频分析基准上实现良好的性能。对于基于视频的情感识别任务中,在现有的专利技术中,很少有将C3D网络用于自己的研究中。
技术实现思路
为了克服上述现有技术中存在的缺陷,本专利技术提供了一种基于多模态融合的社交情感分类方法,用于社交情感分类。为了实现本专利技术的上述目的所提出的情感分类方法主要包括如下步骤:基于CNN-RNN混合模型的文本情感分类步骤,利用CNN-RNN混合模型提取文本信息中的情感特征并进行分类处理;基于3DCLS模型的视觉情感分类步骤,利用3DCLS模型提取视觉信息中的时空特征,卷积长短期记忆网络对时空特征序列进行分类处理;基于openSMILE的音频情感分类步骤;和决策融合步骤,将特征提取获得的结果利用决策融合方法进行异质性融合。鉴于此,本专利技术的具体步骤为:(1)基于CNN-RNN混合模型的文本情感分类步骤S11:对输入文本进行预处理,并将其标记为一个单词序列,每个单词都将从word2vec模型中查找得到对应的单词嵌入矩阵,这个字典(word2vec)为每个单词提供了一个300维向量,对于这个词典中没有的单词,使用随机向量。S12:将句子向量视为图像,并通过线性过滤器对其进行卷积。S13:对卷积后的每个输出序列tj应用一个非线性激活函数f来产生一个特征映射c∈Rn-h+1,其中cj=f(tj),cj表示每一个输出序列tj所对应的特征映射,j=1,…,n-h+1,h是滤波器的长度,f是一个非线性变换函数。S14:特征向量可以被馈送到CNN(ConvolutionalNeuralNetwork)的下一层以进一步卷积,卷积过程与S13一样,或者可以被用于不同自然与预处理任务的输出向量。这里,这个文本特征向量被用作RNN(RecurrentNeuralNetworks)的输入。S15:将隐藏状态的输出看作是RNN的最后一步,使用softmax层对文本进行预测分类,然后将交叉熵损耗从RNN反向传播到CNN以更新CNN-RNN模型的权重。使用随机梯度下降(SGD)来加速收敛。(2)基于3DCLS模型的视觉情感分类步骤S21:使用C3D从输入视频中提取时空特征,每段视频剪辑为长度为16的序列片段,将序列片段作为输入信息。C3D网络有8个卷积,5个最大池化层和2个完全连接层,然后是一个softmax输出层。S22:视频V划分为T个片段,V=(v1,v2,…,vt,…,vT),其中vt是V的第t个片段,K是片段的长度,N表示帧数。接下来,使用3-DCNN网络对每个分割片段进行编码,从而产生图像帧序列X=(x1,x2,…,xT)。S23:将隐藏状态的输出看作是LSTM(RecurrentNeuralNetworks)的最后一步,使用softmax层对视觉信息进行预测分类。(3)基于openSMILE的音频情感分类步骤从视频的每个注释片段中使用开源软件openSMILE自动提取音频特征,音频特征以30Hz的帧率提取,滑动窗口设置为100ms。最后将openSMILE提取的音频特征使用SVM进行情感分类预测。(4)决策融合S31:获得特征向量不是像特征级融合那样连接特征向量,而是为每种模态使用单独的分类器。S32:从每个分类器中获得每个情感类别的概率分数。S33:使用加权和法则,将每个情感类别的概率相加,然后选择最大的标签。本专利技术提出了一种多模态情感识别框架,并专利技术了用于视觉特征提取和预测的3DCLS模型,这为传统的多模态情感识别框架性能提供了显著的改进,本专利技术框架能够有效地提取对话中传达的语义和情感信息。本专利技术利用决策级融合对视觉、音频、文本进行异质性融合。本专利技术学到的深时空特征有效地模拟了视觉外观和运动信息,在融合文本和音频信息后,有效的提高了情感分析的准确率。附图说明图1是本专利技术的模型框架图;图2是本专利技术的文本情感分类图;图3是本专利技术的视觉情感分类图。具体实施方式下面结合附图对本专利技术的具体实施作进一步的详细阐明。图1是本专利技术的模型框架图。涉及音频、视觉和文本形式的信息特征提取和决策融合分类。(1)基于CNN-RNN混合模型的文本情感分类:对于文本信息,使用CNN-RNN混合模型实现文本情感分析。CNN-RNN由两个部分组成:卷积神经网络提取文本特征,递归神经网络用于情感预测。(2)基于3DCLS模型的视觉情感分类:3DCLS(3DCNN-ConvLSTM)由两个部分组成:三维卷积神经网络从输入视频中提取时空特征,卷积LSTM(LongShort-TermMemory)进一步学习长期的时空特征,并对提取的特征序列进行处理和情感预测。(3)基于openSMILE的音频情感分类:openSMIL本文档来自技高网
...

【技术保护点】
1.一种基于多模态融合的社交情感分类方法,其特征在于:包括情感特征提取和融合两个步骤;所述情感特征提取步骤包括:利用CNN‑RNN混合模型提取文本信息中的情感特征并进行分类处理;利用3DCLS模型提取视觉信息中的时空特征,卷积LSTM对时空特征序列进行分类处理;利用OpenSMILE工具提取音频特征,再进行情感分类预测;所述融合步骤为将特征提取获得的结果利用决策融合方法进行异质性融合。

【技术特征摘要】
1.一种基于多模态融合的社交情感分类方法,其特征在于:包括情感特征提取和融合两个步骤;所述情感特征提取步骤包括:利用CNN-RNN混合模型提取文本信息中的情感特征并进行分类处理;利用3DCLS模型提取视觉信息中的时空特征,卷积LSTM对时空特征序列进行分类处理;利用OpenSMILE工具提取音频特征,再进行情感分类预测;所述融合步骤为将特征提取获得的结果利用决策融合方法进行异质性融合。2.根据权利要求1所述一种基于多模态融合的社交情感分类方法,其特征在于:所述CNN-RNN混合模型对文本信息的处理包括以下步骤:S11:对输入的文本信息进行预处理,并将其标记为一个单词序列;S12:将句子向量视为图像,并通过线性过滤器对其进行卷积;S13:对卷积后的每个输出序列tj应用一个非线性激活函数f来产生一个特征映射;S14:将S13进行特征映射后获得的特征向量馈送到CNN的下一层以进一步卷积,卷积过程与S13一样,将卷积后的结果作为RNN的输入;S15:将隐藏状态的输出看作是RNN的最后一步,使用softmax层对文本进行预测分类,然后将交叉熵损耗从RNN反向传播到CNN以更新CNN-RNN模型的权重。3.根据权利要求1所述一种基于多模态融合的社交情感分类方法,其特征在于:视觉信息...

【专利技术属性】
技术研发人员:徐光侠李伟凤刘俊吴涛王天羿吴佳健
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1